Midjourney推出首款视频模型，用户可将静态图像转化为动画短片

经过数月的猜测，Midjourney终于推出了其首款视频模型。公司称这一举措是实现AI系统实时模拟完整3D世界的重要早期里程碑。

全新的"图像转视频"功能允许用户将任何Midjourney生成的静态图像转化为动画短片。用户只需在网页界面点击新增的"动画"按钮，即可选择自动模式（由系统决定动画效果）或手动模式（通过文字描述自定义动画效果）。

该功能提供两种主要模式："低动态"模式适合固定镜头和缓慢移动的场景，而"高动态"模式会大幅增强镜头和主体的运动幅度——不过Midjourney表示，这可能导致画面精确度下降。

每段视频可进行最多四次延长，每次延长约4秒。用户还能在每次延长时修改原始图像的提示词。

非Midjourney生成的图像也可通过拖拽至提示框并设为"起始帧"来实现动画效果，用户只需用文字描述期望的运动轨迹即可。

目前官方尚未公布分辨率、帧率或比特率的具体参数，也未内置画质提升功能。实测下载的视频为480p MP4格式，帧率为24fps。

视频生成成本约为图像的八倍

该视频功能目前仅限网页端使用。生成视频的消耗约为静态图像的八倍，每次可生成四段5秒的短片。实际换算相当于每秒视频消耗约1张图像的生成额度。Midjourney声称其成本比竞品低约25倍。

针对"Pro"及以上等级用户，公司正在测试"视频放松模式"，允许用户在不消耗快速生成额度的情况下制作视频，可能进一步降低单次生成成本。官方表示未来几周将根据需求量和服务器负载调整定价策略。

技术演进与行业竞争

Midjourney将此次视频模型的发布视为关键过渡步骤。其长期目标是将视频模型、3D元素与实时处理技术整合为统一平台。创始人David Holz始终致力于开发能实时模拟世界的系统。视频模型开发过程中积累的经验也将反哺现有的图像工具。

在AI视频领域，谷歌Veo 3模型目前被普遍视为行业标杆。该模型可直接通过文字提示生成视频，无需初始图像，还能添加语音和音效，在当前AI视频领域独树一帜。

法律纠纷持续发酵

与此同时，迪士尼与环球影业已联合起诉Midjourney，指控其AI图像生成器未经授权创建了达斯·维德、小黄人等注册商标角色的图像。这份提交至加州联邦法院的诉状指出，Midjourney在多次警告后仍持续复制受版权保护的内容。

两家制片公司要求赔偿损失、陪审团审判，并申请禁令阻止未来对受保护角色的使用。类似版权纠纷可追溯至2023年。截至目前，Midjourney尚未公开回应，其新视频模型的训练数据来源亦不明确。

精选文章：