经过数月的猜测,Midjourney终于推出了其首款视频模型。公司称这一举措是实现AI系统实时模拟完整3D世界的重要早期里程碑。
全新的"图像转视频"功能允许用户将任何Midjourney生成的静态图像转化为动画短片。用户只需在网页界面点击新增的"动画"按钮,即可选择自动模式(由系统决定动画效果)或手动模式(通过文字描述自定义动画效果)。
该功能提供两种主要模式:"低动态"模式适合固定镜头和缓慢移动的场景,而"高动态"模式会大幅增强镜头和主体的运动幅度——不过Midjourney表示,这可能导致画面精确度下降。
每段视频可进行最多四次延长,每次延长约4秒。用户还能在每次延长时修改原始图像的提示词。
非Midjourney生成的图像也可通过拖拽至提示框并设为"起始帧"来实现动画效果,用户只需用文字描述期望的运动轨迹即可。
目前官方尚未公布分辨率、帧率或比特率的具体参数,也未内置画质提升功能。实测下载的视频为480p MP4格式,帧率为24fps。
视频生成成本约为图像的八倍
该视频功能目前仅限网页端使用。生成视频的消耗约为静态图像的八倍,每次可生成四段5秒的短片。实际换算相当于每秒视频消耗约1张图像的生成额度。Midjourney声称其成本比竞品低约25倍。
针对"Pro"及以上等级用户,公司正在测试"视频放松模式",允许用户在不消耗快速生成额度的情况下制作视频,可能进一步降低单次生成成本。官方表示未来几周将根据需求量和服务器负载调整定价策略。
技术演进与行业竞争
Midjourney将此次视频模型的发布视为关键过渡步骤。其长期目标是将视频模型、3D元素与实时处理技术整合为统一平台。创始人David Holz始终致力于开发能实时模拟世界的系统。视频模型开发过程中积累的经验也将反哺现有的图像工具。
在AI视频领域,谷歌Veo 3模型目前被普遍视为行业标杆。该模型可直接通过文字提示生成视频,无需初始图像,还能添加语音和音效,在当前AI视频领域独树一帜。
法律纠纷持续发酵
与此同时,迪士尼与环球影业已联合起诉Midjourney,指控其AI图像生成器未经授权创建了达斯·维德、小黄人等注册商标角色的图像。这份提交至加州联邦法院的诉状指出,Midjourney在多次警告后仍持续复制受版权保护的内容。
两家制片公司要求赔偿损失、陪审团审判,并申请禁令阻止未来对受保护角色的使用。类似版权纠纷可追溯至2023年。截至目前,Midjourney尚未公开回应,其新视频模型的训练数据来源亦不明确。
精选文章: