腾讯近日宣布开源"混元世界模型1.0",这款生成式AI模型能够根据文本或图像提示自动创建3D虚拟场景。

据腾讯官方介绍,这是首个专为标准图形管线设计的开源模型,可完美兼容游戏引擎、VR平台和仿真工具。该模型旨在帮助创作者突破专利壁垒,快速实现从概念到3D内容的转化。

三组由混元世界模型1.0生成的360度全景图,展示了如何通过文本提示自动创建适用于游戏引擎的沉浸式3D场景。| 图片来源:腾讯(截图)

该模型的核心特性是支持场景元素解耦——用户可单独移动或编辑场景中的车辆、树木、家具等元素。天空区域被智能分离,可作为动态光源使用,显著提升渲染真实感与交互体验。

混元世界模型1.0支持生成后对场景元素进行独立编辑。| 图片来源:腾讯

全景交互与有限探索

混元世界模型1.0融合了全景图像生成与分层3D重建技术,支持"文本生成世界"和"图像生成世界"两种输入模式。生成的场景可导出为网格文件,腾讯表示其能无缝对接标准3D工作流程。

实际应用中,该模型暂不能生成类似现代电子游戏中完全可探索的3D世界,而是提供可交互的360度全景场景。用户虽能环视并有限导航,但自由移动仍受限制。如需实现高级镜头运动或生成长时间连贯的3D视频序列,需配合腾讯近期论文中公布的Voyager扩展模块使用。

腾讯认为这些可视化成果可作为VR开发的起点,同时该模型也适用于各类交互与创意场景。其文本理解能力专为精准映射复杂场景描述而优化,并支持多种面向网页和VR环境的压缩加速技术。模型采用生成式语义分层架构,可产出多风格场景满足创意设计需求。

混元世界模型1.0已在GitHub和Hugging Face开源,用户可通过sceneTo3D体验交互演示(需中国大陆地区账号登录)。

此次发布是腾讯AI开源战略的重要组成。同期开源的还包括:混元3D 2.0(带纹理3D模型生成)、混元视频(AI视频生成)以及具备动态推理能力的混元-A13B语言模型。

精选文章:

空灵优雅:揭秘Christine的AI艺术世界

微软测试在Copilot中将图片转换为3D模型的功能

办公室不再仅仅是一个空间,而是一种吸引人才的策略

无障碍设计并非可有可无:设计人人都能使用的产品

2025年全球50佳餐厅名单公布