腾讯开源3D场景生成AI

腾讯近日宣布开源"混元世界模型1.0"，这款生成式AI模型能够根据文本或图像提示自动创建3D虚拟场景。

据腾讯官方介绍，这是首个专为标准图形管线设计的开源模型，可完美兼容游戏引擎、VR平台和仿真工具。该模型旨在帮助创作者突破专利壁垒，快速实现从概念到3D内容的转化。

三组由混元世界模型1.0生成的360度全景图，展示了如何通过文本提示自动创建适用于游戏引擎的沉浸式3D场景。| 图片来源：腾讯（截图）

该模型的核心特性是支持场景元素解耦——用户可单独移动或编辑场景中的车辆、树木、家具等元素。天空区域被智能分离，可作为动态光源使用，显著提升渲染真实感与交互体验。

混元世界模型1.0支持生成后对场景元素进行独立编辑。| 图片来源：腾讯

全景交互与有限探索

混元世界模型1.0融合了全景图像生成与分层3D重建技术，支持"文本生成世界"和"图像生成世界"两种输入模式。生成的场景可导出为网格文件，腾讯表示其能无缝对接标准3D工作流程。

实际应用中，该模型暂不能生成类似现代电子游戏中完全可探索的3D世界，而是提供可交互的360度全景场景。用户虽能环视并有限导航，但自由移动仍受限制。如需实现高级镜头运动或生成长时间连贯的3D视频序列，需配合腾讯近期论文中公布的Voyager扩展模块使用。

腾讯认为这些可视化成果可作为VR开发的起点，同时该模型也适用于各类交互与创意场景。其文本理解能力专为精准映射复杂场景描述而优化，并支持多种面向网页和VR环境的压缩加速技术。模型采用生成式语义分层架构，可产出多风格场景满足创意设计需求。

混元世界模型1.0已在GitHub和Hugging Face开源，用户可通过sceneTo3D体验交互演示（需中国大陆地区账号登录）。

此次发布是腾讯AI开源战略的重要组成。同期开源的还包括：混元3D 2.0（带纹理3D模型生成）、混元视频（AI视频生成）以及具备动态推理能力的混元-A13B语言模型。

精选文章：