依赖神经网络从文本提示等输入创建新图像的AI图像生成技术,预计将在本年代末成为价值数十亿美元的产业。以现有技术为例,若想生成朋友在火星插旗或义无反顾飞向黑洞的奇幻画面,耗时可能不足一秒。
然而在实现这些功能前,图像生成器通常需要在包含数百万张配文图像的海量数据集上进行训练。这一过程往往需要消耗数周甚至数月时间,并占用巨大的计算资源。
但若存在完全不依赖生成器就能实现AI图像生成的方法呢?今年夏天在温哥华举行的国际机器学习会议(ICML 2025)上,一篇研究论文提出了这种可能性。该论文已发布于arXiv预印本服务器,由MIT信息与决策系统实验室研究生Lukas Lao Beyer领衔,联合MIT计算机科学与人工智能实验室博士后李天宏、Facebook AI研究院陈鑫磊等学者共同完成。
这项研究的起点是Lao Beyer对字节跳动与慕尼黑工业大学学者2024年6月论文的探索。该论文提出了一种称为"一维标记器"的视觉信息表征新方法——仅用32个称为"标记"的数字序列就能编码256x256像素的图像。传统标记器需要将图像分解为16x16的标记阵列,而新型一维标记器不仅能以更少标记实现高效编码,每个标记还能捕获整幅图像(而非局部区域)的信息。
"每个标记实际上是由1和0组成的12位数字,相当于约4000种可能性的抽象计算机语言。"论文合著者Kaiming He教授解释道。通过系统性地替换标记,团队发现单个标记就能改变图像分辨率、背景虚化或亮度。更惊人的是,存在控制物体姿态的标记——例如调整标记数值可使图像中知更鸟的头部方向发生改变。
这项发现催生了全新的图像编辑方法。更重要的是,团队实现了无需生成器的图像创建:仅依靠一维标记器、解标记器(解码器)及现成的CLIP神经网络(用于评估图像与文本匹配度),就能将红熊猫图像转换为老虎,或从随机标记值起步生成符合文本描述的全新图像。该方案同样适用于图像修复(inpainting)任务,由于跳过了生成器训练环节,可大幅降低计算成本。
"我们并未发明新组件,"He教授强调,"但通过现有技术的创新组合,解锁了前所未有的功能。"纽约大学计算机科学家Saining Xie评价道:"这项工作重新定义了标记器的角色,证明图像压缩工具竟能独立完成生成模型的任务。"普林斯顿大学刘庄认为该方法"将图像生成成本降低数倍"。
研究团队指出,该技术可拓展至自动驾驶等领域——用标记编码车辆行驶路线而非图像信息。正如Lao Beyer所言:"这种极致压缩技术能催生跨领域的惊人应用。"Xie教授也认为:"这项突破将开启诸多令人兴奋的应用场景。"
精选文章: