谷歌 Gemini 2.5 Flash 升级 AI 图像编辑功能，提示词准确率更高

Google Deepmind 正在为 Gemini 应用添加一款全新的图像编辑模型，该模型能按需对照片进行大幅修改，同时确保人物和动物保持可识别性。

这款全新的 “Gemini 2.5 Flash 图像生成” 模型基于 Gemini 早期原生图像生成工具构建，但在提示词处理上更加精准。谷歌表示，其表现通常优于 ChatGPT 所使用的 GPT-4o 模型，尤其是在遵循文本指令进行图像编辑方面。虽然许多纯图像模型仍在与提示词准确性作斗争，但 Gemini 2.5 Flash 的准确率更高。

一个关键特性是“角色一致性”：该模型能够使人物、动物或物体在多张图像中保持视觉上的一致，即使姿势、背景或光线发生变化。

Gemini 2.5 Flash 能在新场景中保持角色一致性。其表现是否优于更复杂的微调方法仍有待观察。| 图片来源：Google Deepmind

这为创建图像系列或多角度产品拍摄开辟了新的可能性。谷歌表示，该模型非常适合生成一致的品牌资产和产品目录，并声称 Gemini 2.5 Flash 在广泛的编辑任务上优于其他图像系统。

Gemini 2.5 Flash 在多项人工评分的图像编辑基准测试（ELO 分数）中优于之前的模型。| 图片来源：Google

该模型还支持通过文本提示进行精确的局部编辑。用户可以模糊背景、去除瑕疵、添加颜色或擦除整个对象，而无需手动选择。一款名为 “PixShop”的模板应用通过简单的界面和提示控制展示了这些编辑功能。

PixShop 展示了 Gemini 2.5 Flash 基于文本的编辑工具。| 图片来源：Google Deepmind

图像合成、风格迁移与真实世界推理

Gemini 2.5 Flash 可以一次性融合最多三张图像。例如，您可以将产品照片和房间照片结合起来，创造出逼真的室内场景。包含多个元素的复杂构图可以通过单次提示生成。谷歌还提供了一个交互式画布工具用于多图像融合。

Gemini 2.5 Flash 将多张图像混合成一个构图。| 图片来源：Google Deepmind

该模型也能处理风格迁移，将图案、颜色或纹理从一个物体转移到另一个物体，同时保持形状和细节不变。典型的例子包括带有蝴蝶图案的连衣裙或带有花卉纹理的靴子。

Gemini 2.5 Flash 跨物体应用图案和风格。| 图片来源：Google Deepmind

Gemini 2.5 Flash 还能可视化简单的因果关系，谷歌称之为“真实世界推理”。在一个演示中，模型生成了一张气球飘向仙人掌的图像，然后又生成了另一张显示接下来会发生什么的图像。

该模型可以阐释因果关系，例如气球遇到仙人掌。| 图片来源：Google Deepmind

谷歌表示，这些语义特性借鉴了 Gemini 2.5 的世界知识。您可以使用一款遵循文本指令的绘画应用亲自尝试这些功能。

面向用户和开发者开放

Gemini 2.5 Flash 图像工具现已可在 Gemini 应用中使用。您无需在聊天栏中选择 “Imagen” 图像模型，而是需要在左上角切换到 “Flash” 语言模型才能使用新功能。这个设置起初可能有点令人困惑，但考虑到 Gemini 基于语言的编辑方法，这是合理的。

要使用 Gemini 2.5 Flash 图像编辑，请在 Gemini 应用中选择 “Flash” 语言模型。| 图片来源：THE DECODER 截图

选择正确的模型后，您可以上传图像并向 Gemini 发出编辑指令。每张图像都带有可见水印和不可见的 SynthID 数字水印。

Gemini 2.5 Flash Image 也通过 Gemini API、Google AI Studio 和 Vertex AI 提供预览版。定价为每百万输出 tokens 30 美元。每张图像使用约 1290 个 tokens，即每张图像约 0.039 美元，与 Gemini 2.0 Flash Image 相同。

精选文章：

我们现在为谁设计？

借助人工智能聊天机器人，大型科技公司正在快速发展并打破人们的幻想

他们本来不想当建筑师，却成了普利兹克奖得主

8 个大胆的想法，让你的设计更上一层楼

十大即将落成的科技体育场馆：当建筑遇见未来