OpenAI发布o3和o4-mini：能"用图像思考"并自主调用工具的AI模型

OpenAI今日发布了两款突破性AI模型，它们不仅能结合图像进行推理，还可自主调用工具。专家认为，这标志着人工智能能力的一次质变。

这家总部位于旧金山的公司推出了o3和o4-mini，作为其"o系列"推理模型的最新成员。官方宣称，这是迄今为止最智能、最强大的模型。这些系统能将图像直接融入推理流程，在单一任务中完成网页搜索、代码运行、文件分析乃至图像生成等操作。

"有些模型会让人感觉跨入了未来，GPT-4曾是这样，今天也将成为这样的日子。"OpenAI总裁Greg Brockman在发布会上表示，"顶尖科学家反馈称，这些模型能产出真正优质且实用的创新想法。"

新模型如何"用图像思考"革新视觉问题解决

最引人注目的功能是其"用图像思考"的能力——不仅是识别图像，更将其作为问题解决过程中的可操作元素。

"它们不只是'看'图像，而是用图像'思考'。"OpenAI在声明中解释道，"这解锁了融合视觉与文本推理的全新问题解决方式。"

发布会演示环节中，研究员展示了o3如何分析一份十年前的物理实习海报：自主解析复杂图表后，它甚至发现最终结果并未体现在海报上。"它相当于在几秒内替我阅读了至少10篇论文。"OpenAI多模态推理研究员Brandon McKenzie表示，这项任务若由人工完成需耗时数日。

AI能在推理过程中缩放细节、旋转图表或裁剪冗余元素，这种主动的图像操控能力被行业分析师认为将变革从科研到教育的多个领域。

超越模型：o3与o4-mini作为完整AI系统的工具链集成

OpenAI强调，这些发布不仅是模型升级，更是能自主串联多工具的完整AI系统。"我们通过强化学习训练它们不仅会使用工具，还能判断何时使用。"公司解释道。

Brockman举例说明："在解决难题时，o3曾连续调用600次工具。"这种能力使模型无需人工干预即可完成复杂工作流。例如询问加州未来能源使用趋势时，AI能自动搜索公用数据、编写Python分析代码、生成可视化图表并整合成报告。

OpenAI以破纪录性能领跑AI竞赛

o3在Codeforces、SWE-bench和MMMU等关键基准测试中刷新纪录。独立评估显示，其在复杂现实任务中的重大错误率比前代降低20%。

轻量化的o4-mini在速度与成本效率上表现突出。使用Python解释器时，其在2025年AIME数学竞赛中取得99.5%的准确率。

此次发布恰逢OpenAI推出专精编程的GPT-4.1后仅两天，凸显AI领域竞争白热化。面对谷歌Gemini、AnthropicClaude和马斯克xAI的追赶，OpenAI上月刚完成创纪录的400亿美元融资，估值达3000亿美元。据悉，公司还考虑建设自有社交网络以获取专属训练数据。

新模型如何以代码导航能力变革软件工程

Brockman坦言："o3在导航OpenAI代码库时比我更高效。"同步发布的还有开源工具Codex CLI，开发者可通过终端直接调用模型推理能力，支持上传截图或草图辅助编程。为推广使用，OpenAI设立100万美元基金，为优秀项目提供2.5万美元API代金券。

OpenAI的安全防护体系

公司宣称已对模型进行史上最严格安全测试，包括重构安全训练数据集和开发系统级风险标记机制。测试显示，o3与o4-mini在生物、网络安全和AI自我进化等高风险领域的潜在威胁均低于"高"阈值。

开放计划与商业策略

ChatGPT Plus、Pro和Team用户即日可用，企业和教育客户下周开放。免费用户提交查询前选择"思考"选项可体验o4-mini。开发者可通过Chat Completions API和Responses API接入，部分机构需验证权限。

AI未来：推理与对话的融合

OpenAI指出，此次更新标志着"o系列的专业推理能力与GPT系列的自然对话及工具使用正在融合"。沃顿商学院研究AI应用的Ethan Mollick教授评价o3为"强大但仍有棱角的模型"。

当AI开始像人类一样将视觉信息作为思维素材而不仅是分析对象时，这种从被动识别到主动视觉推理的跨越，或许比任何基准分数都更具深远意义——这标志着AI首次真正通过"思考的眼睛"观察世界。

精选文章：