与人工智能交互的纯文本时代已经结束。

在过去的三年里,人工智能的突破性时刻几乎完全通过文本来实现。我们输入提示词,得到回复,然后转向下一个任务。虽然这种直观的交互方式一夜之间让聊天机器人变成了家喻户晓的工具,但它仅仅触及了我们这个时代最先进技术实际能力的皮毛。
这种脱节导致了消费者在使用人工智能方面存在显著差距。虽然底层模型正迅速变得多模态——能够实时处理语音、视觉和视频——但大多数消费者仍然将它们用作搜索引擎。展望2026年,我相信下一波应用浪潮将不仅仅关乎实用性,更关乎从静态文本向动态、沉浸式交互的演进。这就是人工智能2.0时代:不仅仅是更快地检索信息,而是通过声音、视觉、动作和实时情境来体验智能。
人工智能的采用已经达到了一个临界点。2025年,ChatGPT的周活跃用户基数从2月的大约4亿增长到年底的8亿,翻了一番。像Gemini和Anthropic这样的竞争对手也经历了类似的增长,然而大多数用户仍然主要通过文本聊天机器人与大型语言模型互动。事实上,德勤的互联消费者调查显示,尽管超过半数(53%)的消费者尝试过生成式人工智能,但大多数人仍然只将人工智能用于写作、总结和研究等行政性任务。
然而,当你观察消费者在人工智能领域之外的数字行为时,很明显他们渴望沉浸式体验。根据Activate咨询公司的《2026年科技与媒体展望》,43%的Z世代更喜欢像TikTok和YouTube这样的用户生成内容平台,而不是传统电视或付费流媒体,他们在社交视频平台上的时间比普通消费者多出54%,正在放弃传统媒体转向互动社交平台。
这造成了一个根本性的不匹配:消费者生活在一个多感官的世界,但他们的人工智能工具却仍停留在提供纯文本的水平。尽管业界认识到了这一差距并正投资弥合它,但我预测,人们使用和创作人工智能的方式将发生根本性转变。在人工智能2.0时代,用户将不再仅仅是消费人工智能生成的内容,而是将利用多模态人工智能将语音、视觉和文本结合起来,让他们能够实时塑造和引导自己的体验。
多模态人工智能开启沉浸式叙事
如果说人工智能1.0是关于效率,那么人工智能2.0则是关于参与度。基于文本的人工智能在吸引受众深度参与方面存在局限,而多模态人工智能则允许用户成为积极的参与者。你不再仅仅是阅读一个故事,而是可以与主角互动,将情节引向新的方向,或者构建你自己的世界,其中的叙事和角色会与你共同演进。
我们可以从价值2500亿美元的游戏行业看到多模态人工智能的潜力蓝图。电子游戏结合了视觉、音频、叙事和实时操控性,创造了传统娱乐无法复制的沉浸式体验。像Roblox和Minecraft这样的平台让玩家"居住"在内容中。仅Roblox就拥有超过1亿日活跃用户,他们每年沉浸在这些世界中的总时长高达数百亿小时;这种参与度是纯文本永远无法产生的。
随着多模态人工智能的兴起,各地的用户将能够创造出他们曾通过游戏喜爱参与的那种体验。通过消除技术壁垒,多模态人工智能使每个人都能构建不仅感觉逼真,而且能积极参与其中的体验。传统媒体也在回应这一趋势。迪士尼最近宣布向OpenAI投资10亿美元,并达成一项授权协议,将允许用户通过Sora平台使用漫威、皮克斯和星球大战的角色创建短视频片段。
为什么多模态人工智能对年轻用户可能更安全
随着人工智能成为日常生活的一部分,安全性——尤其是对年轻用户而言——已成为该行业面临的最关键问题之一。
从开放式聊天转向结构化的多模态世界,使我们能够在游戏玩法中设计护栏。这些环境围绕角色、视觉、语音和定义好的故事世界构建,而不是依赖持续的非结构化提示。交互由体验本身引导。这种结构改变了安全设计在系统中的方式和位置。
教育类人工智能展示了这种方法。像可汗学院儿童版和Duolingo这样的平台结合了视觉、音频和结构化提示来引导学习。人工智能并非试图无所不能,而是专注于做好一项任务。随着多模态人工智能的发展,其最具意义的机会之一可能就是这种平衡创意自由与审慎约束的能力。人工智能2.0代表了一种设计转变,可以为建设者、教育者和家庭提供新的方式,为下一代塑造更安全、更具意向性的数字空间。
为什么多模态人工智能是下一个前沿
我预测,到2026年,消费者将不再仅仅是给人工智能发指令;它将是一种更具沉浸感的互动体验。这让我感到兴奋,因为用户将不再被动地接收输出结果,而是会主动塑造体验并实时影响人工智能的演进。我们可能会看到用户重新混剪他们最喜欢的电视剧的系列大结局,或者学生不是通过阅读教科书,而是通过与具有历史准确性的人工智能模拟进行主动辩论来学习历史。
对于创始人和创作者来说,下一步是停止只为效率构建工具,而要开始为沉浸和探索构建环境。下一个周期的赢家不会是最聪明模型的拥有者,而是那些能让人工智能感觉不像一个工具,而更像一个丰富互动体验目的地的人。
精选文章: