在对话式AI领域,创造兼具人性化与多样性的语音始终是技术难点。人们渴望听到与自己相似的自然声音,而非千篇一律的"播音腔"。

初创公司Rime推出的Arcana文本转语音(TTS)模型正突破这一瓶颈。仅需输入简单的特征描述,该系统就能即时生成不同性别、年龄、族裔和语言的"无限"语音变体。目前该技术已为达美乐、Wingstop等品牌带来15%的销售增长。

"高质量的拟真语音只是基础,"Rime CEO莉莉·克利福德表示,"真正的突破在于能沿人口统计学维度创造无限变化的语音库。"

会"表演人性"的语音模型

Rime的多模态自回归TTS模型基于真实自然对话训练(非专业配音)。用户只需输入如"30岁加州软件行业女性"或"澳大利亚男性"等文本提示,即可获得独特语音。

"每次生成都是全新声音,"克利福德强调。专为高并发商业场景设计的Mist v2版本,让企业能定制符合业务需求的语音形象。系统还提供8款预设语音角色:

卢娜(Z世代乐观女性)

奥利恩(非裔开朗中年男性)

埃斯特(华裔温柔长者)等

该模型不仅能切换语言,还可实现耳语、嘲讽等语气,甚至能通过<笑>标签插入从轻笑到大笑的真实笑声。技术白皮书指出:"它能根据上下文推断情绪,自然地说'呃'等口头禅,这些涌现行为我们仍在探索中。"

捕捉真实对话的奥秘

Arcana的三大训练阶段:

1基于开源大语言模型(LLM)预训练,学习通用语言声学模式

2使用海量专有数据集进行监督微调

3筛选最优说话人样本进行针对性优化

训练数据涵盖社会语言学特征(阶级、性别等背景)、个人语言习惯及副语言线索(语调、停顿等)。公司甚至在旧金山地下室自建录音室,通过Craigslist招募普通人录制自然对话而非剧本朗读,最终实现98-100%的准确率。

"如果只用专业配音,永远达不到这种亲密度,"克利福德揭秘道,"我们的核心竞争力就在于这些真实样本。"

创造定制声音的"个性化引擎"

Rime开发了A/B测试工具"个性化引擎",通过API反馈数据分析最佳语音方案。不同行业成功标准各异——餐饮业可能是追加薯条或鸡翅的推荐成功率。数据显示,使用Rime后客户与AI交谈意愿提升4倍,20%通话结束时会向机器人道谢。

目前该系统每月处理近1亿通电话,"拨打达美乐或Wingstop时,80-90%概率听到Rime语音。"克利福德透露。未来公司将重点发展本地化部署以降低延迟,预计2025年底90%业务将转为本地运行。

"当客户说'不需要转人工'时,我们知道革命正在发生。"克利福德总结道。这项技术证明,当AI语音足够人性化,商业转化便水到渠成。

精选文章:

橱窗艺术的复兴:为何实体展示依然不可替代

"它重新定义了汽车品牌的角色":CUPRA跨界时尚设计的颠覆之路

突破常规:MVRDV以错动体块打造台北垂直拼图住宅

Sergio Membrillas 谈保持真实的艺术:插画、演变以及在创作过程中寻找乐趣

乐高新园区将打造全球最大乐高图书馆 采用员工主导设计理念