在 2026 年挑选 AI 语音,有个让人不太舒服的事实:试听,是判断它好坏最糟糕的方法。每一个认真的工具——ElevenLabs、OpenAI、微软 Azure、Google、Murf、Play.ht,加上 CosyVoice 这类开源引擎——都能用你指定的任何语言,丢给你一段完美无瑕的十秒片段。那段声音是真的。问题在于,十秒刚好长到足以把所有出错的地方藏起来:第三分钟的崩坏、第四十句的破绽、以及你的受众真正在意的那一个专有名词。「哪个最好」是错的问题。真正的问题是:在一个你自己无法验证的语言里,你敢信任哪一个。
这个领域之所以让人眼花缭乱,是因为它真的就是这么乱。AI 语音生成市场正一路狂奔,从 2025 年的 41.6 亿美元,增长到 2031 年的 207.1 亿美元,年复合增长率达 30.7%——这笔钱把数以百计的产品,拉进一个五年前几乎还不存在的领域。神经网络文字转语音如今已是整个语音产业的重心,2025 年估计占语音与声音识别市场 49.6% 的份额。当一个类别增长得这么快,表层的质量就会趋于一致:几乎人人听起来都不错。不会趋于一致的,是在语言、口音与边缘案例这条长尾上的可靠度——而这恰恰是买家在试听带里听不出来的那一块。
定价的迷宫让混乱雪上加霜,因为各家卖的根本不是同一个单位。ElevenLabs 在 2025 年改采统一的点数制——大约每月 5 美元换 3 万点,往上一路到 99 美元的 Pro 方案——而一点可能等于一个字符,也可能只等于半个字符,得看用的是哪个模型。Play.ht 卖的是以年为单位的字符包(约 39 美元换一年 60 万字符,往上到 99 美元、设有合理使用上限的「无限」方案)。Murf 则把月订阅打包在 29 至 39 美元这个区间。按字符、按点数、按席位、按分钟:要把它们一一对比,你得先把自己的用量模型算清楚,而即便如此,标价也完全告诉不了你:输出到底对不对。
要理解「正确性」为什么是那个被藏起来的变量,得看这些系统是怎么训练出来的。一个神经语音模型的好坏,完全取决于它所说语言背后的数据,而这些数据的分布极不均匀。粤语就是最干净的例子:它在全球约有 8,490 万名母语使用者,但被广泛使用的 Common Voice 语料库,却只收录了约 311 小时经过验证的粤语——和英语动辄数万小时的数据量相比,这只是个进位误差。直到不久前,最大的开源粤语数据集也不过落在 70 到 110 小时上下;某个 2025 年的研究语料库,得从零开始堆出 21,800 小时,才刚刚开始把这道缺口补上。一个数据严重不足的模型不会拒绝开口。它会自信地、却错误地开口——把声调压平、对罕见字乱猜、口音慢慢飘向普通话腔——而且它出错的那个层次,正是多数买家无从稽核的地方。
这件事每一季都变得更重要,因为这份工作正越来越以多语言为默认。在主要的流媒体平台,本地化如今估计吃掉总制作预算的 7% 到 12%,而全球超过半数的受众,都期待看到自己语言的内容。当一个台湾品牌推出英语广告,或一家西方制片厂把作品配成粤语的那一刻,核可最终版本的那个人,几乎从来都不能流利地说那个目标语言。他们被迫去信任供应商的试听带——而那正是被刻意打造得完美无瑕的那件东西。生成越快、越便宜,就有越多成品从这个盲点里流过去,也就越可能让一个念错的名字、或一句用错方言的台词,悄悄地送到数以百万计的人面前。
所以,正确的选法,是不再用试听带帮工具打分,而开始用它的「失败模式」来打分。问一组更锐利的问题。在长度拉长时会发生什么,而不是只看那十秒?是谁在成品送出去之前抓到错误——而那个人,真的会说那个语言吗?在你实际要卖进去的那些特定语言与方言上,覆盖的深度到底有多深,而不是那句「支持 40 多种语言」的头条数字?一份忽略了「验证」的买家指南,只是一张功能清单;真正的指南,会把「信任」当成最重要的那项规格。
这,正是 Onyx Studios 当初被打造出来、要去补上的那道缺口。我们保留了速度——同一条生成式流程,几分钟内就能把脚本变成流畅的声音——然后,我们在每一次交付前,放上一个母语人士。这就是我们品牌主张「AI 生成,真人把关(AI-Generated. Human-Perfected.)」的全部:在母语的耳朵签核过语气、发音、方言,以及那些模型最爱出包的专有名词之前,没有任何东西会出货。背后是一家成立于 2008 年的工作室(凡音文化),拥有超过 1,500 位专业配音员的阵容——替你验收那支粤语广告的人,根本不需要靠试听带来信任它,因为粤语就是他的母语。
这份深度,正好在那些工具最单薄的地方最为锋利。台湾普通话与粤语,对我们而言从来不是事后追加的语言包;它们就是我们的主场,由母语配音员撑起,再延伸到 40 多种语言、AI 音乐,以及 Onyx Live Strings——以已清权方式录制的真人弦乐团。如果你要送进的,是一些你自己无法亲自验证的语言,那你能做的最聪明的事,就是亲耳听听那个差别。来浏览我们的声音,把那支让你心里没底的脚本寄给我们,听听「经母语人士验证」到底是什么声音。
