你找到了一个工具。它快、它便宜,而且会讲你要的语言——日文、粤语、阿拉伯文,项目要什么它就讲什么。你把稿子粘进去,它用一种完全有把握的口气念给你听,你就发布了。问题出在你坐在这个位置上唯一做不到的那件事:判断它到底对不对。如果你不会那门语言,你信任的其实是一台同样在「猜」的机器——它只是猜得很有自信罢了。而有自信,和正确,是两回事。
数字会让这个落差变得具体。中文满是多音字 —— 同一个字的读音随语境改变,例如「重」(zhòng 或 chóng)、「行」(xíng 或 háng)—— 读错一个,整句的意思就可能变了。而即使是目前已发表最好的多音字消歧模型,正确率也只到 约 94%(Polyphone BERT, 2022)。听起来很高,换算成实务却是:大约每十七个多音字就会错一个。一个段落动辄几十个,于是错误不会单独存在 —— 它们会累加。而这还是最理想的情况;连专门为台湾普通话打造语音合成的研究(BreezyVoice, 2025),都仍把多音字消歧形容为尚未解决的难题。
在一个你听不懂的语言里念错字,感觉像小细节。但它不是。CSA Research 著名的「Can’t Read, Won’t Buy」研究,调查了 29 国、8,709 位消费者,发现 76% 的人偏好用自己的语言购买,而 40% 根本不会购买非母语的内容。你听不出来的错,你的受众听得出来 —— 一个念错的品牌名、一个悄悄把句意改掉的多音字 —— 在你看来是「还行的 AI 成品」,在他们听来却是「这家公司连把我的语言讲对都不够在乎」。代价不是那个瑕疵本身,而是你在「花了钱想打进的市场」里流失掉的信任。
而发音还只是非母语者抓不到的其中一项。语域可能不对 —— 该温暖的地方却很官腔;节奏可能微妙地走样 —— 那种让母语者觉得「这是人做的」的韵律;口音可能整个跑掉 —— 你要台湾普通话,它却给你大陆腔。这些,母语者听一遍就全抓到;按下「生成」的那个人,一个都抓不到。
这正是我们从「经营配音公司」(Onyx 从 2008 年就在做,旗下超过 1,500 位配音员)走进 AI 时,坚持保留的一条规则 —— 而这条规则,纯 AI 工具悄悄略过了:每一笔 Onyx 的交付,只要是正确性会出事的语言,在送到客户手上前,都会经过一位母语人士。不是重录,是验证。母语校对确认人名、品牌、数字的发音,检查每个多音字在语境里读对,确保语意完整、语气符合需求、节奏对真正会这个语言的人来说自然。过了就出货;没过,我们在客户听到前就修掉。这份工作不光鲜,但它就是「AI 生成」与「可上线播出」之间的全部差别。
这对你的具体意义在这里。你不是为了成为 AI 语音专家才来用它的——你来,是因为手上有支广告、一门课、一本有声书要赶出去,要快、要在预算内,而你实在不想把一整周耗在试工具,或反复听一段你根本拆解不了的语言。这完全合理。但「又快又便宜」会悄悄塞给你一份你从没要过的兼职:用一门你不会的语言做品控。大多数工具把这份差事留在你桌上,我们则是把它接走。
这层把关,强度取决于里面的人,而我们正在扩大它——建立一个横跨普通话、粤语、日文、韩文、泰文、西班牙文等语种、由快速可靠的母语校对组成的 Language QA 网络。如果你对「一句话该怎么落地才对」有母语者的耳朵,或你是翻译、校对而且交件迅速,我们很想认识你。
所以,归根结底就是这件事。你会用 AI,是为了快、为了划算的价格——不是为了变成那个要去核对「这句粤语到底对不对」的人。这本来就不该是你的事。把稿子交给我们,拿回去的版本已经有会这门语言的人确认过、可以直接用。这就是「要你盯着的工具」和「可以放心丢过去的工作室」的区别:你不用钻进细节,声音照样到位。把你要配的内容告诉我们,剩下的交给我们。
资料来源
- 1.Polyphone BERT — Mandarin polyphone disambiguation tops out around 94.1% accuracy (Interspeech 2022)
- 2.CSA Research — “Can’t Read, Won’t Buy”: 8,709 consumers across 29 countries (76% prefer their own language; 40% won’t buy without it)
- 3.BreezyVoice — text-to-speech built for Taiwanese Mandarin; treats polyphone disambiguation as still unsolved (2025)
