生成式语音 AI 有一招确实厉害:你打一句话,几秒后就传回一个温暖、会呼吸的人声念给你听。不用麦克风、不用配音员、不用录音室。那个速度是真的,质量也是真的。但「像魔法」这种感觉其实也像一层雾,而雾里藏着很有用的东西。一旦你看懂那条把文字变成声音的生产线,你就不会再被唬住,反而能精准预测这条线会在哪里卡住、哪个名字会念错、哪句在屏幕上读起来没问题的话到了耳朵里会整个垮掉。
你可以把整套系统想成一间有四个工作站的小工厂,原料就是你打进去的那串文字。第一站是「文本规整」:它要读懂人们实际上乱打的东西,再决定该怎么念出来。「$5」得变成「五元」,「Dr. Lee」得在「医师」和「路」之间选一个,「2008」要念成「二〇〇八」而不是二、零、零、八这几个数字。这一站一点也不光鲜,却是出乎意料多的丢脸错误的出生地,因为它本质上就是一大堆规则,加上对「人到底想讲什么」的猜测。
第二站是大多数人从没听过、却默默最关键的一站:字素转音素,英文简称 G2P。字素是写出来的字,音素是声音的单位。这一站把「拼写」翻译成「发音」,就是你小时候看到没见过的字、把它一个音一个音拼出来的那种本事。英文里,它要分辨「read」这个字在不同句子里到底押「red」还是「reed」的韵。中文里,它得正面迎战多音字问题:一个字有好几种读法,只有上下文能决定哪个才对。这一站搞砸了,后面整条线就会「很有自信地念错」。
第三站和第四站,才是现代 AI 真正出力的地方。「声学模型」拿到那串声音,开始规划这段话该有什么「感觉」:节奏、抑扬顿挫、哪里加速、哪里会在某个字上加重。它输出的不是音频,而是一张声音的「视觉蓝图」,叫做频谱图,本质上就是一张热力图,标出每一瞬间哪些音高比较响。最后一站「神经声码器」,则是把这张蓝图变成你真正听得到的声波的那位画家。开创性的声码器、DeepMind 的 WaveNet,是一小片一小片地把声音盖出来的:每一秒语音要盖一万六千个采样点 —— 这就是为什么早期版本很慢,也是为什么像 HiFi-GAN 这类新设计能用远快过实时播放的速度,把同样一秒钟的声音画出来。
那么,有了这么一整套机器,为什么语音还是会在某个名字上绊倒、或滑进错的口音?老实的答案是:这些模型每一个都是靠「模仿」学会的,不是靠「理解」,而它只能很有把握地重现它看过很多次的东西。一个里程碑级的系统 VALL-E,是用六万小时的录音训练出来的,比早期系统多上几百倍 —— 然而「规模」恰恰就是陷阱。一个主要用标准美式或英式英语训练出来的模型,会忠实地、却错误地,把那个口音盖到所有东西上,因为那正是它吃下去的数据里最常见的口音。一个它从没遇过的姓氏,就是掷硬币。模型没有故障;它只是精准地做着它的训练数据教它做的事。
多音字问题,是这件事在中文里最尖锐的版本,而且它是可以量化的。研究者特地做了分类器,专门从上下文猜出一个多音字到底该念哪个音,有一份著名研究把多音字的准确率拉到 96.35%,而单纯靠出现频率去猜只有 81.22% —— 这是真正的跃进,但同时也是个低调的承认。即使是很强的系统,也会在相当一部分字上念错;而在台湾普通话或粤语里,读音和声调本身就承载着意思,一个音节错了,就能把一句清楚的话变成一道谜题。懂这个语言的听者一听就知道。软件呢,按它的设计,听不出来。
这些都不是模模糊糊的担忧;它们是四个具体、找得到位置的破口:一个会猜意图的规整站、一个可能挑错读音的 G2P 站、一个它从没学过的名字、一个被数据带歪的口音。这恰恰就是「母语人耳」发挥价值的地图。在 Onyx,每一份 AI 生成的交付,在出货前都会由目标语言的母语者把关 —— 由一个听得出多音字翻车、听得出姓氏念糊掉、听得出台湾或香港的句子飘成大陆腔的人来检查。机器在几秒内产出草稿;人,则保证那是你真的会开口讲出来的那个版本。
这就是我们那句标语背后完整的理由 —— AI 生成,真人把关。我们不是出于怀旧才把真人留在流程里,也不是不信任这项技术 —— 我们每天都在用它,也很喜欢它在速度和规模上能做到的事。我们只是把这条流程摸得够透,透到知道它有哪四个盲点;我们也知道,在台湾普通话、粤语、以及我们经手的四十多种语言里,「惊艳」和「正确」之间的差距,就是一只母语的耳朵。如果你要的是又快又对的语音,这就是我们的承诺:机器给你速度,而一个真的会讲这个语言的人,给你信任。
