为什么 AI 说的普通话都带「大陆腔」——以及我们如何解决

把一句中文丢进几乎任何一个生成式语音引擎,仔细听。它流畅、快速,常常逼真到吓人。但对台湾人的耳朵来说,总有哪里不对劲——卷舌卷得太用力,音节糊在一起,语调带着一种属于北京、而不属于台北的节奏。这种往「大陆腔」倾斜的感觉是真实的,而且就算你从没要求,它也会冒出来。好消息是:这并非注定。它是个数据问题,而数据问题是可以解决的。

先从最明显的讲起:用词本身就不一样。在台湾,一段短片叫「影片」;在大陆叫「视频」。出租车在台北叫「計程車」,在北京叫「出租车」。手底下那个小东西,台湾叫「滑鼠」,对岸叫「鼠标」;软体对软件,网路对网络。这些都不是俚语——它们是专业、书面、播报语体的默认用词。一份 2008 年针对 7,000 个最常用汉字的研究发现,台湾国语和大陆普通话之间,约有 18% 的日常词汇是不同的。当你的稿子写「影片」、语音却念出「视频」时,代入感就已经破功了。

声音比用词更深一层。偏北方、偏北京口音的招牌,是「儿化音」——那个会把「哪里」(nǎlǐ) 变成「哪儿」(nǎr) 的卷舌尾音,让语流带着一种滑顺、卷动的惯性。在台湾国语里,儿化音几乎完全消失:大家会把每个完整的音节念出来。同样明显的,是卷舌声母 zh、ch、sh、r 的命运。在课本式普通话里,舌头要用力往后卷;在台湾,这些音常被压平、放软,往往并向 z、c、s。尤其那个卷舌的 r,失去了大半的「喉音感」。对母语听者而言,有没有那个卷舌,是一听就知道的破绽。

再来是旋律。台湾国语的音高范围偏低、偏窄,语调比较平缓、柔和;而且它倾向把每个音节的本调完整念出来,北京话却常把许多音节弱化成轻声。这种「变柔」的底层,很大程度来自台湾闽南语深厚的母语基底,从节奏到句尾语气词都受它形塑。结果是一种听起来从容、四平八稳,而不是铿锵、卷动的国语——是不一样的音乐,不是更差的音乐。

那为什么模型默认会选另一种音乐?因为它被喂的,压倒性地就是那一种。用来训练现代语音模型的大型开源中文语料,基本都建立在大陆来源之上:WenetSpeech4TTS——一套用来评测大型语音生成模型的基准语料——收录了 12,800 小时的中文音频;而被广泛使用的 AISHELL-3 TTS 数据集,是 218 位大陆普通话说话人、约 85 小时的录音。当一个模型听到的声音绝大多数都是大陆普通话,系统就会照统计告诉它的去做:回归到那个「平均值」。台湾口音与其说是被排斥,不如说是被悄悄地「票数压过」。

台湾的研究者已经明白地点出这个落差。2025 年初,联发科创新基地(MediaTek Research)与台湾大学发表了 BreezyVoice——一套专为台湾国语调校的 TTS 系统,理由正是通用引擎在这上面会卡住,尤其是「多音字判读」:同一个字,在台湾和在大陆的读法不一样。他们的研究是个直接证据,证明这不是吹毛求疵的偏好,而是一个值得写成专门论文的、可被量测的工程问题:当目标是台湾时,一个用「别人的中文」训练出来的模型,需要刻意的修正。

这正是 Onyx Studios 成立要补的缺口。我们是一家台湾工作室——凡音文化,成立于 2008 年——拥有超过 1,500 位专业配音员,在台湾国语和粤语两方面都有罕见的深厚阵容。我们的模型不需要从大陆数据里「外推」出一个台湾口音;它们建立在真材实料之上,由从小就讲这种腔调的配音员献声。接着,每一句都会经过母语人耳的把关,抓出任何指标永远抓不到的破绽:一个冒出来的儿化音、一个卷过头的卷舌、一个该是「影片」却念成「视频」的词、一个该用本调却变成轻声的字。这就是我们那句话的意思——AI 生成,真人把关(AI-Generated. Human-Perfected.)。

如果你的受众在台北、台中或高雄,这个差别,就是「一个能带货的声音」和「一个悄悄泄露你不是本地人的声音」之间的差别。别只听我们说——让你自己的耳朵来决定。到 onyxstudios.ai 听一段地道的台湾腔 demo,当它听起来就像家乡的声音时,你当天就能让它上工。

AI VoiceMandarinTaiwanLocalization

为什么 AI 说的普通话都带「大陆腔」——以及我们如何解决

听听我们的 AI 声音

为什么 AI 说的普通话都带「大陆腔」——以及我们如何解决

听听我们的 AI 声音