把一句中文丟進幾乎任何一個生成式語音引擎,仔細聽。它流暢、快速,常常逼真到嚇人。但對台灣人的耳朵來說,總有哪裡怪怪的——捲舌捲得太用力,音節糊在一起,語調帶著一種屬於北京、而不屬於台北的節奏。這種往「大陸腔」傾斜的感覺是真的,而且就算你從沒要求,它也會冒出來。好消息是:這並非命中注定。它是個資料問題,而資料問題是可以修的。
先從最明顯的講起:用詞本身就不一樣。在台灣,一段短片叫「影片」;在大陸叫「视频」。計程車在台北是「計程車」,在北京是「出租车」。手底下那個小東西,台灣叫「滑鼠」,對岸叫「鼠标」;軟體對軟件,網路對网络。這些都不是俚語——它們是專業、書面、播報語體的預設用詞。一份 2008 年針對 7,000 個最常用漢字的研究發現,台灣國語和大陸普通話之間,約有 18% 的日常詞彙是不同的。當你的稿子寫「影片」、語音卻念出「视频」時,沉浸感就已經破功了。
聲音比用詞更深一層。偏北方、偏北京口音的招牌,是「兒化音」——那個會把「哪里」(nǎlǐ) 變成「哪儿」(nǎr) 的捲舌尾音,讓語流帶著一種滑順、捲動的慣性。在台灣國語裡,兒化音幾乎完全消失:大家會把每個完整的音節念出來。同樣明顯的,是捲舌聲母 zh、ch、sh、r 的命運。在課本式普通話裡,舌頭要用力往後捲;在台灣,這些音常被壓平、放軟,往往併向 z、c、s。尤其那個捲舌的 r,失去了大半的「喉音感」。對母語聽者而言,有沒有那個捲舌,是一聽就知道的破綻。
再來是旋律。台灣國語的音高範圍偏低、偏窄,語調比較平緩、柔和;而且它傾向把每個音節的本調完整念出來,北京話卻常把許多音節弱化成輕聲。這種「變柔」的底層,很大程度來自台灣閩南語深厚的母語基底,從節奏到句尾語助詞都受它形塑。結果是一種聽起來從容、四平八穩,而不是鏗鏘、捲動的國語——是不一樣的音樂,不是比較差的音樂。
那為什麼模型預設會選另一種音樂?因為它被餵的,壓倒性地就是那一種。用來訓練現代語音模型的大型開源中文語料,基本都建立在大陸來源之上:WenetSpeech4TTS——一套用來評測大型語音生成模型的基準語料——收錄了 12,800 小時的中文音檔;而被廣泛使用的 AISHELL-3 TTS 資料集,是 218 位大陸普通話語者、約 85 小時的錄音。當一個模型聽到的聲音絕大多數都是大陸普通話,系統就會照統計告訴它的去做:回歸到那個「平均值」。台灣口音與其說是被排斥,不如說是被悄悄地「票數壓過」。
台灣的研究者已經明白地點出這個落差。2025 年初,聯發創新基地(MediaTek Research)與台灣大學發表了 BreezyVoice——一套專為台灣國語調校的 TTS 系統,理由正是通用引擎在這上面會卡關,尤其是「多音字判讀」:同一個字,在台灣和在大陸的讀法不一樣。他們的研究是個直接證據,證明這不是龜毛的偏好,而是一個值得寫成專門論文的、可被量測的工程問題:當目標是台灣時,一個用「別人的中文」訓練出來的模型,需要刻意的修正。
這正是 Onyx Studios 成立要補的缺口。我們是一家台灣工作室——凡音文化,成立於 2008 年——擁有超過 1,500 位專業配音員,在台灣國語和粵語兩方面都有罕見的深厚陣容。我們的模型不需要從大陸資料裡「外推」出一個台灣口音;它們建立在真材實料之上,由從小就講這種腔調的配音員獻聲。接著,每一句都會經過母語人耳的把關,抓出任何指標永遠抓不到的破綻:一個跑出來的兒化音、一個捲過頭的捲舌、一個該是「影片」卻念成「视频」的詞、一個該用本調卻變成輕聲的字。這就是我們那句話的意思——AI 生成,真人把關(AI-Generated. Human-Perfected.)。
如果你的受眾在台北、台中或高雄,這個差別,就是「一個會帶貨的聲音」和「一個悄悄洩漏你不是本地人的聲音」之間的差別。別只聽我們說——讓你自己的耳朵來決定。到 onyxstudios.ai 聽一段道地的台灣腔 demo,當它聽起來就像家鄉的聲音時,你當天就能讓它上工。
