你找到了一個工具。它快、它便宜,而且會講你要的語言——日文、粵語、阿拉伯文,專案要什麼它就講什麼。你把稿子貼進去,它用一種完全有把握的口氣唸給你聽,你就出貨了。問題出在你坐在這個位置上唯一做不到的那件事:判斷它到底對不對。如果你不會那個語言,你信任的其實是一台同樣在「猜」的機器——它只是猜得很有自信而已。而有自信,跟正確,是兩回事。
數字會讓這個落差變得具體。中文滿是多音字 —— 同一個字的讀音隨語境改變,例如「乾」(gān 或 qián)、「行」(xíng 或 háng)—— 讀錯一個,整句的意思就可能變了。而即使是目前已發表最好的多音字消歧模型,正確率也只到 約 94%(Polyphone BERT, 2022)。聽起來很高,換算成實務卻是:大約每十七個多音字就會錯一個。一個段落動輒幾十個,於是錯誤不會單獨存在 —— 它們會累加。而這還是最理想的情況;連專門為台灣國語打造語音合成的研究(BreezyVoice, 2025),都仍把多音字消歧形容為尚未解決的難題。
在一個你聽不懂的語言裡唸錯字,感覺像小細節。但它不是。CSA Research 著名的「Can’t Read, Won’t Buy」研究,調查了 29 國、8,709 位消費者,發現 76% 的人偏好用自己的語言購買,而 40% 根本不會購買非母語的內容。你聽不出來的錯,你的受眾聽得出來 —— 一個唸錯的品牌名、一個悄悄把句意改掉的多音字 —— 在你看來是「還行的 AI 成品」,在他們聽來卻是「這家公司連把我的語言講對都不夠在乎」。代價不是那個瑕疵本身,而是你在「花了錢想打進的市場」裡流失掉的信任。
而發音還只是非母語者抓不到的其中一項。語域可能不對 —— 該溫暖的地方卻很官腔;節奏可能微妙地走樣 —— 那種讓母語者覺得「這是人做的」的韻律;口音可能整個跑掉 —— 你要台灣國語,它卻給你大陸腔。這些,母語者聽一遍就全抓到;按下「生成」的那個人,一個都抓不到。
這正是我們從「經營配音公司」(Onyx 從 2008 年就在做,旗下超過 1,500 位配音員)走進 AI 時,堅持保留的一條規則 —— 而這條規則,純 AI 工具悄悄略過了:每一筆 Onyx 的交付,只要是正確性會出事的語言,在送到客戶手上前,都會經過一位母語人士。不是重錄,是驗證。母語校對確認人名、品牌、數字的發音,檢查每個多音字在語境裡讀對,確保語意完整、語氣符合需求、節奏對真正會這個語言的人來說自然。過了就出貨;沒過,我們在客戶聽到前就修掉。這份工作不光鮮,但它就是「AI 生成」與「可上線播出」之間的全部差別。
這對你的具體意義在這裡。你不是為了成為 AI 語音專家才來用它的——你來,是因為手上有支廣告、一堂課、一本有聲書要趕出去,要快、要在預算內,而你實在不想把一整週耗在試工具,或反覆聽一段你根本拆解不了的語言。這完全合理。但「又快又便宜」會悄悄塞給你一份你從沒要過的兼差:用一種你不會的語言做品管。大多數工具把這份差事留在你桌上,我們則是把它接走。
這層把關,強度取決於裡面的人,而我們正在擴大它——建立一個橫跨國語、粵語、日文、韓文、泰文、西班牙文等語種、由快速可靠的母語校對組成的 Language QA 網絡。如果你對「一句話該怎麼落地才對」有母語者的耳朵,或你是翻譯、校對而且回件迅速,我們很想認識你。
所以,歸根結柢就是這件事。你會找上 AI,是為了快、為了划算的價格——不是為了變成那個要去確認「這句粵語到底對不對」的人。那本來就不該是你的事。把稿子交給我們,拿回去的版本,已經有會這個語言的人確認過、可以直接用。這就是「要你盯著的工具」跟「可以放心丟過去的工作室」的差別:你不用跳進細節裡,聲音照樣到位。把你要配的內容告訴我們,剩下的交給我們。
資料來源
- 1.Polyphone BERT — Mandarin polyphone disambiguation tops out around 94.1% accuracy (Interspeech 2022)
- 2.CSA Research — “Can’t Read, Won’t Buy”: 8,709 consumers across 29 countries (76% prefer their own language; 40% won’t buy without it)
- 3.BreezyVoice — text-to-speech built for Taiwanese Mandarin; treats polyphone disambiguation as still unsolved (2025)
