在 2026 年挑選 AI 語音,有個讓人不太舒服的事實:試聽,是判斷它好壞最糟糕的方法。每一個認真的工具——ElevenLabs、OpenAI、微軟 Azure、Google、Murf、Play.ht,加上 CosyVoice 這類開源引擎——都能用你指定的任何語言,丟給你一段完美無瑕的十秒片段。那段聲音是真的。問題在於,十秒剛好長到足以把所有出錯的地方藏起來:第三分鐘的崩壞、第四十句的破綻、以及你的受眾真正在意的那一個專有名詞。「哪個最好」是錯的問題。真正的問題是:在一個你自己無法驗證的語言裡,你敢信任哪一個。
這個領域之所以讓人眼花撩亂,是因為它真的就是這麼亂。AI 語音生成市場正一路狂奔,從 2025 年的 41.6 億美元,成長到 2031 年的 207.1 億美元,年複合成長率達 30.7%——這筆錢把數以百計的產品,拉進一個五年前幾乎還不存在的領域。神經網路文字轉語音如今已是整個語音產業的重心,2025 年估計佔語音與聲音辨識市場 49.6% 的份額。當一個類別成長得這麼快,表層的品質就會趨於一致:幾乎人人聽起來都不錯。不會趨於一致的,是在語言、口音與邊緣案例這條長尾上的可靠度——而這恰恰是買家在試聽帶裡聽不出來的那一塊。
定價的迷宮讓混亂雪上加霜,因為各家賣的根本不是同一個單位。ElevenLabs 在 2025 年改採統一的點數制——大約每月 5 美元換 3 萬點,往上一路到 99 美元的 Pro 方案——而一點可能等於一個字元,也可能只等於半個字元,得看用的是哪個模型。Play.ht 賣的是以年為單位的字元包(約 39 美元換一年 60 萬字元,往上到 99 美元、設有合理使用上限的「無限」方案)。Murf 則把月訂閱打包在 29 至 39 美元這個區間。按字元、按點數、按席次、按分鐘:要把它們一一對比,你得先把自己的用量模型算清楚,而即便如此,標價也完全告訴不了你:輸出到底對不對。
要理解「正確性」為什麼是那個被藏起來的變數,得看這些系統是怎麼訓練出來的。一個神經語音模型的好壞,完全取決於它所說語言背後的資料,而這些資料的分布極不均勻。粵語就是最乾淨的例子:它在全球約有 8,490 萬名母語使用者,但被廣泛使用的 Common Voice 語料庫,卻只收錄了約 311 小時經過驗證的粵語——和英語動輒數萬小時的資料量相比,這只是個進位誤差。直到不久前,最大的開源粵語資料集也不過落在 70 到 110 小時上下;某個 2025 年的研究語料庫,得從零開始堆出 21,800 小時,才剛剛開始把這道缺口補上。一個資料嚴重不足的模型不會拒絕開口。它會自信地、卻錯誤地開口——把聲調壓平、對罕見字亂猜、口音慢慢飄向國語腔——而且它出錯的那個層次,正是多數買家無從稽核的地方。
這件事每一季都變得更重要,因為這份工作正越來越以多語言為預設。在主要的串流平台,在地化如今估計吃掉總製作預算的 7% 到 12%,而全球超過半數的受眾,都期待看到自己語言的內容。當一個台灣品牌推出英語廣告,或一家西方片廠把作品配成粵語的那一刻,核可最終版本的那個人,幾乎從來都不能流利地說那個目標語言。他們被迫去信任供應商的試聽帶——而那正是被刻意打造得完美無瑕的那件東西。生成越快、越便宜,就有越多成品從這個盲點裡流過去,也就越可能讓一個唸錯的名字、或一句用錯方言的台詞,悄悄地送到數以百萬計的人面前。
所以,正確的選法,是不再用試聽帶幫工具打分,而開始用它的「失敗模式」來打分。問一組更銳利的問題。在長度拉長時會發生什麼,而不是只看那十秒?是誰在成品送出去之前抓到錯誤——而那個人,真的會說那個語言嗎?在你實際要賣進去的那些特定語言與方言上,覆蓋的深度到底有多深,而不是那句「支援 40 多種語言」的頭條數字?一份忽略了「驗證」的買家指南,只是一張功能清單;真正的指南,會把「信任」當成最重要的那項規格。
這,正是 Onyx Studios 當初被打造出來、要去補上的那道缺口。我們保留了速度——同一條生成式流程,幾分鐘內就能把腳本變成流暢的聲音——然後,我們在每一次交付前,放上一個母語人士。這就是我們品牌主張「AI 生成,真人把關(AI-Generated. Human-Perfected.)」的全部:在母語的耳朵簽核過語氣、發音、方言,以及那些模型最愛出包的專有名詞之前,沒有任何東西會出貨。背後是一家成立於 2008 年的工作室(凡音文化),擁有超過 1,500 位專業配音員的陣容——替你驗收那支粵語廣告的人,根本不需要靠試聽帶來信任它,因為粵語就是他的母語。
這份深度,正好在那些工具最單薄的地方最為鋒利。台灣國語與粵語,對我們而言從來不是事後追加的語言包;它們就是我們的主場,由母語配音員撐起,再延伸到 40 多種語言、AI 音樂,以及 Onyx Live Strings——以已清權方式錄製的真人弦樂團。如果你要送進的,是一些你自己無法親自驗證的語言,那你能做的最聰明的事,就是親耳聽聽那個差別。來瀏覽我們的聲音,把那支讓你心裡沒底的腳本寄給我們,聽聽「經母語人士驗證」到底是什麼聲音。
