說來有點刺耳:聲音複製真正的難題,早已不是複製本身。開源專案只需約 五秒 乾淨音檔,就能重現一個能被認出來的聲音,商用工具甚至號稱三到十秒就能做出堪用的複製品。這項技術基本上已被攻克並商品化。真正還沒被解決、也幾乎沒人願意停下來想清楚的,是環繞著這個聲音的一切:它是誰的聲音、你是否有權使用、能在哪裡使用,以及在它送到聽眾耳裡之前,由誰來把關。那份「快」令人上癮,而這正是陷阱所在。
先談第一件事,因為其餘一切都建立在它之上:授權與權利。聲音不是一段你可以從 podcast 或 YouTube 片段隨手抓取的自由素材。它屬於某個人,而法律也愈來愈這樣看待它。2024 年 3 月,田納西州通過了《ELVIS 法案》——全名為《確保肖像、聲音與形象安全法》——這是全美第一部明文將個人聲音納入其受保護「公開權」的法律,使得未經同意以 AI 複製一位藝人的聲音成為違法行為。如果你無法指出一份來自聲音本人、清楚而有書面紀錄的協議,你手上就不是一個專案,而是一份風險。
第二件事,是你實際營運所在地的法律,因為授權雖然必要,卻並不足夠。法律的版圖正在你腳下被即時重畫。在美國聯邦層級,《NO FAKES 法案》——全名《培育原創、扶植藝術並維護娛樂安全法》——將為個人的聲音與視覺肖像建立一項全國性的財產權,讓人們得以對未經授權的數位複製品、以及托管它們的平台採取行動;該法案 2024 年首度提出,並於 2025 年本屆國會再度提案,獲得 SAG-AFTRA 與各大唱片公司、製片廠支持。在歐洲,《歐盟 AI 法案》第 50 條將要求任何部署生成深偽內容(明文涵蓋音訊)的 AI 一方揭露該內容係人工生成,相關透明度義務將於 2026 年 8 月 2 日 生效。一個在某個市場完全合法的複製聲音,到了下一個市場可能就是違規。
第三件事,是工程師往往低估、客戶從不過問的:資料品質。一個複製聲音的上限,永遠取決於它學習的素材。垃圾進來,出去的不只是垃圾——而是發音錯誤、口音漂移、聽起來「差一點點」因而在母語者耳裡顯得徹底不對勁的詭異垃圾。參考音檔承載著音高、音色、節奏、空間殘響,以及讓一個聲音之所以是「那個聲音」的種種微小特質。餵給模型一段嘈雜的電話錄音、一段滿是回音的片段,或一份被降到低於原始擷取規格的素材,系統就會忠實地學會這些瑕疵,並把它們放大。真正站得住腳的複製聲音,都建立在乾淨、一致、高解析的源頭上——在受控環境中錄製,而非從網路抓取。
第四件事,是該讓所有人保持誠實的那一件:濫用、詐騙風險與揭露。同一份讓合成聲音適合做有聲書的擬真度,落到壞人手裡就成了武器。根據 FTC,美國消費者在 2024 年回報因詐騙損失達 125 億美元——單年暴增百分之二十五——其中冒名詐騙佔了 29.5 億美元。最鮮明的警訊來自香港:工程公司 Arup 的一名財務員工,在一場除了他本人之外、所有與會者都是 AI 生成的同事深偽影像的視訊會議後,被騙分十五筆匯出 2,500 萬美元。這一切並不代表聲音合成不正當,而是代表一個嚴肅的業者會把揭露與來源溯源內建進工作流程,而非等到上了新聞才臨時補上。
第五件事,補上了技術自己無法閉合的那個環節:由誰來驗收成品。模型並不知道它剛剛為一支台灣廣告產出了一段帶大陸口音的朗讀、選錯了一個多音字的讀法,或是某個場景的情緒分寸微妙地不對。它沒有耳朵,也沒有利害關係。一個母語人士有。生成式語音確實有一手令人驚豔的把戲——它能在數秒內產出流利的語音——而那份快是真的。藏在其中的盲點也同樣是真的:模型恰恰會在它出錯的那一刻最為篤定,而唯有真正會說這門語言的人,才能逮到那個讓整件事露餡的音節。
這正是 Onyx Studios 自始至終奉行的紀律。我們合作的每一個聲音,都透過明確、簽署過的授權與買斷合約取得並建檔留存——沒有抓取、沒有「差不多就好」、我們的聲音庫裡沒有任何一個聲音是其本人不知情、未同意的。我們的參考錄音以乾淨、全解析度的規格擷取,因為我們深知複製品會繼承源頭所承載的一切。而且,任何成品都必須經過一位真正會說該語種的母語人士把關才會交付——無論是台灣國語、粵語,還是我們所交付的四十多種語言之一——這正是為什麼我們的承諾不是「AI 夠快」,而是 AI 生成,真人把關(AI-Generated, Human-Perfected)。
複製一個聲音只會愈來愈容易;但要以一種你敢於背書的方式去做,卻不會。如果你正在為自己的品牌、產品或作品庫考慮一個合成聲音,該向供應商提的問題不是他們能多快生成它——而是他們能否出示授權、說得出自己依循的是哪一部法律、證明得了資料的來源,並為簽核最終版本的那個人具名。這四件事,我們都答得出來。把你想用的那個聲音,以對的方式交給我們,讓我們把它建立在一個站得住腳的基礎上——對你的聽眾、對你的律師、也對下一部即將落地的法規。與 Onyx Studios 聊聊。
