说来有点刺耳:声音克隆真正的难题,早已不是克隆本身。开源项目只需约 五秒 干净音频,就能重现一个能被认出来的声音,商用工具甚至号称三到十秒就能做出堪用的克隆品。这项技术基本上已被攻克并商品化。真正还没被解决、也几乎没人愿意停下来想清楚的,是环绕着这个声音的一切:它是谁的声音、你是否有权使用、能在哪里使用,以及在它送到听众耳里之前,由谁来把关。那份『快』令人上瘾,而这正是陷阱所在。
先谈第一件事,因为其余一切都建立在它之上:授权与权利。声音不是一段你可以从播客或 YouTube 片段随手抓取的自由素材。它属于某个人,而法律也越来越这样看待它。2024 年 3 月,田纳西州通过了《ELVIS 法案》——全名为《确保肖像、声音与形象安全法》——这是全美第一部明文将个人声音纳入其受保护『公开权』的法律,使得未经同意以 AI 克隆一位艺人的声音成为违法行为。如果你无法拿出一份来自声音本人、清楚而有书面记录的协议,你手上就不是一个项目,而是一份风险。
第二件事,是你实际运营所在地的法律,因为授权虽然必要,却并不足够。法律的版图正在你脚下被即时重画。在美国联邦层面,《NO FAKES 法案》——全名《培育原创、扶植艺术并维护娱乐安全法》——将为个人的声音与视觉肖像建立一项全国性的财产权,让人们得以对未经授权的数字复制品、以及托管它们的平台采取行动;该法案 2024 年首度提出,并于 2025 年本届国会再度提案,获得 SAG-AFTRA 与各大唱片公司、制片厂支持。在欧洲,《欧盟 AI 法案》第 50 条将要求任何部署生成深度伪造内容(明文涵盖音频)的 AI 一方披露该内容系人工生成,相关透明度义务将于 2026 年 8 月 2 日 生效。一个在某个市场完全合法的克隆声音,到了下一个市场可能就是违规。
第三件事,是工程师往往低估、客户从不过问的:数据质量。一个克隆声音的上限,永远取决于它学习的素材。垃圾进来,出去的不只是垃圾——而是发音错误、口音漂移、听起来『差一点点』因而在母语者耳里显得彻底不对劲的诡异垃圾。参考音频承载着音高、音色、节奏、空间残响,以及让一个声音之所以是『那个声音』的种种微小特质。喂给模型一段嘈杂的电话录音、一段满是回音的片段,或一份被降到低于原始采集规格的素材,系统就会忠实地学会这些瑕疵,并把它们放大。真正站得住脚的克隆声音,都建立在干净、一致、高分辨率的源头上——在受控环境中录制,而非从网上抓取。
第四件事,是该让所有人保持诚实的那一件:滥用、诈骗风险与披露。同一份让合成声音适合做有声书的拟真度,落到坏人手里就成了武器。根据 FTC,美国消费者在 2024 年报告因诈骗损失达 125 亿美元——单年暴增百分之二十五——其中冒名诈骗占了 29.5 亿美元。最鲜明的警讯来自香港:工程公司 Arup 的一名财务员工,在一场除了他本人之外、所有与会者都是 AI 生成的同事深度伪造视频的视频会议后,被骗分十五笔汇出 2,500 万美元。这一切并不代表声音合成不正当,而是代表一个严肃的从业者会把披露与来源溯源内建进工作流程,而非等到上了新闻才临时补上。
第五件事,补上了技术自己无法闭合的那个环节:由谁来验收成品。模型并不知道它刚刚为一支台湾广告产出了一段带大陆口音的朗读、选错了一个多音字的读法,或是某个场景的情绪分寸微妙地不对。它没有耳朵,也没有利害关系。一个母语人士有。生成式语音确实有一手令人惊艳的把戏——它能在数秒内产出流利的语音——而那份快是真的。藏在其中的盲点也同样是真的:模型恰恰会在它出错的那一刻最为笃定,而唯有真正会说这门语言的人,才能逮到那个让整件事露馅的音节。
这正是 Onyx Studios 自始至终奉行的纪律。我们合作的每一个声音,都通过明确、签署过的授权与买断合同取得并建档留存——没有抓取、没有『差不多就好』、我们的声音库里没有任何一个声音是其本人不知情、未同意的。我们的参考录音以干净、全分辨率的规格采集,因为我们深知克隆品会继承源头所承载的一切。而且,任何成品都必须经过一位真正会说该语种的母语人士把关才会交付——无论是台湾普通话、粤语,还是我们所交付的四十多种语言之一——这正是为什么我们的承诺不是『AI 够快』,而是 AI 生成,真人把关(AI-Generated, Human-Perfected)。
克隆一个声音只会越来越容易;但要以一种你敢于背书的方式去做,却不会。如果你正在为自己的品牌、产品或作品库考虑一个合成声音,该向供应商提的问题不是他们能多快生成它——而是他们能否出示授权、说得出自己依循的是哪一部法律、证明得了数据的来源,并为签核最终版本的那个人具名。这四件事,我们都答得出来。把你想用的那个声音,以对的方式交给我们,让我们把它建立在一个站得住脚的基础上——对你的听众、对你的律师、也对下一部即将落地的法规。与 Onyx Studios 聊聊。
