AI语音合成浪潮下，声音权益的法律边界与系统性保护路径探析

（佛山）黎志杏律师 | 2026-04-10

人工智能技术的迅猛发展，正以前所未有的深度与广度重塑社会生产的各个维度。其中，基于深度学习的语音合成技术，凭借其惊人的拟真能力与广泛的应用潜力，已成为内容产业变革的核心驱动力之一。然而，这把锋利的“技术之剑”在提升效率、创造新体验的同时，也对传统的人格权法律保护体系提出了严峻挑战。对于配音演员、主持人、歌手、乃至声音具有独特辨识度的普通公众而言，其声音所承载的人格尊严、身份认同与潜在商业价值，正面临被技术轻易“复制”、“克隆”乃至“剥离”的潜在风险。如何在鼓励科技创新与捍卫人之为人的基本尊严之间寻求平衡，构建一套适应数字时代的声音权益保护规则，是当下法律理论与实务界亟待回应的时代命题。
一、导火索：从国际争议到国内首案，司法直面技术挑战
技术的法律边界，往往在具体争议中得以廓清。2024年初，国际知名演员斯嘉丽·约翰逊（Scarlett Johansson）与美国人工智能公司OpenAI之间的纠纷，将AI语音合成技术的伦理与法律问题置于全球聚光灯下。约翰逊公开指出，其曾两次拒绝OpenAI为其语音模型提供配音的邀请，但该公司随后发布的语音助手“Sky”却使用了与她标志性嗓音极为相似的合成声音，以致亲友与多家媒体均难以分辨。尽管OpenAI官方否认“Sky”声音直接克隆自约翰逊，但最终仍以移除该声音并公开澄清告终。这一事件清晰地揭示了科技企业在追求产品极致拟真体验与尊重个体人格权益之间存在的现实张力，也引发了全球对于AI时代“声音身份”归属与控制的广泛思考。
几乎在同一时期，我国司法实践也迎来了一个里程碑式的判决。北京互联网法院审结的全国首例“AI生成声音侵害人格权案”，为这一问题提供了中国司法的初步答案。该案原告殷某桢是一名专业配音演员，其发现个人声音在未经任何授权的情况下，被某科技公司用于训练AI语音合成模型，并将生成的合成声音在多个网络平台进行商业化推广与使用。法院经审理后明确认定，被告擅自采集、使用原告声音进行AI训练并投入商业应用的行为，侵害了原告作为自然人所享有的声音权益，判令被告承担赔礼道歉、赔偿经济损失25万元的法律责任。该判决的意义深远，它不仅标志着我国司法机关开始系统性地审视并回应AI技术对人格权保护的冲击，更通过具体的裁判规则，为声音权益在数字时代的保护划定了清晰的法律红线，为后续同类纠纷的处理提供了宝贵的司法先例。
这两个中外案例，如同两面镜子，共同映照出AI语音合成技术发展所无法回避的法律核心议题：自然人的声音权益法律属性究竟为何？技术应用的侵权边界如何划定？隐藏在模型背后的数据使用行为又应遵循怎样的法律规则？
二、基石：声音权益的法律属性解析——参照适用肖像权保护模式
在法律层面为声音提供保护，首先需要明确其权利属性。我国《中华人民共和国民法典》在人格权编中作出了开创性的规定。其第1023条第2款明确规定出：“对自然人声音的保护，参照适用肖像权保护的有关规定。”这一立法设计颇具智慧，它并未冒然创设一个全新的“声音权”，而是通过“参照适用”这一法律技术，将声音纳入既有的、相对成熟的人格权保护框架之中。
这种安排具有深刻的现实考量与规范意旨。一方面，它正式承认了声音作为一项重要人格要素的法律地位。声音与肖像、姓名一样，具有稳定的区别性与标识功能，能够将特定的声音与特定的自然人主体紧密关联起来，是人格尊严与人格自由在外部的表现形式之一。尤其在数字经济和自媒体时代，声音的商业价值与人格表征意义空前凸显，法律必须对此作出回应。另一方面，参照适用成熟的肖像权规则，能够迅速为司法实践提供一套相对完整且可操作的裁判规范，包括权利内容、侵权构成要件、免责事由及责任承担方式等，避免了因权利性质模糊而导致的裁判不一，保障了法律适用的统一性与稳定性。
具体而言，参照肖像权保护模式，意味着受法律保护的声音必须蕴含以下三重人格利益内核：
身份识别利益：这是声音作为人格标识的核心功能。每个人的声纹如同指纹，具有独特性。通过音色、语调、韵律、发音习惯等特征，声音能够直接指向并识别特定的自然人。对于以声音为业的群体，这种识别性往往与他们的职业身份、社会声誉深度绑定，成为其市场认知的核心资产。
人格尊严利益：声音不仅是信息传递的工具，更是情感、气质与个性的载体。它能够反映一个人的生理状态、情绪起伏乃至文化修养。擅自录制、模仿、扭曲或使用他人声音，尤其是用于不当或不雅的场合，实质上是对该自然人人格形象的贬损与尊严的侵害。
财产性利益（商业化利用的价值）：在注意力经济和粉丝经济时代，具有高辨识度和美感的声音本身就是一种稀缺的商业资源。从品牌广告配音、智能导航语音，到虚拟偶像、有声读物，声音授权的市场日益广阔。这种财产价值并非独立存在，它恰恰根植于声音与特定主体人格的强关联性之上，是人格利益在市场经济条件下的合法延伸与实现。
三、标尺：AI合成声音侵权的认定核心——“可识别性”的多维判断
当AI生成的合成声音涉诉时，判断其是否构成侵权的黄金标准，在于该声音是否具备“可识别性”。即，相关公众在听到该合成声音时，能否自然地联想到某个特定的自然人。这是连接“声音波形”与“人格权益”的关键桥梁，也是划分合法使用与非法侵权的重要界限。
然而，在AI技术语境下，“可识别性”的判断远非“是或否”那么简单。合成声音可能是对原声的高度复刻，也可能是对多个声源特征的融合与再创造，还可能经过了变调、变速等后期处理。因此，司法实践需要建立一个多维度、综合性的认定框架：
主观认知维度：以相关公众的识别能力为基准
这一维度关注的是“人”的感知。需要注意的是，“相关公众”的范围需根据声音主体的身份类型动态调整。
针对公众人物：如知名艺人、政治家等，应采用一般社会公众的普遍认知和注意标准。只要普通听众在通常条件下，能够将听到的声音与该公众人物建立稳定联系，即可认定具有可识别性。他们的声音已通过作品、媒体广泛传播，在公众心中形成了深刻的烙印。
针对领域内专业人士：如配音演员、播音员或特定风格的歌手，则应聚焦于其所在专业领域或粉丝群体内的相关公众。这些群体因长期、频繁接触该声音作品，具备更强的辨别力和敏感性，他们的认知结论更具参考价值。
针对普通自然人：其声音缺乏公众认知基础，主观识别较为困难。此时，不能单纯依赖主观感受，必须强化客观技术维度的证明。
客观技术维度：以声纹比对与分析为科学支撑
这一维度借助现代科学的力量，通过声纹识别、语谱分析等技术手段，对涉案合成声音与权利人样本声音的声学特征进行量化比对。比对参数可包括基频、共振峰、振幅、梅尔频率倒谱系数（MFCC）等。客观鉴定能够以数据化的形式呈现两者的相似度百分比，结论相对客观、中立，不受主体知名度影响，尤其在对普通自然人声音的保护中起到决定性作用。即使在名人案件中，它也能为主观认知提供强有力的科学佐证。
使用情境维度：以具体场景和关联暗示为补充
声音被使用的方式、场合和伴随信息，会极大影响公众的联想。例如：
在汽车广告中使用与某明星演员音色高度相似的AI语音，并配以其经典影视角色的台词，极大概率会导致观众产生混淆。
在推广某AI语音助手时，宣传文案虽未直接点名，但使用“拥有某巨星般迷人嗓音”等暗示性表述，同样构成对他人声音权益的攀附与利用。
反之，如果使用方明确、显著地标注“此为AI合成声音，并非任何真实个人”，并采取了有效的技术措施使声音听起来与真人有明显区隔，则可能降低侵权风险，但这不能成为训练阶段侵权的免责理由。
在殷某桢案中，法院正是综合运用了上述三维标准：主观上，原告在配音圈内享有知名度，其声音对相关受众具有识别力；客观上，技术鉴定显示合成声音与原告样本在声学特征上高度相似；情境上，被告将其直接用于商业配音服务且未注明来源，足以导致用户误认。三者结合，构成了完整的侵权认定逻辑链。
四、源头：AI模型训练阶段的数据合规——授权链条的断裂风险
侵权行为可能发生在AI语音产品的最终应用环节，但法律风险往往在更早的模型训练阶段即已埋下。AI模型的“智能”来源于海量数据的“喂养”，其中若包含具有可识别性的自然人声音，则数据的获取与使用合法性成为无法回避的前置问题。
训练行为本身即可能构成独立侵权
需要厘清一个关键概念：将他人声音数据用于AI模型训练，与最终生成的合成声音是否侵权，是两个相对独立但又关联的法律评价环节。根据《民法典》精神，自然人对自身声音享有使用权和控制权。未经许可，将他人声音作为数据原料投入AI训练，这一行为本身即是对权利人声音使用权和控制权的侵害，侵犯的客体是“声音数据本身被用于特定目的（训练AI）的权益”。即使开发者声称，最终模型产出的声音是“混合型”或已“不可识别”，也不能反证训练阶段数据使用的合法性。这如同未经允许用他人的肖像照片训练人脸生成模型，即便最终生成的是虚构面孔，其训练行为仍可能侵权。
“权利分离”原则：著作权授权无法覆盖人格权许可
实践中一个常见的误区是，企业认为只要获得了某个音频作品（如录音制品）的著作权授权或合法使用权，就可以随意使用该音频中的声音来训练AI。殷某桢案明确否定了这一观点。法院指出，录音制品作为“作品”或“录像制品”受到著作权法保护，而录制于其中的表演者或朗读者的“声音”则蕴含其人格利益，受人格权法保护。这是两种性质不同、相互独立的权利。取得前者的授权，仅意味着可以复制、发行该录音文件，绝不意味着自动获得了对声音主体人格权益进行AI训练使用的许可。AI企业必须建立起“双重授权”审查意识，确保数据来源在著作权和人格权两个层面均完全合规。
合规要求延伸至数据供应链
对于从第三方数据平台、合作方或公开网络获取训练数据的企业，不能仅满足于形式审查。根据《个人信息保护法》等相关规定，数据提供方应证明其数据来源的合法性，并已取得声音主体关于用于AI训练等特定目的的明确授权。企业需尽到合理的注意义务，审查授权链条的完整性与真实性，否则可能因使用侵权数据而承担连带责任。
五、他山之石：美国司法实践的比较与启示
在AI技术兴起之前，美国法院已通过判例法对声音权益保护进行了有益探索，其规则对当下AI侵权认定具有借鉴意义。
最具代表性的是1988年的Midler v. Ford Motor Co.案。福特汽车公司为制作广告方，聘请歌手模仿著名歌星贝蒂·米德勒（Bette Midler）极具辨识度的嗓音演唱了一首她曾唱红的歌曲，意图使听众误认为是米德勒本人在演唱。米德勒提起诉讼。美国联邦第九巡回上诉法院最终判决福特公司侵权。法院指出，当一个人的声音具有独特性且被广泛熟知，成为其身份的重要标识时，他人出于商业目的故意模仿该声音以导致混淆，即构成对身份标识权益的不法侵占。该案确立了“声音可作为一种受法律保护的身份标识”的原则，保护重点在于防止商业上的混淆与欺骗。
Midler案确立的规则，在AI语音合成时代被赋予了新的内涵。斯嘉丽·约翰逊事件可视为该规则在数字时代的延伸：OpenAI的“Sky”语音是否构成对约翰逊声音的“技术性模仿”？其高度相似性是否足以导致公众混淆？这些问题与Midler案的核心关切一脉相承。但AI技术带来了更复杂的挑战：传统模仿依赖人的技艺，总有差异；而AI克隆可以达到近乎完美的复刻，混淆可能性极大提高。这启示我们，在AI时代，对声音权益的保护应更具前瞻性：一是侵权判断可适当提前，不只关注实际混淆的结果，更应关注技术本身具有的“高度混淆可能性”；二是法律规制应覆盖全流程，对训练数据来源的合法合规性审查变得空前重要。
六、展望：构建技术时代的系统性声音权益保护生态
面对AI技术的持续演进，构建一个平衡、有效的保护生态需要企业自律、司法能动与制度完善的协同推进。
对AI研发与应用企业的合规建议
建立全流程数据合规体系：从数据采集的源头做起，确保获得声音主体清晰、明确、涵盖AI训练与商业使用的知情同意。建立数据来源追溯机制，妥善保管授权文件。
践行“设计即合规”理念：在技术开发初期就将法律与伦理要求嵌入产品设计。例如，开发内置的“去识别化”处理模块，或为合成语音添加不易去除但可感知的音频水印标识。
进行前置性侵权风险评估：在商业部署前，对关键合成语音进行多维度“可识别性”与“混淆可能性”评估，审慎选择应用场景，并做好显著的风险提示。
对法律与政策完善的展望
探索声音权的独立成权：在司法经验积累和理论准备成熟后，未来可通过司法解释或立法修订，考虑将“声音权”明确列为一项独立的具体人格权，进一步细化其权利内容、限制与侵权责任，减少参照适用带来的不确定性。
制定专门的声音数据利用规则：借鉴《个人信息保护法》的框架，针对AI训练等特定目的，制定关于声音数据处理的合法性基础、最小必要原则、目的限制、安全保障及主体权利行使等的特殊规则。
推动技术标准与司法鉴定的融合：鼓励行业组织与专业机构制定声音相似度鉴定的技术标准与操作规范。法院可逐步引入权威声纹鉴定机构，确立科学鉴定意见在诉讼中的证据地位与采信规则，提升裁判的技术公信力。
七、结语
人工智能语音合成技术，正带领我们步入一个声音可以被精确制造与无限复制的新纪元。这场技术革命在创造无限可能的同时，也对我们关于身份、尊严与财产的传统法律观念发起了拷问。我国司法通过殷某桢案等一系列实践，已经迈出了关键一步，初步树立了技术时代声音权益保护的裁判规则。其核心启示在于：技术的飞速发展绝不能以侵蚀人的基本尊严与权利为代价。法律的责任，便是在这激荡的浪潮中，筑起一道坚固而理性的堤坝。
对于产业界而言，将人格权保护内化为技术伦理与合规底线，绝非创新的绊脚石，而是赢得社会信任、实现可持续发展的基石。展望未来，唯有通过法律制度的不断完善、技术方案的伦理化设计以及行业主体的自觉合规，才能共同营造一个鼓励创新与尊重人格并重、技术发展与权益保护共荣的健康生态，确保科技进步的列车始终行驶在以人为本的轨道上。在这条道路上，法律的守护不可或缺，它守护的不仅是声音，更是声音背后那个独一无二的、鲜活而尊严的“人”。
【作者简介】黎志杏：民商事专业律师。曾在法院工作，又在律师所工作多年，能多视角思考解决问题。联系电话13250367044。

上一篇：感情已经破裂、配偶耗着不离婚，该怎么办？

下一篇：专业律师的实务分享：决定离婚怎么查财产？

专业分享

AI语音合成浪潮下，声音权益的法律边界与系统性保护路径探析