现代法学杂志近十年出版发文量:
现代法学杂志论文格式要求
(一)引用书籍的基本格式为:
〔1〕王名扬:《美国行政法》,北京大学出版社2007年版,第18页。
〔2〕张新宝:《侵权责任法》(第4版),中国人民大学出版社2016年版,第73-75页。
〔3〕高鸿钧等主编:《英美法原论》,北京大学出版社2013年版,第二章“英美判例法”。
〔4〕[美]富勒:《法律的道德性》,郑戈译,商务印书馆2005年版。
(二)引用已刊发文章的基本格式为:
〔5〕季卫东:《法律程序的意义:对中国法制建设的另一种思考》,载《中国社会科学》1993年第1期。
〔6〕王保树:《股份有限公司机关构造中的董事和董事会》,载梁慧星主编:《民商法论丛》第1卷,法律出版社1994年版,第110页。
〔7〕[德]莱纳·沃尔夫:《风险法的风险》,陈霄译,载刘刚编译:《风险规制:德国的理论与实践》,法律出版社2012年版。
〔8〕何海波:《判决书上网》,载《法制日报》2000年5月21日,第2版。
(三)引用网络文章的基本格式为:
〔9〕汪波:《哈尔滨市政法机关正对“宝马案”认真调查复查》,载人民网2004年1月10日,http://www.people.com.cn/GB/shehui/1062/2289764.html。
〔10〕《被告人李宁、张磊贪污案一案开庭》,载新华网,http://www.xinhuanet.com/legal/2019-12/31/c_1125406056.htm。
〔11〕刘松山:《失信惩戒立法的三大问题》,载微信公众号“中国法律评论”,2019年11月19日,https:mp.weixin.qq.com/s/wA3J923WNctVATeSKIhcw。
〔12〕参见法国行政法院网站,http://English.conseil-9etat.fr/Judging,2016年12月18日访问。
(四)引用学位论文的基本格式为:
〔13〕李松锋:《游走在上帝与凯撒之间:美国宪法第一修正案中的政教关系研究》,中国政法大学2015年博士学位论文。
(五)引用法律文件的基本格式为:
〔14〕《民法典》第27条第2款第3项。
〔15〕《国务院关于在全国建立农村最低生活保障制度的通知》,国发〔2007〕19号,2007年7月11日发布。
(六)引用司法案例的基本格式为:
〔16〕包郑照诉苍南县人民政府强制拆除房屋案,浙江省高级人民法院(1988)浙法民上字7号民事判决书。
〔17〕陆红霞诉南通市发改委政府信息公开案,《最高人民法院公报》2015年第11期。
(七)引用英文报刊文章和书籍的基本格式为:
〔18〕Charles A. Reich, The New Property, 73 Yale Law Journal 733, 737-38 (1964).
〔19〕Louis D. Brandeis, What Publicity Can Do, Harper’s Weekly, Dec. 20, 1913, p. 10.
〔20〕William Alford, To Steal a Book Is an Elegant Offense: Intellectual Property Law in Chinese Civilization, Stanford University Press, 1995, p. 98.
作者:张 涛
作者单位:中国政法大学
关键词:人工智能;大模型;训练数据;著作权困境;适应性治理
摘 要:人工智能大模型训练引发著作权困境,传统作品许可使用机制面临功能失 灵,既有“限制与例外”条款亦存在适用难题。 当前学界提出的以“非作品性使用”为代表 的“根源性”权利限缩模式,以及以“文本与数据挖掘”为代表的“封闭式”权利限制模式, 虽在一定程度上能缓解困境,但因其理论局限和制度设计缺陷,难以真正有效平衡各方利 益。 相较而言,合理使用作为典型的“开放式”权益平衡模式,更具制度灵活性与适应性, 可通过多层次评估框架弥补其操作困难与适用不确定性。 与此同时,需辅以技术治理工 具、训练数据透明度义务和合理补偿机制等创新措施,推动著作权法的渐进改革与完善, 保障著作权人的合法权益,促进人工智能技术创新与应用的协调发展。
一、问题的提出
在人工智能大模型引发的诸多法律问题中,①模型训练的著作权侵权风险受到广泛关注。② 具 体而言,人工智能大模型依赖于对海量数据进行训练,而其中相当一部分数据涉及受著作权保护的 作品,导致数据使用的合法性问题凸显,甚至已成为全球范围内引发广泛法律争议的热点议题。 例 如,在国际范围内,以 OpenAI、Stability AI 等为代表的人工智能大模型开发者或平台,近年来频频遭 遇著作权侵权诉讼,被指控未经授权使用含有受著作权保护作品的数据集开展人工智能模型训练, 侵害原作品著作权人之合法权益。③ 在国内,也已出现类似的法律纠纷,如插画师对人工智能绘画 软件提起诉讼,主张其作品未经许可地用于人工智能大模型训练。④ 这些案件的密集出现充分反映 出人工智能技术与法律制度之间日益加剧的张力,体现出当前著作权法律体系在应对技术创新所 带来的新挑战时存在的制度回应不足。
面对人工智能大模型训练引发的著作权困境,目前理论界尚未形成统一而清晰的法律规制意 见。 有论者认为,大模型训练对作品的使用是一种技术过程中的附随性复制,具有极强的转换性目 的,可以认定为“合理使用”,应当通过设置机器学习合理使用条款,来明确模型训练中作品使用行 为的合法性。⑤ 还有论者则认为,生成式人工智能训练中的作品使用具有“非特定性”,并且属于生 产过程性的中间使用,应当将其界定为“非作品性使用”而排除在著作权保护范围之外。⑥ 这些争议 背后存在的深层次问题在于:人工智能大模型的快速迭代和数据使用方式的深刻变革,已经对以往 著作权制度赖以建立的基础理念、权利体系与利益平衡模式提出了严峻挑战。 因此,如何在维护原 创作品创作者权益与激励技术创新之间建立起一种新的动态平衡机制,成为当下著作权制度与实 践必须正视并迫切需要解决的难题。 2024 年 7 月,《中共中央关于进一步全面深化改革 推进中国 式现代化的决定》明确提出“完善生成式人工智能发展和管理机制”;2025 年 3 月,全国人大常委会 工作报告亦提出,围绕人工智能等新兴领域加强立法研究。 在此背景下,本文旨在探讨人工智能大 模型训练面临的著作权困境,分析现有著作权法律框架及拟议的规制改革方案之局限性,进而提出 构建既尊重原创性又兼顾技术发展需求的适应性治理路径,以期为我国人工智能治理提供参考。
二、人工智能大模型训练面临的著作权困境
人工智能大模型(如 GPT-4、Gemini-2. 0、DeepSeek-R1 等)训练涉及海量数据处理,具有极强的 通用性特点,可被用于多个领域和多种任务,①已引发复杂的著作权争议。 本文主要从大模型训练中 “数据处理”的法律定性、传统作品许可使用机制的功能失灵以及既有“限制与例外”条款的适用难题 三个维度,系统剖析人工智能大模型训练对著作权制度的冲击和挑战。
(一)大模型训练中“数据处理”构成“作品使用”
根据《中华人民共和国著作权法》(以下简称《著作权法》)的规定,著作权主要包括著作人身权 (如发表权、署名权、修改权、保护作品完整权等)和著作财产权(如复制权、发行权与出租权、传播权、 演绎权等),因此作品的“使用”通常可以具体化为发表、署名、修改、复制、发行、传播、演绎(如改编、翻 译、汇编等)等行为。 在当前的人工智能大模型中,深度学习领域的核心技术架构分别是生成对抗网络 (GAN)和扩散模型(Diffusion Models)。 其中,生成对抗网络通过生成器与判别器的对抗性博弈实现数 据分布拟合,其隐式马尔可夫链结构使得训练数据的可溯源性呈现指数级衰减;而扩散模型基于非平 衡热力学原理,通过正向扩散过程的噪声叠加与逆向去噪的梯度优化,形成具有分形特征的生成路 径。② 大模型的底层技术原理决定了模型训练的复杂性、周期性和过程性,其核心流程涉及数据收集、 数据整理、模型预训练和模型微调等环节,③其技术特征与著作权法中的“作品使用”行为具有实质同 构性。④
第一,数据收集阶段主要涉及作品的复制,关涉复制权保护。 复制权是著作财产权中最为核心的 权利,其涵盖“以任何方式将作品制作一份或多份”的行为。 一般认为,要构成著作权法意义上的“复 制行为”,应当满足以下两个要件:一是该行为应当在有形物质载体(有体物)之上再现作品;二是该行 为应当使作品被相对稳定和持久地“固定”在有形物质载体之上,形成作品的有形复制件。⑤ 人工智能 大模型训练需要海量数据,一种常见的方法便是由开发人员或第三方从互联网上大规模爬取数据(如 文本、图片等)来构建训练数据库,其中便包含大量受著作权保护的作品数据。⑥ 从技术逻辑的角度 看,利用网络爬虫爬取网页数据,主要是打开网页,将具体的数据从网页中复制并导出到表格或资源库 中,其核心就是“抓取和复制”。⑦ 无论作品是下载到个人电脑还是上传到云端,其副本通常都是以数 字形式存储,即以可感知的形式“固定”下来,因而构成著作权法意义上的“复制行为”,从而对复制权提出挑战。①
第二,数据整理阶段主要涉及作品的复制、署名、修改等,关涉复制权、署名权、修改权和保护作品 完整权等权利保护。 署名权、修改权和保护作品完整权是著作人身权的主要内容。 其中,署名权是作 者在其创作的作品及其复制件上如何标记作品来源的权利,以彰显作者与作品联系的客观事实;而修 改权和保护作品完整权实际上同属一种权利的正反面,保护作品的修改自由,不受歪曲和篡改。② 在 人工智能大模型训练过程中,训练数据在进行使用前,首先要确保其结构良好、准确可靠。 这就需要进 行数据预处理,包括数据的清洗、集成、标注、转换等一系列步骤。 上述处理手段的实现将不可避免地 会对训练数据中的作品进行复制,还可能删除作者的姓名,对作品的完整性进行修改和调整。 研究表 明,当前主流训练数据集普遍存在元数据信息记录缺失现象,尤以数据溯源信息(Data Provenance)及 对应授权许可条款为甚,在数据预处理阶段即对元数据(包含创作者身份、创作时间等关键权属信息) 实施系统性剥离已成为技术惯例。③
第三,模型预训练阶段主要涉及作品的复制和演绎,关涉复制权和演绎权。 在模型预训练阶段,神 经网络通过反复读取训练数据来调整内部参数,形成“预训练模型”或“基础模型”。 在理想情况下,大 模型并非以人类可读方式“存储”每一条训练数据,而是由模型参数以分布式方式隐含反映数据的统 计特征,通过提炼共性特征实现对知识的泛化,而非逐字逐图记忆。 然而,实证研究发现,大模型对训 练数据存在一定程度的“记忆效应”(Memorization)。④ 一方面,由于训练数据规模巨大,部分内容会被 模型参数直接记忆,研究显示约 0. 1%—10%的训练数据片段被显性嵌入模型参数中;⑤另一方面,即使 未被直接记忆的作品,其独特表达也可能通过参数调整以功能形式保留下来,通过适当技术手段(如提 示词)可将其重现为可感知的作品内容。⑥ 研究表明,GPT-4 等大模型在特定提示词下能输出与其训 练数据完全一致或高度相似的文本。⑦
第四,模型微调阶段主要涉及作品的复制,关涉复制权。 模型微调是在预训练模型的基础上,进一 步针对特定任务或特定应用场景,输入更具针对性的数据,以优化大模型在特定领域中的表现效果。 从技术实现流程分析,模型微调阶段通常包含三个递进式数据处理环节:一是目标领域数据集的预处 理阶段,可能涉及对受著作权保护作品的数字化转换与存储;二是参数调整阶段的梯度下降运算过程 中,系统内存对训练数据的临时性驻留;三是模型权重更新时对数据特征的分布式表征,作品内容不是 以传统意义上的文本或图像直接储存,而是以数值化、分布式的参数形式隐含存储。
(二)传统作品许可使用机制面临功能失灵
一般认为,著作权是作者依法对作品及相关客体所享有的专有权利,其根本在于自然正义,它赋予 作者以权利,使之能够获得对作品的某些控制措施,以便为生产创造性作品带来某种激励。① 从权利 属性的角度看,著作权的核心要素是排他性(Exclusivity),即赋予作者排除他人使用其作品的能力。② 为了确保这种排他性,“许可”便成为著作权持有者利用其作品的最重要方式之一,也是使作品使用行 为合法化的重要前提条件,否则就可能构成侵权。③ 如上文所述,人工智能大模型训练涉及受著作权 保护作品的使用,因此需要获得相应的使用许可。 然而,理论与实践表明,传统的作品许可使用机制面 临功能失灵,难以使上述使用行为合法化。
1. 许可使用机制在实践中面临可行性困境
人工智能大模型通常依靠动辄数亿条数据构建其训练数据,这些数据的数量庞大且来源分散,其 中大量的数据条目涉及不同领域、类型与规模的作品。 以典型多模态数据集 LAION-5B 为例,其中便 包含了 58. 5 亿条图像-文本对(Image-text Pairs)。④ 为了确保数据的合法使用,大模型开发者可能需 要逐一获得对应的著作权持有者之许可。 在应对人工智能大模型训练的需求时,传统作品许可使用机 制在技术和实践层面几乎无法完成,正面临系统性功能失调的严峻挑战。
首先,权利主体虚化与多模态使用的复合性困境。 如前所述,训练数据大多源于开放的网络环境, 尤其是通过网络抓取获得的作品数据,其本身很少为每一项数据保留元数据(如作者身份、来源、许可 信息等),因此作品与著作权持有者之间缺乏明确、稳定的对应关系。 此外,随着数字网络环境中创作 主体的匿名化、去中心化趋势,大量“孤儿作品”充斥其中,这进一步加剧了“权利主体虚化”问题。⑤ 更 为复杂的是,多模态融合训练模式易引发权利交叉难题:当单一训练数据同时包含受不同权利保护的 文本、图片、音频、视频等元素时,传统“分项授权”机制在技术层面将缺乏可操作性。
其次,规模化训练需求与原子化授权模式的制度性错配。 “正像其他财产的权利一样,知识财产 的权利也是一种人与人之间的关系。”⑥即便大模型开发者能够成功找到具体的著作权持有者,谈判与 协商过程本身的复杂性也将极大限制传统作品许可使用机制的适用性。 著作权持有者对于作品的使 用可能持不同的态度和诉求,在使用条件、授权期限、费用标准以及利益分配等问题上均可能存在重大 分歧。 即便大模型开发者试图与每一位著作权持有者开展谈判并协商许可,效率也将极为低下,达成 统一标准的协议十分困难。⑦
最后,逐一获得著作权使用许可还面临跨国界的复杂性。 人工智能大模型训练所使用的数据集通 常并非局限于单一国家或地区,而可能是跨域多个法域、多个地域界限的结果。 众所周知,著作权保护 具有显著的地域性特征,不同国家或地区著作权法所规定的保护范围、保护期限、限制与例外的条件、授权方式、法律责任等均存在不小的差异,甚至可能出现显著冲突。 因此,跨境许可的法律不确定性与 协调成本,将进一步导致传统作品许可使用机制在全球化大模型训练活动中难以实施。①
事实上,传统作品许可使用机制的功能失灵不仅仅停留在操作复杂性与成本高昂问题本身,其背 后也反映了现行著作权法律体系与人工智能大模型技术特征之间的深层次矛盾。 大模型训练是一种 典型的数据密集型应用场景,其对受著作权保护作品的使用体现为规模性、自动化和批量化的特征,而 传统作品许可使用机制则源自纸质时代对作品逐件控制的理念,根植于“个人作者、个人作品以及创造 力是个人行为的观念”,②强调逐一谈判授权的个体交易模式,天然与数据密集型的创新型数据利用 方式存在龃龉。
2. 许可使用机制可能产生负面效应
传统作品许可使用机制不仅面临功能失灵,还可能产生一系列负面效应。 首先,许可使用机制 的过度依赖可能成为技术创新的障碍。 在人工智能大模型领域,高质量数据的可用性是人工智能 技术创新的关键因素,若开发工作受到繁琐的授权许可程序和高昂协商成本的限制,研究人员和开 发者可能会被迫放弃探索新的应用领域和技术突破。③ 其次,许可使用机制可能导致不公平的竞争 环境。 在资源分配不均的情况下,大型科技公司通常能够凭借其雄厚的资金和法律资源,更容易获 取作品的许可。 相反,小型创业公司和研究机构由于缺乏足够的资金,可能在竞争中处于劣势地 位。 这种不平等的竞争条件不仅可能抑制整个智能行业的创新活力,还可能对消费者权益产生影 响,“竞争的加剧才能为公众提供更多和更高质量的人工智能产品,从而使公众受益”。④ 最后,许可 使用的选择性和差异性可能影响训练数据的质量。 如前所述,著作权持有者对作品的使用可能有 不同的偏好和期待,一些权利持有者可能出于各种原因不愿意或无法提供所需的许可,这会导致训 练数据集的不完整性。 “广泛获取训练数据集将使人工智能变得更好、更安全、更公平。 规模较小 的专有数据集,尤其是因著作权许可失效而造成的大量非随机数据集,将导致机器学习系统做出更 糟糕的决策,而这些糟糕的决策会对现实世界产生影响。”⑤
(三)既有“限制与例外”条款存在适用难题
从经济学视角审视,著作权的“限制与例外” (Limitations and Exceptions)条款旨在通过调整著 作权保护范围,从而在作品获取与创作激励之间实现社会最优平衡。⑥ 各国的著作权法以及一些重 要的国际公约(如《伯尔尼公约》)均规定了对著作权的“限制与例外”,我国《著作权法》把自由无偿 使用和法定许可统称为“著作权的限制”。⑦ 就人工智能大模型训练而言,当传统作品许可使用机制 难以因应受著作权保护作品使用的合法性质疑时,还有必要检视现行法律框架中的“限制与例外” 条款能否为其提供责任豁免。
第一,《著作权法》的“自由无偿使用”条款存在适用性困境。 我国《著作权法》规定的第一种 “限制与例外”类型是“自由无偿使用”,学术界通常将其称为“合理使用”,即在特定情形下,他人使 用作品可以不征得著作权人的许可,也不必支付报酬,主要体现在《著作权法》第 24 条。 现行《著作 权法》第 24 条构建的封闭式列举模式,本质上是对模拟技术时代的制度回应,其预设的“个人学习、 研究或欣赏”“适当引用”等例外情形,主要建立在人类主体有限使用的物理约束基础之上。 然而, 人工智能大模型训练的技术特性突破了传统使用行为的物理边界:一方面,模型训练通常需要对作 品进行全文本解析与特征提取,这种“完整性使用”与自由无偿使用制度中的“片段化使用”范式形 成冲突;另一方面,训练数据的商业化流转与价值转化,使“非营利性”要件面临解释困境。
第二,《著作权法》的“法定许可”条款存在适用性困境。 现行法定许可条款(如《著作权法》第 25 条规定的“教科书编写许可”、第 35 条规定的“报刊转载许可”以及第 42 条规定的“制作录音制 品许可”等)的立法逻辑主要植根于特定公共文化产品的供给保障,其制度效能依赖于明确的使用 场景限定与可操作的报酬计算机制。 人工智能大模型训练虽然具有技术创新的正外部性,但绝大 多数大模型主要由商业主体主导,其逐利本质恐难以完全契合现行法定许可制度所呈现的“公共 性”倾向。 更深层次的制度悖论在于:当海量数据使用遭遇微量报酬计算时,不仅可能催生天价许 可费的现实难题(如谷歌数字图书馆计划的著作权争议),更有可能导致交易成本指数级上升而形 成“反公地悲剧”。
三、人工智能大模型训练的著作权法规制改革方案检视
在现行著作权法律框架下,人工智能大模型训练中的“作品使用”面临合法性质疑,而传统作品 许可使用制度和“限制与例外”条款均难以提供合法化机制。 为了加强著作权法对人工智能大模型 训练的回应性,理论与实践提出了诸多规制改革方案,其中最具突破性的有两种路径:一是“根源 性”权利限缩模式,即直接从根源上对以“复制权”为核心的著作权体系进行重构,对著作权的原有 保护范围进行限缩,进而将大模型训练中的“数据处理”排除在“作品使用”之外,①此种规制改革方 案主要以“非作品性使用”(Non-work Use)观点为代表;②二是“封闭式”权利限制模式,即先预设大 模型训练中的“作品使用”存在侵害著作权的可能性,再通过设置例外情形进行明确的责任豁免,此 种规制改革方案主要以主张直接在现行法律中设置类似于“文本与数据挖掘” ( Text and Data Mining)例外条款的观点为代表。③ 尽管上述规制改革方案从不同角度尝试回应人工智能大模型训 练的著作权问题,但它们在理论与实践中均存在一定的局限性。
(一)“根源性”权利限缩模式:非作品性使用的不足
现代数字技术的发展和互联网的普及,已经使复制成为信息传递和使用的核心组成部分。 例 如,计算机程序、网络服务和数据存储等本质上都依赖于复制。 这种依赖复制的技术模式与传统著 作权法规定产生了深刻的冲突,因为传统著作权法往往强调复制对创作主体权利产生的侵害。① 对 此,马修·萨格(Matthew Sag)教授认为,依赖复制的技术并不阅读、理解或欣赏受著作权保护的作 品,也不直接向公众提供这些作品,但是它们必须复制这些作品作为各种算法技术的原材料,此种 使用具有“非表达性”,不应被视为著作权侵权。② 亚伯拉罕·德拉西诺尔(Abraham Drassinower)教 授亦主张,复制行为并非自动等同于作品使用,在很多情况下,复制是信息的物理或数字化重现,并 不意味着该复制行为必然涉及到对作品的创作性再现或具有表达性内容。 在此基础上,德拉西诺 尔教授进一步指出,区分“作品性使用”与“非作品性使用”有助于避免滥用著作权的保护范围。 若 复制行为不涉及作品创作性或表达形式的再现,那么即便是通过复制的方式获取知识,也不应被视 为不道德的行为。 通过这种区分,社会能够更好地理解哪些行为应当受到保护,哪些则应当被视为 合理的使用,最终为更广泛的信息共享和知识传播提供空间。③
在此背景下,有观点主张用“非作品性使用”来解决人工智能大模型训练的合法性问题,即不将 人工智能大模型训练中的“数据处理”视为“作品使用”,因此不应受到著作权法的约束。 德国学者 丹尼尔·舍恩伯格(Daniel Schönberger)认为,人工智能大模型在训练过程中并不直接对受著作权保 护的作品进行复制或变更,而是通过自动化的方式从大量数据中提取模式、规律与结构,这种使用 更应被视为信息获取与技术创新,而非侵犯著作权的复制行为。④ 国内亦有学者认为,大模型训练 中的作品使用,具有“非特定性”,不指向具体而特定的单个作品,从功能上看,属于生产过程性的中 间使用,应当将其界定为“非作品性使用”而排除在著作权保护范围之外。⑤ “非作品性使用”理论 作为化解人工智能大模型训练中著作权困境的创新方案,虽具有突破性思维价值,但其理论自恰性 和实践可行性仍面临困境。
其一,该理论可能对著作权制度根基构成解构性冲击。 一般认为,著作权法的核心目的之一便 是通过赋予创作者的“专有权利”来形成“创作—保护—再创作”的正向循环。⑥ 若将人工智能大模 型训练纳入“非作品性使用”范畴,实则可能消解著作权法对数字技术应用场景的规制效力,这不仅 可能会引发权利配置的结构性失衡,更可能触发制度刚性下的系统性风险。⑦ 从制度变迁的视角观 之,涉及核心权利束调整的法律变革通常需承担高昂的路径依赖成本,其综合成本可能远超制度 收益。
其二,该路径忽视作品创作者的权益保护。 将人工智能大模型训练中的“数据处理”认定为“非作品性使用”,可能会导致创作者在作品被使用时缺乏相应的补偿机制。 在数据资本主义语境下,① 科技公司可能依托“非作品性使用”的理论豁免,实质上构建“免费获取—商业转化”的单向价值攫 取机制。 这种制度安排不仅违背权利与义务对等性原则,②更可能形成“数字圈地运动”式的权利真 空。③ 在一项对 1000 多名艺术家的实证调查中,超过 95%的艺术家将他们的艺术作品发布在网络 上,其中有 53%的人预计将减少或删除他们的在线作品。④ 这种防御性创作策略的蔓延,将可能导 致公共领域资源的逆向收缩,最终可能危及人工智能训练数据生态的可持续性。
(二)“封闭式”权利限制模式:文本与数据挖掘的局限
为了给技术创新提供较为明确的法律框架,理论与实践亦尝试通过立法对“限制与例外”的具 体情形进行明确规定的方式来增加法律的确定性和可预见性,即所谓的“封闭式”权利限制模式。 在比较法中,为促进数字技术进步,欧盟、英国和日本等一些国家或地区已经明确将“文本与数据挖 掘”纳入其版权法的“限制与例外”情形中。 例如,欧盟于 2019 年通过了《数字单一市场版权指令》 (Directive on Copyright in the Digital Single Market),其第 2 条第 2 项将“文本与数据挖掘”界定为“任 何旨在分析数字形式的文本和数据以生成信息(包括但不限于模式、趋势和相关性)的自动分析技 术”;第 3 条规定了第一种例外情形,研究组织和文化遗产机构为科学研究目的可以对其合法访问 的作品进行文本与数据挖掘;第 4 条规定了第二种例外情形,任何人均可以为任何用途适用该例外 情形,但版权持有者可以明确保留其作品的使用权,即可以通过“选择退出”或“合同退出”的程序来 拒绝他人对其作品的使用。
在此背景下,围绕人工智能大模型训练的著作权风险,“文本与数据挖掘”这一法定例外情形便 成为一种解决方案。⑤ 尽管欧盟《数字单一市场版权指令》在规定“文本与数据挖掘”时并非针对人 工智能技术,但是欧盟《人工智能法》第 53 条第 1 款第( c)项肯定了上述条款在人工智能领域的适 用性,要求通用人工智能模型提供商“制定一项遵守欧盟版权法的政策,特别是确定并遵守(包括通 过最先进的技术)根据 2019 / 790 号指令第 4 条第 3 段表达的权利保留”。 美国学者迈克尔·卡罗尔 (Michael W. Carroll)认为,文本与数据挖掘技术对于推动科学进展具有重要作用,著作权法应当为 学术研究和科学进步提供更多的灵活性和宽容度,应当明确允许人工智能或机器学习对大规模数 据集进行挖掘和分析,而无需每次都获得著作权持有者的许可。⑥ 在我国,一些学者亦主张从立法 角度借鉴欧盟和日本,在立法中明确将诸如“文本与数据挖掘”或“人工智能创作”列为限制与例外 情形,正面回应人工智能技术创新与发展的现实需求。⑦
从长远来看,当人工智能大模型技术已完成突破性创新阶段进入应用深化期时,明确规定符合 技术特征的著作权限制与例外情形具有正当性基础。 然而,当前人工智能大模型技术尚处于快速 迭代的动态发展阶段,通过制定类似于欧盟等域外法中的“文本与数据挖掘”例外条款,虽在一定程 度上能够为人工智能大模型训练提供法律确定性,缓解其所面临的作品许可使用难题,但此种方案 仍然存在局限性,需要结合技术特征设计更为细致的配套制度。
其一,“文本与数据挖掘”例外条款在国外实践中已经展现出较为明显的制度缺陷与矛盾。 在 比较法中,欧盟《数字单一市场版权指令》第 3 条、第 4 条虽然引入了“文本与数据挖掘”例外规则, 但实践中却产生了大量的解释难题与争议。 一方面,模型开发者在进行数据挖掘时著作权人拥有 “选择退出权”,可能导致模型开发者无法真正放心、大规模、无障碍地使用所需数据;另一方面,附 随的“权利保留”机制与人工智能大模型的技术特性存在冲突,海量作品的权利主张与退出声明追 踪在技术上存在可操作性困难。① 此外,若采用完全开放的法定例外(如日本《著作权法》允许的非 欣赏目的的广泛豁免模式)容易忽视创作者的权益保护,导致著作权保护功能的弱化,进而可能降 低创作者继续创作的积极性。② 例如,日本音乐著作权协会曾表示:“在涉及生成式人工智能方面, 日本现行著作权法并没有在保护创作者上做出贡献。 实际上,日本著作权法更加关注对创作者权 利的限制。”③这些国际经验表明,类似于“文本与数据挖掘”的例外条款本身并非完美无缺的方案, 而是充满了复杂的利益衡量与制度选择困境,值得我国立法时审慎考量。
其二,单纯增加“文本与数据挖掘”例外条款可能存在与现有法律框架的协调难题。 仔细考察 我国《著作权法》第 24 条的立法设计可以发现,其规定的“限制与例外”情形通常是以特定的具体用 途、明确的使用范围为基础设置的条款。 然而,人工智能大模型训练属于一种复合性的、规模化的 技术应用场景,其涉及的数据使用类型可能超出既有权利限制条款所预设的范围。 面对尚处于快 速迭代发展中的人工智能大模型技术,直接引入类似于“文本与数据挖掘”的“限制与例外”条款,可 能导致制度层面出现条款适用范围不清晰、利益衡量标准模糊以及与其他权利限制条款之间协调 困难的问题。 正如威廉·帕特里(William Patry)所指出的,封闭的清单必须定期更新,否则就会扼 杀技术或市场创新;任何立法机构,无论多么谨慎或富有远见,都无法考虑到当前所有的用途,更不 用说尚未出现的用途、技术或市场。④
四、迈向“开放式”权益平衡模式:合理使用的适用性
一般认为,著作权法蕴含了一种“权益平衡”的权利保护哲学,如果保护力度过弱,人们可能不会投入过多的智力活动;如果保护力度过强,公众将无法从作品创作中获得全部预期收益。① 在此 背景下,合理使用便成为维护权益平衡的关键制度工具,它可以使某些作品使用合法化,否则这些 使用行为将引发著作权侵权责任。② 考虑到人工智能大模型的技术特性与发展态势,相比于“根源 性”权利限缩模式和“封闭式”权利限制模式这两种极具突破性的著作权法规制改革方案,一些学者 主张采用一种更为灵活、渐进的“开放式”权益平衡模式,即原则上将人工智能大模型训练纳入“合 理使用”的范畴。③ 不过,由于“合理使用”的认定本身具有极强的个案特性,④再加上人工智能大模 型训练的多阶段性和场景依赖性,本文认为,笼统地将人工智能大模型训练一概纳入“合理使用”范 畴,也可能会重蹈上述规制改革方案困境的覆辙,难以实现包容审慎规制理念。⑤ 因此,有必要结合 人工智能价值链,充分考虑训练数据的类型以及不同的使用目的,建构合理使用的分类评估框架。
(一)人工智能大模型训练中合理使用的适用必要性
如前所述,互联网和数字技术带来的创新日新月异,企业和市场适应新技术的时间表已经大大 缩短,因此试图规范数字技术引发的商业问题之法律也需要迅速调整。 正如学者所言:“在这个高 度动态、不可预测、且不断变化的信息社会中,著作权法更加开放的必要性几乎是不言而喻的。”⑥ “合理使用”具有一定的灵活性,便成为“开放式”权益平衡模式的主要制度工具之一。 在我国著作 权法理论与实践中,合理使用制度主要建立在《伯尔尼公约》的“三步检验法”框架之下。 不过,有学 者认为,“三步检验法”存在立法技术缺陷,挤压和侵蚀了合理使用的适当空间,也没有提供合理使 用的宗旨或价值目标。⑦ 在比较法中,美国版权法第 107 条规定了合理使用制度的四个要素:(1)使 用的特性和目的,包括该使用具有商业性质还是为了非营利和教育目的;(2)被使用的版权作品的 性质;(3)与被使用的版权作品整体相比,使用部分所占的数量和实质性;(4)该使用对版权作品潜 在市场或价值的影响。⑧
对此,有学者提出,我国可以借鉴美国合理使用制度的四要素对“三步检验法”进行重构,在此 基础之上,可以将人工智能大模型训练中的“作品使用”归入合理使用的范畴。⑨ 还有学者认为,即 使以我国著作权法中“三步检验法”作为判断标准,生成式人工智能训练数据的使用也可以构成合 理使用,一方面此种行为不会影响作品的正常使用,另一方面此种行为整体上不会不合理地损害著作权人的合法权益。① 上述观点从不同维度证成了人工智能大模型训练中适用合理使用制度的正 当性。 本文认为,在大规模数字化的背景下,人工智能大模型训练不同于传统的作品使用情境,这 为合理使用制度的适用提供了新的现实基础。
第一,非直接复制与去标识化的训练方式。 人工智能大模型训练主要是通过深度神经网络的 多层次表征学习,对训练数据集进行去标识化的特征萃取,其本质是对作品思想内核和表达范式的 抽象建模,而非对具体表达形式的机械再现。② 从技术实现层面观察,人工智能大模型采用分布式 表征技术,通过自注意力机制(Self-attention Mechanism)对输入数据进行向量空间映射,将文本、图 像等作品要素解构为高维语义向量。③ 这种技术路径具有三重法律意义:(1)数据处理的去个性化 特征使得原始作品与输出结果之间难以建立可追溯的因果关联;(2)模型参数的形成是数十亿次梯 度下降优化的累积结果,任何单一训练样本的影响权重主要呈现统计学意义上的弥散性;(3)权重 矩阵的动态调适过程本质上属于技术系统自主演进的认知范式重构。④
第二,训练的目的与“非竞争性市场”。 合理使用的核心要素之一是市场替代效应分析,即作品 使用行为是否对原始作品的市场造成了损害。 从训练目的审视,人工智能大模型训练呈现出显著 的“技术性使用”(Technological Use)特征,⑤旨在通过数据要素的算法熔炼,建构具有通用认知能力 的智能基座,有别于传统著作权侵权中直接攫取作品表达价值的商业化利用。⑥ 就输出特性而言, 人工智能大模型的涌现能力(Emergent Capability)使得模型输出结果与训练数据之间形成“双重绝 缘”机制:一是在技术实现层面,如前所述,大模型通过潜在空间(Latent Space)中的特征解耦,将训 练数据拆解为高维语义向量,使得输出内容难以精确溯源至特定训练样本;二是在法律效果层面, 生成内容呈现非确定性和不可预测性特征,其机理迥异于传统“记忆存储—信息再现”模式中的确 定性调用机制。⑦ 此外,从市场维度观之,以 GPT-4 为代表的大模型训练虽涉及对海量文本数据 (涵盖新闻报道、学术论文、文学作品等多元类型)的深度学习,但其生成内容却可以扩展至教育辅 助、智能客服、政务问答等广泛的新兴应用场景。 从这个角度看,人工智能大模型创造的是技术工 具市场而非单纯的内容创作市场,二者具有产业互补性而非替代性。
第三,大规模数据与训练行为的社会价值。 合理使用制度的价值内核不仅在于平衡私权保护 和公共福祉,更蕴含着推动人类文化繁荣的时代使命。 “合理使用并不保护任何个人或团体的利 益,而是保护表达自由和文化发展的能力。”⑧随着数智社会的不断发展,人工智能大模型所产生的 价值远远超出特定开发者或企业的利益边界,能够在更大范围内提高生产效率、优化社会治理以及 改善公共服务品质,最终推动整体社会的创新能力与福利水平显著提升。⑨ 这种正外部性与合理使用所追求的“社会价值”理念高度契合,使之成为人工智能大模型训练中数据处理的制度性支撑。 此外,从技术发展规律和实践经验来看,广泛、充分且高质量的数据供给,能够使人工智能大模型更 加精准、全面地学习人类文化、语言、行为模式与知识体系,进而提高模型的泛化能力。① 这种数据 的开放性需求又进一步彰显了合理使用制度在数据资源利用和配置过程中的重要价值。 尤其值得 强调的是,针对当前人工智能领域日益凸显的“算法偏见”问题,合理使用制度在一定程度上可以推 动训练数据集更加全面、多元和均衡地构建,有助于著作权法实现更广泛的规制目标。②
(二)人工智能大模型训练中合理使用的理论争议
面对尚处于发展过程中的人工智能大模型,“合理使用”制度所具有的灵活性确实有助于实现 著作权法的目标,同时也给技术创新者留有喘息的空间。 然而,灵活性也是有代价的,学者们亦对 人工智能大模型训练中合理使用制度的适用提出了批判与质疑。
首先,合理使用的认定不仅需要法律专业知识,还需要对具体情境的深刻理解。 从既有理论与 实践来看,合理使用判断往往涉及使用目的与性质、作品本身的特性、使用作品的数量与实质程度 以及作品潜在市场影响等多重因素的综合考量。 长期以来,这些因素本身缺乏明确的量化标准,导 致在实际应用中难以形成统一且稳定的标准和可预测的结果。③ 人工智能大模型的开发与应用场 景高度复杂,涉及海量数据资源的利用,开发者在具体决策过程中可能难以确定自身对数据的使用 程度、对原作品市场的实际影响以及自身数据使用的性质和目的是否已超越了合理使用的限度。
其次,灵活性所带来的不确定性对一些风险容忍度较低的用户,可能产生更大的负面影响。 从 实践角度看,一些人工智能大模型开发者(尤其是小型初创企业)可能会采取较为谨慎的法律合规 策略,试图最大程度地避免潜在的著作权纠纷与由此产生的高昂经济成本和声誉损害。 因此,在合 理使用标准尚未明确界定、法律适用存在模糊空间的情况下,这些模型开发者出于风险规避的考 虑,很可能主动放弃那些原本在法律上属于合理使用范围且对大模型训练效果更具积极作用的优 质数据。④
最后,将人工智能大模型训练一律视为合理使用,可能损害广大创作者的利益。 如前所述,著 作权法的核心宗旨之一,在于通过对作品创作者的权利保护与激励,促进作品的创作、传播与知识 的公共共享,从而推动社会文化的繁荣与知识进步。 因此,合理使用制度本应保持在一个审慎的适 用范围之内,既要保障作品使用的公共价值,又要兼顾创作者个人权益的有效激励与保护。 然而, 如果出于推动人工智能技术发展之目的而将合理使用的制度边界大幅拓展至涵盖所有模型训练场 景,使模型开发者在利用海量受著作权保护的作品数据时无需支付任何报酬或其他形式的合理补 偿,则可能会破坏制度初始设定的利益平衡,⑤可能诱发“技术红利私人化,创作成本社会化”的负外 部效应。
(三)人工智能大模型训练中合理使用的评估框架
为了缓解人工智能大模型训练中合理使用制度遭遇的质疑,一些学者提出应当为合理使用建 构一个更为精细的评估框架,而非“一刀切”地将人工智能大模型训练笼统认定为“(不)构成合理 使用”,原因在于“合理使用是因具体情况而异的,因此任何事前分析都无法预测所有相关问题”。① 有学者认为,当代人工智能的最显著特征之一就是依赖大量的训练数据,因此可以将训练数据分为 公共领域数据、许可数据、受版权保护数据的市场侵占使用、受版权保护数据的非市场侵占使用,在 此基础上去分别评估合理使用的适用性。② 也有学者认为,鉴于人工智能产业链中主体的多元性, 可以将人工智能大模型训练解构为数据准备、数据投喂和机器学习三个阶段,在此基础上分别评估 每个阶段作品使用行为的“合理性”。③ 另有学者通过实证研究发现,解决与人工智能相关的版权问 题没有放之四海而皆准的原则,选择何种强度的合理使用标准,不仅与竞争环境和模型质量有关, 而且还受训练数据可用性的影响;当存在丰富的训练数据时,宽松的合理使用标准(使用数据进行 人工智能训练而不向创作者支付报酬)对各方都有利,但当训练数据稀缺时,则可能会损害创作者 和消费者的权益。④ 还有学者通过识别生成式人工智能供应链中不同利益相关者的贡献度与期望 价值,来评估合理使用原则的有效性。⑤ 综合已有的理论与实践经验,本文认为,无论是从内部合规 还是外部监管的角度,在对人工智能大模型训练中的合理使用进行评估时需要考虑如下因素。
第一,使用目的与使用行为的功能。 传统上,对合理使用的评估通常倾向于强调使用行为本身 是否具有公益性特征。 一般认为,若作品使用行为体现出显著的社会公共利益导向,更容易获得司 法上的支持,从而享有较为宽松的合理使用空间。 然而,人工智能大模型训练所体现的目的通常并 不局限于传统的单一领域,而是兼具了跨领域的技术创新性、研究探索性和社会应用性。 例如, DeepSeek-R1 全面接入各领域。 这意味着对人工智能大模型训练中作品使用目的的判断,不能简单 地沿用传统合理使用标准中“商业”与“非商业”二元区分模式,而需要根据具体的应用场景、技术目 标和社会效益进行更加精细化的分析。⑥
第二,数据使用的类型与性质。 人工智能大模型训练需要大量的训练数据,这些数据往往来自 于不同来源,包括但不限于公共领域数据、开放数据集、用户生成内容等。 不同类型的数据,其使用 的合法性和合理性也会有所不同。 因此,合理使用的评估框架应当根据数据的来源、性质及使用目 的进行分类审视。 模型开发者可以通过建立“数据治理沙盒”制度来辅助合理使用评估。 例如,可将训练数据按法律风险等级划分为红、黄、绿三区,分别对应禁止使用类数据(如未授权专有作品)、 条件使用类数据(如用户生成内容)及自由使用类数据(如公共领域数据)。
第三,市场影响的评估。 传统合理使用的核心考虑之一便是是否会对作品的市场造成负面影 响,尤其是是否会影响著作权人的潜在收入。 对于人工智能大模型训练中的数据使用,市场影响的 评估更加复杂。 由于大模型的最终应用并非直接复制或再创作原作品,因此其市场影响与传统的 著作权侵权行为有所不同。 在进行合理使用评估时,可以构建“双重市场分析框架”:一是直接竞争 市场,即被使用作品的现有及潜在市场;二是衍生技术市场,即大模型技术开发及应用形成的市场 增量。 此种分析框架的转换,要求突破传统著作权法以“作品”为中心的市场替代分析,转向以“技 术生态系统”为考察维度的创新效应评估。①
第四,公共利益的考量。 在判断人工智能大模型训练是否构成合理使用时,公共利益的实现程 度应当作为一项重要的评估因素予以考量。② 若大模型开发者能够证明所实施的数据利用行为对 社会具有明显且重大的公共利益(如医疗健康、公共安全、科研创新等),且这种公共利益的实现无 法以其他更加经济、更加便捷、侵害更小的方式来达成,则在此种场景下合理使用的空间应适度扩 大。 正如学者所指出的,“当将人工智能与受著作权保护作品的相关争议置于贫困、社会公平、气候 变化及生物多样性丧失等重大社会挑战的更广泛背景之下时,这种争论或许只是小题大做。 事实 上,人工智能技术本身可能恰恰是应对这些全球性难题的解决之道。”③
五、超越合理使用:通过技术、透明和补偿促进权益平衡
合理使用仅仅是更广泛的法律制度的一部分,而创造力和创新往往是多种因素的综合结果,包 括对冒险和失败的态度、风险投资体系以及其他富有创造力的组织和人员的聚集。④ 这意味着仅仅 依靠合理使用制度还不足以完全解决技术创新与个人权益保护之间的平衡问题,需要从技术基础、 应用、标准、可融合的数据算法、可评估的可信度等方面进行法律的适应性改革⑤。 为了更好地缓解 人工智能大模型训练的著作权困境,还有必要通过技术治理工具、训练数据透明度义务和合理补偿 机制等举措,推动建构一个适应性治理框架(Adaptive Governance)。⑥
(一)通过技术工具缓解著作权风险
“当规制问题过于复杂,或某个行业存在异质性,或处于动态演进之中时,更适合去选用自我规制与元规制。”①在新兴技术治理中,相比于其他利益相关者,技术开发者通常具有更多的信息和资 源优势,能够更好地理解技术的潜力和局限性,因此可以通过采取组织性和技术性措施承担起自我 规制的任务。 例如,在个人信息与隐私保护领域,隐私增强技术作为一种旨在保护个人或群体隐私 的技术性措施,受到个人信息处理者和规制机构的高度重视。② 又如,在著作权保护领域,数字化作 品的在线保护已经通过算法执行系统(Algorithmic Law Enforcement)来实现,这些系统旨在监测、过 滤、阻止和禁止访问非法内容并降低网络平台的侵权责任风险。③ 对此,有学者认为,可以将合理使 用标准纳入算法执行系统,既能防范自动化执法导致的过度威慑,亦可以向用户提示其行为的法律 合规性。④ 在《纽约时报》提起对 OpenAI 的诉讼后,有学者利用技术工具对 GPT-4 等大模型的“记 忆”能力进行了评估,以此来验证《纽约时报》的著作权侵权主张和 OpenAI 的“合理使用”抗辩之合 理性,此种方法或许将为法院裁判提供参考,以超越单纯的规范分析和推理。⑤
就人工智能大模型的著作权风险而言,从理论上看,通过排除或去重受著作权保护的作品数 据,大模型开发者便可以在一定程度上减少著作权侵权风险。⑥ 然而,这一过程并非易事。 首先,数 据整理和过滤需要大量的计算资源和人力投入,即使经过严格的数据整理和过滤,仍然无法完全避 免使用受著作权保护的数据。 其次,受著作权保护的数据通常是高质量的输入数据,对大模型性能 至关重要。 如果将这些高质量数据排除在外,可能会对大模型的性能产生负面影响。 因此,为了在 减少著作权风险和保持模型性能之间取得平衡,理论与实践正积极探寻技术工具来对大模型训练 进行干预,⑦通过建立合规科技创新机制,借助合规科技手段以最大限度符合现有的著作权法 规则⑧。
根据已有的理论与实践,用于缓解人工智能大模型的著作权风险的技术治理工具,按照保护模 式(包括预防和监测)、应用阶段(包括数据收集、模型训练、模型推理等)和粒度(包括数据集、模 型、提示等)等标准,主要包括以下几类:一是数据集清理类技术,即在进行任何训练之前直接访问 训练数据集并修改底层数据;二是对抗性扰动类技术,即在训练数据集中添加“噪声”,故意扰乱生 成过程;三是概念移除类技术,即修改机器学习过程以影响下游的内容生成;四是水印类技术,即在 训练数据中嵌入不易察觉的信号以追踪未经许可的使用;五是分析数据归因类技术,即应用事后分 析方法来确定特定训练数据对生成输出的贡献;六是记忆测试类技术,即量化底层生成式人工智能模型的“记忆”能力。① 此外,有学者提出,可以设计一种算法模型来量化人工智能模型输出的原创 性水平,将模型输出修改为原创性较低的输出,这些修改后的输出不仅更加通用,还不太可能模仿 受著作权保护作品之独特性。② 上述技术治理工具各有其优势及局限,人工智能大模型开发者(尤 其是业界“巨头”公司)可以根据模型训练的具体情况,积极采取适当的技术工具,最大限度缓解著 作权风险,使其尽可能符合合理使用之要求,并可以通过行业影响或市场机制,将最佳实践推广至 整个行业。
(二)强化大模型开发者的透明度义务
“透明度”这一概念具有多维内涵,承载多元功能,蕴含多重价值期许,已然成为人工智能治理 话语体系的重要构成维度。③ 就人工智能大模型训练的著作权法规制而言,大模型开发者的训练数 据透明度义务也越发受到重视。④ 从功能主义的角度看,强化大模型开发者的训练数据透明度义务 具有重要意义:一方面,它明确将训练数据合规责任和信息公开义务施加于大模型开发者,促使其 明确披露和记录所使用训练数据的著作权情况;另一方面,这种透明度义务也可以为权利人和社会 公众提供有效的信息获取渠道,为未来可能建立的著作权补偿机制或利益分配机制奠定基础。
在比较法中,欧美一些新近的人工智能立法已经对大模型开发者的训练数据透明度义务进行 了规定。 例如,欧盟《人工智能法》第 53 条第 1 款第(d)项规定,通用人工智能模型的提供商应当根 据人工智能办公室提供的模板,起草并公开一份关于通用人工智能模型训练内容的足够详细的摘 要(Detailed Summary)。 关于摘要的起草要求,欧盟《人工智能法》在前言第 107 条进行了解释,为 了便于著作权持有者行使其权利,摘要必须具有一般意义上的全面性,而不是技术上的详尽性。 摘 要必须涵盖受版权保护的内容和不受版权保护的内容,在起草时必须适当考虑商业秘密的保护。 第 107 条还提供了此类摘要的内容示例,例如,列出用于训练模型的主要数据集(如大型私人或公 共数据库或数据档案),并提供关于所使用的其他数据源的叙述性解释。 又如,美国加利福尼亚州 于 2024 年 9 月颁布了《生成式人工智能训练数据透明度法案》 (Generative Artificial Intelligence: Training Data Transparency),要求生成式人工智能系统或服务的开发人员应当在其网站上发布用于 训练生成式人工智能系统或服务的数据之文档(Documentation),其首要内容便是用于开发生成式 人工智能系统或服务的数据集的高级摘要(High-level Summary)。
至于训练数据透明度义务的内容,制度目标并非是让模型开发者逐项列出他们在训练数据集 中包含的所有受著作权保护的材料,原因在于原创性门槛低、著作权及其所有者的地域分散、作品 缺乏注册要求以及元数据的权属不明等导致“完全披露”难以实现。⑤ 对此,美国加利福尼亚州《生 成式人工智能训练数据透明度法案》规定,要求公布的“高级摘要”应当包括如下信息:(1)数据集 的来源或所有者;(2)数据集如何进一步实现人工智能系统或服务的预期目的之描述;(3)数据集中包含的数据点的数量;(4)数据集中数据点类型的描述;(5)数据集是否包含任何受版权、商标或专 利保护的数据,或者数据集是否完全属于公共领域;(6)数据集是否由开发人员购买或许可;(7)人 工智能系统或服务在其开发过程中是否使用或持续使用合成数据;等等。 祖扎娜·瓦尔索(Zuzanna Warso)等专门针对欧盟《人工智能法》第 53 条所规定的“摘要”之内容提出了“模板蓝图”,并将训 练数据的总体规模、数据集和数据源的详细情况(包括对来源进行细分)、数据多样性以及数据处理 确定为需要考虑的关键类别。① 计算机与通信行业协会 ( Computer & Communications Industry Association)也于 2025 年 1 月推出了“原则和模板—AI 模型训练数据的透明度”,旨在帮助模型开发 者以保障人工智能模型安全性和保护商业秘密的方式履行训练数据透明度义务。②
我国《生成式人工智能服务管理暂行办法》第 7 条对人工智能大模型训练的“知识产权合规”提 出了原则性要求。 为了给人工智能大模型开发者提供具体指引,全国信息安全标准化技术委员会 于 2024 年 2 月发布了技术标准《生成式人工智能服务安全基本要求》(TC260-003),其中第 5 章专 门规定了“语料安全要求”,针对“知识产权”方面的安全要求包括:(1)应设置语料及生成内容的知 识产权负责人;(2)语料用于训练前,应对语料中的主要知识产权侵权风险进行识别;(3)应建立知 识产权问题的投诉举报渠道;(4)应在用户协议中向使用者告知相关知识产权风险;(5)应及时更新 知识产权相关策略;(6)宜公开语料中涉及知识产权部分的摘要信息。 上述规定虽然进一步细化了 人工智能大模型开发者的知识产权合规义务,但是仍然存在三个方面的不足:一是该技术标准并非 强制性国家标准,其效力层级较低,难以确保其得到有效落实;二是该技术标准对“公开语料中涉及 知识产权部分的摘要信息”用的措辞是“宜”,而对其他知识产权安全要求用的是“应”,这表明“训 练数据透明度义务”尚未受到足够重视;三是该技术标准仅提及“摘要信息”,但并未明确其具体内 容,可操作性不强。
有鉴于此,结合国内外已有的实践经验,本文认为,我国未来有必要通过效力层级更高的法律 规范明确人工智能大模型开发者的训练数据透明度义务,要求大模型开发者公布包含特定内容的 “摘要信息”。 至于“摘要信息”的内容至少应当包含以下信息:(1)数据来源及授权情况。 大模型 开发者应详细列出用于训练模型的各类数据来源,包括开源训练数据、自采训练数据、商业训练数 据以及用户输入信息等。 (2)数据集构成和使用范围。 大模型开发者应提供所使用的数据集的详 细构成,包括数据种类(如文本、图片、音频、视频等)及其使用范围。 (3)数据处理及修改情况。 大 模型开发者需披露是否对原始数据进行任何修改或预处理,如数据清洗、去标识化、匿名化等,若使 用合成数据,还应明确说明使用了何种技术手段以及如何确保这些操作不侵犯原数据的著作权。③
(三)探索著作权人合理补偿制度
除了需要强化人工智能大模型开发者的自我技术治理和训练数据透明度义务外,还有必要探 索建立有效的补偿机制来保障著作权人的合法权益,④这也是为人工智能大模型制定人权友好型(Human Rights-friendly)著作权框架的重要内容。①
事实上,自人工智能和机器人开始广泛应用于人类社会的各个领域以来,围绕智能机器人的 “税费问题”就备受关注。② 瑞士学者泽维尔·奥伯森(Xavier Oberson)便认为,为了实施对机器人 的税收,须满足不同的条件:一是要为该税种找一个适当的经济理由,即符合公平、中立等税收原 则;二是该税种在宪法和法律层面具有合理性,即符合支付能力、公平待遇、税收法定等原则。③ 就 人工智能大模型训练中的著作权人补偿制度而言,也具有经济和法律上的正当性。 一方面,补偿机 制有助于解决负外部性问题。 根据经济学中的外部性理论,当一个经济主体的行为对其他主体产 生了未通过市场交易补偿的影响时,就形成了外部性。 在人工智能大模型训练过程中,未经授权使 用的作品对创作者产生了负外部性(即未经支付报酬或获得同意的使用),在某种程度上可以称为 是一种隐形的“劳动力剥削”,④因此需要通过补偿机制内化这些外部性,使大模型开发者在使用作 品时,能够对权利人进行合理补偿,一定程度上也有助于人工智能产业的可持续性发展。⑤ 另一方 面,补偿机制符合支付能力原则。 在“数据即权力”的背景下,数据本身拥有可观的经济价值,高质 量的训练数据集更是会给开发者带来巨大经济效益。 因此,建立补偿机制可以通过合法授权或盈 利分成的方式,确保创作者能够根据其提供数据的市场价值和贡献度获得相应的经济回报。⑥
对于补偿机制的实施路径,可以有两种选择:一种是在人工智能大模型训练阶段采取强制性报 酬;另一种是在人工智能大模型输出阶段实施强制性征税。⑦ 无论采取何种路径,如何设置适当的 补偿标准是一个难题。 对此,有学者认为,鉴于人工智能供应链的复杂性,尤其是生成式人工智能, 可以采用多元化的补偿触发机制,可以根据特定数据集的使用、模型训练、提供给用户的回复数、付 费订阅数等确定补偿标准,或者根据人工智能提供商的支出或收入的某个百分比来确定补偿水 平。⑧ 结合已有的理论与实践经验,可以从以下两个方面建构合理的补偿机制:一是探索采用动态 补偿模型。 对于人工智能大模型的训练,可以建立一种基于“数据贡献”的补偿机制,补偿金额可以 基于数据使用的深度(如频率、广度等)、生成内容的商业化程度等因素进行计算,并可以根据人工 智能大模型训练的实际需求和成果来调整补偿水平。⑨ 二是优化著作权集体管理机制。 通过借鉴现有的著作权交易平台经验,可将创作者的作品数据集中管理,并借助区块链等分布式账本技术构 建透明、高效的著作权授权与补偿机制。① 在这一机制下,人工智能大模型开发者在使用训练数据 时能够通过平台实现便捷授权,并按合理标准支付版权费用,从而保障创作者的合法权益。
六、结语
人工智能大模型训练的著作权法规制难题折射出技术创新与制度供给之间的深层张力。 本文探 讨了人工智能大模型训练面临的著作权困境,并分析了当前著作权法体系存在的回应性不足,同时对 以非作品性使用、文本与数据挖掘例外为代表的著作权法规制改革方案之局限性展开了分析。 在此基 础上,本文认为,合理使用制度作为一种更为灵活、渐进的“开放式”权益平衡方案,有望为破解人工智 能大模型训练的著作权困境提供可能的理论支撑和实践路径。 不过,由于合理使用制度的评估具有高 度个案化特征,因此需要更加审慎地设计和构建一个多层次、多维度的评估框架。 与此同时,为了更好 地化解人工智能大模型训练的著作权困境,未来更为可行的适应性治理方案应当将法律制度与技术治 理手段相结合,并辅之以训练数据透明度义务与合理补偿机制的制度建设。 随着人工智能大模型的快 速迭代与广泛应用,相关法律制度设计既要保持必要的稳定性,又要为技术发展的不确定性预留动态 调适空间,这无疑需要法学界展开更具前瞻性和系统性的理论探索。