当前位置: 首页 > 法治实践
2024 12/26 11:20:55

生成式人工智能大模型数据侵权问题及治理机制

字体:

摘要:本研究聚焦生成式人工智能大模型数据侵权问题及治理机制。随着其快速发展,数据侵权日益凸显,主要表现为对人格权和著作权的侵害。侵权责任认定面临技术风险和国际竞争等困境。通过对国内首例“AI文生图”著作权侵权案等案例分析,从司法和立法层面探讨治理机制。司法判决具重要价值,可促进利益平衡和共识形成,探索新知识产权规则。立法层面,现有立法存在不足,未来应明确数据使用合规标准、加强输出内容版权保护、注重国际合作与协调、平衡创新与知识产权保护。生成式人工智能大模型数据侵权问题复杂,需综合运用司法和立法手段完善治理机制,以实现技术创新与知识产权保护良性互动。

关键词:生成式人工智能大模型;数据侵权;治理机制

随着科技的飞速发展,生成式人工智能大模型以其强大的生成能力和广泛的应用前景,成为了当今科技领域的焦点。然而,其发展也带来了一系列的数据侵权问题。生成式人工智能大模型需要大量的数据进行训练,这些数据可能来自各种渠道,包括但不限于互联网、数据库等。在数据的获取和使用过程中,可能会涉及到侵犯著作权、人格权等问题。据统计,截止 2024 年 4 月,美国大模型领域实际在诉案件共有 19 起,其中 14 起为版权侵权案件。在国内,相关案件争议也实际已经出现。例如,2023 年 11 月国内某内容平台便因未经授权利用他人美术作品,训练旗下文生图产品,被四位绘画创作者起诉至北京互联网法院,该案件仍在审理阶段。这些案例表明,生成式人工智能大模型的数据侵权问题已经成为了一个不可忽视的现实问题。如何在促进生成式人工智能大模型发展的同时,有效地解决数据侵权问题,是当前亟待深入研究与应对的重要课题。

随着生成式人工智能大模型的广泛应用,其数据侵权问题不仅影响到著作权人的合法权益,也对整个社会的创新环境和文化产业的发展带来了挑战。一方面,未经授权使用他人作品进行模型训练可能侵犯著作权;另一方面,生成的内容可能侵害人格权、商标权等。例如,生成式人工智能可能引发大规模隐私或个人信息泄露,侵害名誉权、肖像权、死者人格利益等。这些侵权行为不仅损害了个体的合法权益,也可能破坏市场秩序,影响社会稳定。本研究旨在探讨生成式人工智能大模型数据侵权问题的本质、表现形式以及相应的治理机制,为相关领域的发展提供理论支持与实践指导。

二、生成式人工智能大模型数据侵权的理论分析

生成式人工智能大模型的数据侵权主要涉及人格权和著作权等方面,其侵权形式复杂多样,给法律保护带来了巨大挑战。

(一)人格权侵害表现

1.隐私和个人信息。大型生成式人工智能模型在训练过程中,可能会违规收集大量个人信息,或者使用没有合法来源的信息。据研究发现,不法行为人有可能通过攻击大规模语言模型,提取出训练数据中的核心隐私和敏感个人信息,形成“大规模微型侵害”现象。例如,即使训练数据中没有某个人的个人信息,像 ChatGPT 这样的语言模型也有可能被用来推测他人的特征,如个人的性别、种族、性取向、年龄等,从而侵害隐私和个人信息。

2.名誉权。生成式人工智能模型主要依赖消化人类文本输入生成输出产品,一旦这些输出的信息是虚假的,就有可能导致对他人名誉权的侵害。例如,ChatGPT 的“臆造”现象,可能会导致在回答问题时,编造有关他人涉嫌性骚扰、某人与他人非法同居等消息,造成对他人名誉的损害。还可能自动生成虚假图片、音频、视频,不仅可以“以假乱真”,还能够“无中生有”,导致对他人名誉、隐私等人格权益的侵害。

3.肖像权:生成式人工智能可以自动生成图片、视频,随着其发展,比深度伪造更加难以辨别。利用生成式人工智能自动生成的图像,可能会侵害个人的肖像权,甚至可能透过图片、视频扭曲个人的形象,特别是当生成的图片涉嫌性骚扰、猥亵、非法同居等虚假信息后,将会造成对他人的名誉权、隐私权等权益的严重侵害。

(二)著作权侵害形式

生成式人工智能大模型对著作权的侵害主要表现为对已有作品的复制、改编和再利用。例如,有人利用生成式人工智能生成受著作权保护的书籍的缩略版,用以帮助他人快速阅读书籍,此种行为可能构成对原书的市场替代,很难构成合理使用,从而被认定为侵害著作权的行为。此外,生成式人工智能也可能侵害商标权。如果未经授权许可,在生成式图片中使用他人的商标,并将其作为某种广告宣传或者产品装潢,引发消费者的混淆,就可能构成对商标权的侵害。

(三)侵权责任认定困境

1.技术风险挑战。生成式人工智能大模型面临着诸多技术风险,这些风险给侵权责任认定带来了巨大挑战。一是数据不可靠是一个重要问题。大模型的训练依赖大量数据,但这些数据的来源和质量难以保证。可能存在数据不准确、不完整或者被篡改的情况,这使得难以确定生成内容的准确性和合法性。例如,一些训练数据可能未经授权获取,或者包含侵犯他人知识产权的内容,这就增加了侵权责任认定的难度。二是算法不可靠也给侵权责任认定带来了困扰。生成式人工智能大模型的算法复杂,其生成的内容往往难以预测。即使是相同的输入,不同时间可能会产生不同的输出,这使得很难确定生成内容是否侵权。而且,算法的黑箱性使得人们难以理解其决策过程,进一步增加了侵权责任认定的难度。三是自主意识不可控也是一个难题。虽然目前生成式人工智能大模型还没有真正的自主意识,但随着技术的发展,这种可能性不能排除。如果大模型具有了自主意识,那么其行为的责任归属将变得更加复杂。例如,如果大模型自主地生成了侵权内容,那么责任应该由谁来承担?是开发者、使用者还是大模型本身?

2.国际竞争考量。不同国家在模型训练版权规则上的差异对产业竞争产生了重大影响。一方面,一些国家对模型训练的版权要求较为严格,规定必须事前完全获得每一个语料作品的授权。例如,欧洲议会批准的《人工智能法案》强调需要确保通用 AI 模型服务商之间的公平竞争环境,规定任何在欧盟市场上提供通用 AI 模型的服务商都应遵守欧盟版权法关于“文本与数据挖掘”情形设置的相关义务。另一方面,一些国家则对模型训练给予了一定的责任豁免。这种差异使得分属不同国家的大模型厂商的发展环境截然不同,可能导致不公平竞争。

在国际竞争的背景下,如何平衡版权保护和产业发展成为了一个关键问题。如果过于严格地保护版权,可能会限制大模型厂商的发展,影响技术创新;如果过于宽松地对待版权问题,又可能会损害版权人的合法权益,破坏市场秩序。因此,需要各国在国际层面上加强合作,共同制定合理的版权规则,以促进生成式人工智能大模型产业的健康发展。

三、生成式人工智能大模型数据侵权案例分析

(一)国内案例

1.案件经过与争议焦点。国内首例“AI文生图”著作权侵权案中,2023 年 2 月,李先生使用开源软件 Stable Diffusion 通过输入提示词的方式生成涉案图片“春风送来了温柔”,并发布在社交平台。3 月,刘女士在百家号发布文章,配图使用了李先生的涉案图片且截去了署名水印。

案件的主要争议点在于作品独创性的认定。一方面,从图片生成过程来看,虽然李先生没有动笔去画具体线条,但他通过提示词对人物及其呈现方式等画面元素进行了设计,通过参数对画面布局构图进行了设置,体现了选择和安排。同时,在获得第一张图片后,他继续增加提示词、修改参数,不断调整修正,最终获得涉案图片,这一过程体现了审美选择和个性判断。另一方面,被告刘女士辩称她是通过网络检索到涉案图片,不确定原告是否享有原图相关权利,且她发布的主要为原创诗文,非涉案图片,无商业用途,不具有侵权故意。

2.判决结果及影响。一审法院认定被告侵害了原告就涉案图片享有的署名权和信息网络传播权,应当在社交平台发布声明赔礼道歉,并在判决生效之日七日内赔偿原告经济损失 500 元。该判决对行业具有重要的指导意义。首先,明确了人利用人工智能生成的内容若符合作品的定义,则应被认定为作品,受到著作权法保护。同时,强调了人工智能生成内容若体现出使用者的独创性智力投入,则相关著作权一般应归属于人工智能使用者。这为后续类似案件的审理提供了参考标准,有助于规范生成式人工智能在创作领域的应用,明确各方的权利和责任。在后续影响方面,可能促使更多的创作者关注自己使用人工智能生成作品的版权问题,也可能促使相关企业和平台加强对人工智能生成内容的版权管理,以避免侵权风险。

(二)国外案例

1.诉讼缘由与各方主张。OpenAI 和微软被诉侵权的主要原因是未经授权使用作家的作品来训练包括 ChatGPT 在内的人工智能产品。例如,现年 84 岁的资深记者尼古拉斯·盖奇和 81 岁的尼古拉斯·巴斯班斯将 OpenAI 告上法庭,他们认为自己受到版权保护的作品“已经被 OpenAI 及其商业合作伙伴微软系统性地盗用”。

各方主张如下:

作家方:作家们认为,OpenAI 和微软既没有获得许可,也没有给予赔偿,“窃取”他们的作品用于建立价值数十亿美元的商业,这是令人无法容忍的。他们要求微软和 OpenAI 赔偿损失,为每部侵权作品赔偿高达 15 万美元的损失。

科技公司方:微软 AI 部门的负责人穆斯塔法·苏莱曼认为,使用开放互联网上的内容进行 AI 训练,符合美国版权法的“合理使用”原则。从 20世纪90 年代以来,这些内容的社会契约就是免费使用,任何人都可以复制、再创作、再生产这些内容。对于一些新闻机构和组织明确表示不希望科技公司“抓取”其网站内容的情况,苏莱曼表示这是一个“灰色地带”,最终将通过法院解决。

四、生成式人工智能大模型数据侵权治理机制分析

(一)司法层面

1.个案判决的价值。司法判决在生成式人工智能大模型数据侵权治理中具有至关重要的价值。生成式人工智能的大发展带来了 AI 大模型的训练数据来源的侵权争议,而司法判决可以通过个案不断积累共识,设定合理价格,解决冲突。例如,在国内首例“AI 文生图”著作权侵权案中,一审法院的判决明确了人利用人工智能生成的内容若符合作品的定义,则应被认定为作品,受到著作权法保护,同时强调了人工智能生成内容若体现出使用者的独创性智力投入,则相关著作权一般应归属于人工智能使用者。这一判决为后续类似案件的审理提供了参考标准,有助于规范生成式人工智能在创作领域的应用,明确各方的权利和责任。

司法判决还可以促进利益平衡和共识形成。在生成式人工智能大模型的数据侵权争议中,涉及到艺术家、原创作者、平台方和用户等多个主体的利益。通过司法判决,可以在这些主体之间进行利益平衡,确定合理的责任分配机制。例如,中国政法大学数据法治研究院教授张凌寒希望通过司法判决的个案,推动艺术家、原创作者、平台方和用户之间形成共同收益分成的机制。北京大学法学院副教授胡凌也认为,法院通过裁判可以促进利益平衡和共识形成。

2.知识产权规则探索。通过司法实践探索新的知识产权规则是解决生成式人工智能大模型数据侵权问题的重要途径。生成式人工智能大模型的数据侵权问题给传统的知识产权规则带来了挑战,著作权法上的“合理使用”制度,并不能直接过渡到生成式人工智能领域的“合理训练”。因此,需要重新设立知识产权规则,而如何设立新的知识产权规则,取决于究竟想要一个怎样的利益分配机制。

在司法实践中,可以借鉴美国版权法中的合理使用“四要素分析法”,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。同时,也可以探索和发展人工智能自身的“避风港”规则,以及“通知 - 删除”规则,合理分配不同主体的注意义务,分割人工智能服务提供者与用户之间的责任承担。例如,在大模型训练阶段,对于作品的利用行为是否受到版权法规制存在很大争议。作品获取阶段,法律层面判断的核心在于模型训练厂商在搜集获取语料内容的过程中是否存在版权法上破坏“技术保护措施”和删除“权利管理信息”等违法行为;作品存储阶段,主要涉及是否存在侵害他人作品“复制权”的行为;作品学习阶段,是否受到版权法规制更是存在很大争议。通过司法实践,可以逐步明确这些行为的法律性质,为新的知识产权规则的设立提供参考。

(二)立法层面

1.现有立法的不足。当前立法在应对生成式人工智能大模型数据侵权问题上存在明显的局限性。一是我国现行《著作权法》第四节“权利的限制”项下第 24 条关于“合理使用”的规定以及第 25 条关于“法定许可”的规定都无法精确涵盖大模型训练这一复杂问题。大模型训练涉及千亿级、万亿级的参数语料训练,其数据来源广泛,使用方式多样,现有的立法难以对其进行明确规范。二是对于生成式人工智能大模型数据侵权的认定标准不够清晰。在大模型输出内容是否构成侵权的判断上,缺乏具体的量化指标和明确的法律依据。例如,对于大模型输出内容与原作的相似程度达到何种程度才构成侵权,目前尚无定论。这使得在实际的司法实践中,法官难以准确判断侵权行为的成立与否。三是现有立法在国际竞争层面的考虑不足。不同国家在模型训练版权规则上存在差异,这可能导致不公平竞争。我国的立法需要在国际层面上加强与其他国家的合作与协调,以确保我国的生成式人工智能产业在国际竞争中处于有利地位。

2.未来立法方向。一是明确大模型训练中数据使用的合规标准。立法应规定大模型训练厂商在获取、存储和学习数据过程中的合法行为边界,明确哪些行为属于侵权,哪些行为可以被认定为合理使用。二是加强对生成式人工智能大模型输出内容的版权保护。立法应明确大模型输出内容的版权归属,以及在何种情况下可以被认定为作品受到著作权法保护。同时,应建立大模型输出内容的侵权认定标准,例如明确相似程度的量化指标、确定侵权行为的赔偿责任等。三是未来立法应注重国际合作与协调。在全球范围内,生成式人工智能大模型的发展迅速,数据侵权问题已经成为一个国际性的难题。我国应积极参与国际规则制定,加强与其他国家的合作与交流,共同应对生成式人工智能大模型数据侵权问题。例如,可以借鉴欧洲议会批准的《人工智能法案》,制定符合我国国情的版权规则,确保我国的生成式人工智能产业在国际竞争中遵守公平的规则,促进产业的健康发展。四是立法应鼓励创新与保护知识产权的平衡。生成式人工智能大模型是一项具有巨大创新潜力的技术,立法应在保护知识产权的同时,为技术创新提供一定的空间。可以通过设立合理的知识产权规则,鼓励艺术家、原创作者、平台方和用户之间形成共同收益分成的机制,促进各方共同合作,推动生成式人工智能产业的可持续发展。

五、结论

本研究深入探讨了生成式人工智能大模型数据侵权问题及治理机制。生成式人工智能大模型在快速发展的同时,数据侵权问题日益凸显,主要表现为对人格权和著作权的侵害。生成式人工智能大模型数据侵权问题复杂多样,需要综合运用司法和立法手段,不断探索和完善治理机制,以促进生成式人工智能大模型产业的健康发展,保护各方权益,实现技术创新与知识产权保护的良性互动。随着生成式人工智能大模型技术的不断发展,未来在该领域的研究方向也将更加丰富和多元。未来在生成式人工智能大模型数据侵权问题及治理机制领域的研究将面临更多的挑战和机遇。通过不断探索和创新,我们可以为生成式人工智能大模型产业的健康发展提供更加有力的支持,实现技术创新与知识产权保护的良性互动。(雷舒航 李雷)

参考文献:

[1]毕文轩.生成式人工智能的风险规制困境及其化解:以 ChatGPT 的规制为视角[J].比较法研究,2023(3).

[2]北京互联网法院.北京互联网法院审理画师起诉AI绘画软件开发运营者的著作权侵权案件[EB/OL].(2024-06-20) [2024-09-01].https://mp.weixin.qq.com.

[3]郭德忠,张云蔚.生成式人工智能训练数据侵权风险与法律应对[J].湘潭大学学报,2024(5).

[4]刘金瑞.生成式人工智能大模型的新型风险与规制框架[J].行政法学研究,2024(2).

[5]唐林垚.具身伦理下 ChatGPT 的法律规制及中国路径[J].东方法学,2023(3).

[6]汪庆华,胡临天.生成式人工智能责任机制的技术与法律建构[J].中国法律评论,2024(4).

[7]郑飞,夏晨斌.生成式人工智能的著作权困境与制度应对——以Chat GPT和文心一言为例[J].科技与法律(中英文),2023(5).

[8]支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023(4).

[9]周学峰.生成式人工智能侵权责任探析[J].比较法研究,2023(4).

[10]Mehtab Khan,Alex Hanna,The Subjects and Stages of AI Dateset Development:A Framework for Dataset Account ability[J].Ohio StateTechnology Law Journal,2023.

[11]See Jan Kocoń, Igor Cichecki, liwier Kaszyca et al., ChatGPT: Jack of All Trades,Master of None, arXiv.org (9 Jun.2023),https://doi.org/10.48550/arXiv.

2302.10724.


作者简介:雷舒航:2004年7月出生,华北电力大学2023级本科生,研究方向:法学理论

李雷:1983 年 6 月出生,中国社科院法学博士在读,华北电力大学法政系副教授,研究方向:诉讼法学、行政法学。

【责任编辑 -王雪】
返回顶部