关于“日本是AI模型训练天堂”的几点澄清

正文

资源拓展

2024-12-07 10:38

关于“日本是AI模型训练天堂”的几点澄清

近两年来，AI技术取得了重大发展。与此同时，对于使用版权内容进行AI模型训练争议不断，各国也都在积极探索适合自身的规制框架。有人认为，日本在其《著作权法》中为AI模型训练使用版权内容的行为提供了“合理使用”豁免，日本也因此被奉为AI模型开发的天堂。事实上，这当中不乏误解，笔者认为有如下几点需要澄清：

01 日本2018年著作权法修订是否有意关照AI模型训练值得商榷

日本《著作权法》在2018年修订时，确实引入了第30-4条非享受性使用的条款，且新法已在2019年1月1日生效。但当时，AI技术和应用尚未繁荣，有关第30-4条的内容也鲜有报道和关注，可见新增条款是否针对AI模型训练值得进一步商榷。进入2023年，随着生成式AI产业取得快速发展，利用版权内容进行AI模型训练是否会构成侵权引发热议。在对日本《著作权法》第30-4条没有特别了解的情况下，不少媒体仅截取了该条款中的部分内容，便宣扬日本完全放开了用版权内容进行AI模型训练，这是不准确且带有误导性的。同时应当看到，第30-4条强调了三个限制条件，只有在满足该些条件的情况下，才能援引合理使用。限制条件具体包括：

1. 使用目的：使用作品的目的不是为了个人享受或使他人享受作品中所表达的思想或情感。这意味着AI训练应聚焦于技术层面，而非复制或分享作品的创造性内容。

2. 使用程度：作品的使用应限制在实现特定目的所必需的最小范围内，即AI训练中使用作品的程度不得超过实现目标所需的限度。

3. 不产生不当损害：合理使用还要求不损害著作权人的合法权益，确保AI训练不会对作品的市场或潜在市场造成不利影响。如果AI训练的使用方式可能削弱作品的市场价值或损害著作权人的经济利益，则超出了合理使用的范围。

02 所谓日本官方表态易被断章取义

外界认为日本是AI模型训练天堂的另一个重要依据是2023年4月时任日本文部科学大臣永冈桂子在接受众议院质询时的表态。当时永冈桂子表示“是否出于商业目的进行使用、使用行为是否包含复制以外的其他行为、使用的版权作品是否来自非法网站等均不会影响AI训练构成第30-4条下的‘信息分析’” 。这一点易被用来宣称日本放任AI模型训练使用版权内容，但同时永冈桂子谈话中的其他内容却容易被忽视。在谈话中永冈桂子同时强调，“只有在被认为是必要的范围内，且不会不当地损害著作权人利益的情况下，信息分析行为才能构成合理使用”。

03 日本尚无相关司法案例

我们还应进一步斟酌文部科学大臣对法律条款的解读，是否能够代表主流官方立场？进一步讲，文部科学大臣解读法律条款是否具有法律效力？这些都是不容忽视的问题。据笔者查询，截至目前尚未发现日本有支撑“AI模型训练可以任意使用版权数据”这一观点的司法案例。同时，也没有看到日本由于在2018年著作权法中引入30-4条款，从而实现AI技术或产业的跨越式发展，或者抢得了AI发展的先机。相反，公众却看到了日本大量创意产业人士对AI模型训练滥用其作品的严正抗议。比如2024年10月，由26位知名声优自发组织的“NO MORE擅自生成AI”运动。这些声优们说“我们从未授权的朗读、歌曲，甚至是声音本身被公开在网络上，有些还被用于销售。对于声优来说，声音不仅是我们的谋生工具，更是我们人生的写照，是我们共同成长过程中非常珍视的一部分。”

04 日本一系列指导性文件有不同解释

尽管日本2018年《著作权法》第30-4条对AI利用作品进行训练数据是否构成合理使用提供了争议空间。然而，该条规定并未具体说明生成式AI的数据训练行为在何种情况下可能会对著作权人的利益产生不当损害，也没有对“以享受为目的”的情形作出具体规定。对此，日本政府自2023年6月起发布一系列指导性文件，旨在明晰生成式AI训练合理使用与著作权侵权的边界。这些非强制性文件虽不具有直接的法律约束力，但却为AI领域的参与者提供了宝贵的参考，帮助他们在尊重和保护著作权的基础上，合法合规地开发和应用AI技术。

日本政府首先在2023年月份发布的《知识产权促进计划2023》中表达了对AI领域侵权版权问题的担忧，并计划研究并制定措施以解决这一问题。其后，日本政府又在2024年7月发布了《人工智能著作权核查清单和指引》（以下简称《指引》），对前述研究计划指出了更为具体的举措，并提供了一系列的核查点，以帮助AI开发者和使用者自我评估其AI项目是否可能侵犯著作权。这些核查点包括确认AI训练数据的来源是否合法、评估AI训练的目的是否符合著作权法规定的合理使用范围、检查AI训练中使用的数据量是否超出了实现目的所必需的范围，以及评估AI训练和应用是否会不合理地损害著作权人的利益等。

《指引》还确认了一些可能构成著作权侵权的AI训练行为，这些行为超出了合理使用的范围。具体包括：

1. 以下AI训练数据的情形不属于《著作权法》第30-4条“不以为了自己或他人享受版权作品所表达的思想或情感”的情形，不构成合理使用：

为输出被训练内容中包含现有作品的创造性表达而进行有意且过度的训练；

在实现搜索增强生成（RAG）功能时，创造一个包含现有作品的数据库供AI进行训练；

仅使用特定作者的少量著作权作品作为被训练内容，并进行有意且过度的训练。

2. 《著作权法》第30-4条下“不当损害著作权人利益”情形应包括：

明知被训练内容侵犯他人著作权，仍使用该等内容进行训练；

从已采取的技术保护措施和过往销售记录，可以推断被训练内容为有偿提供，仍绕过上述保护措施对该等内容进行AI数据训练；

该AI大模型经过AI训练后，很有可能输出与作为被训练内容的作品构成实质性相似的内容，仍以上述内容对其进行AI数据训练的。

05 日本政界对AI及版权议题的不同表态

日本政界人士在这一议题上表现出各不相同态度。日本前首相岸田文雄在七国集团峰会和其他国际会议上呼吁共同应对AI的“阴暗面”，并制定国际指导方针来对这种新兴技术的使用进行管理，以减少虚假信息带来的风险。日本前总务大臣Takeaki Matsumoto也表态，“尽管法规被认为会阻碍创新，但生成式人工智能对社会影响巨大。与此同时为了创造一个让用户对使用生成式人工智能感到安全的环境，有必要制定明确且透明的规则¹。” 漫画家出身的日本国会议员赤松健认为，政府应当制定指导方针、保证训练数据的透明性²。

另外，政界人士也建议了一些未来可能的监管方向。一种观点认为应当要求特定类型的AI开发者获得授权，允许创作者取得报酬。例如，赤松健认为人工智能开发者应当就使用的版权材料支付许可费，并提出了不同的分配方式，对于一般的人工智能，可以创建一个基金会，使用一定比例人工智能开发者的收入来支持漫画、动画等创意产业的发展；而对于模仿特定创作者画风的模型，创作者进行许可、从中获益甚至展开盗版维权³。相似的观点得到了日本立宪民主党的支持，在回复日本演员行业协会的问询时，日本立宪民主党认可了文化厅在2月关于人工智能学习的草案中“以人工智能有意输出创意表达为目的进行学习时需要获得许可”的想法，也是采取了类似的“部分限制”的思路。另外一种观点是允许著作权人通过事先声明选择退出。日本公明党就提到可以参考欧盟在数据挖掘中允许权利人选择退出⁴。该主张也得到了一些法律工作者的认可⁵。

综上所述，日本在对AI数据训练的法律规制中，展现出了对技术发展和版权保护的复杂态度，这也是在AI快速发展背景下全球面临的平衡挑战的一个缩影。日本各方在最近几年内，就人工智能版权问题也已展开了多次讨论。期待日本未来的立法和政策调整在继续关注如何在促进AI技术发展的同时，也能有效保护著作权方的合法权益。通过明确合理使用的界限和加强对著作权作品的保护，日本可以在AI数据训练领域建立一个既支持创新又尊重著作权方权益的法律环境。

参考文献：

1.https://mp.weixin.qq.com/s/slHtzHvoqOyMNaOc1vot7g

2.https://w.atwiki.jp/genai_problem/pages/22.html

3.https://w.atwiki.jp/genai_problem/pages/22.html

4.https://www.nippairen.com/jaunews/post-29985.html#NHK

5.https://storialaw.jp/blog/9373

文章来自于“IPCC 在华国际出版商联盟”，作者“IPCC特邀通讯员”。

关于“日本是AI模型训练天堂”的几点澄清

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用：https://aicomicfactory.app/

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

IOS下载

安卓下载

微信群