国内大模型侵权第一案,6 年成果,被爬取 200+ 万次,仅索赔 1 元?

0302179f29952b50d9c94a0dd6fb3da0.gif

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。

彼时许多人感慨,“理科生”版的 ChatGPT 终于要来了。

不曾想,MathGPT 还未真正面世,有关它的“丑闻”就先一步爆发了:本周二,笔神作文 App 指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达 258 万次,以此开发 MathGPT 的新产品“作文 AI 助手”。

a6272d8e0a51490f24ac05a55ad31b21.jpeg

6a05f98788baf4cf1dbab1148081cbed.png

6 年成果,一个周末被爬取超 200 万次

此次事件的主角之一,笔神作文,是一个成立于 2017 年 12 月的 K12(从幼儿园到 12 年级的教育)作文教育平台,隶属于北京一笔两划科技有限公司。

当时的 AI 市场远不如现在火爆,笔神作文却凭借其“用人工智能技术,帮助写作者提升写作能力”的特色,在 2018 年 1 月获得了真格基金数百万元种子轮融资,后来又在 2019 年 7 月完成了数百万天使轮融资。

根据官方资料显示,笔神作文上线六年,每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论,积累了数百万篇作文素材,月批改作文量超 3 万篇。

而伴随着去年年底 ChatGPT 的横空出世,笔神作文的投资方之一世纪天鸿曾表示,“笔神”与 ChatGPT 技术同源,都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队有超过 60% 为技术研发人员,在成立公司之前该团队就曾创立过 NLP 类公司,部分骨干在自然语言理解领域合作并深耕多年。”

因此整体而言,笔神作文的算法模型为一笔两划公司自研训练,其平台的大数据来自于自身累积。

因其在写作方面的技术积累和显著成果,三年前笔神作文与学而思达成了合作:与学而思旗下的学习工具 App “题拍拍”签约,主要负责提供作文素材查询服务。

而作为合作伙伴,本周笔神作文表示:在 4 月 13 日发生了一件我们都没有预想的事情,我们团队从创业以来的 6 年成果,被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次!

29cc5c9791b72061e7d9092df0597b6c.png

诉求:1 元赔偿金,公开道歉并删除数据

从笔神作文官方微博的声明来看,本身它没有完备的数据安全机制,而对于“合作伙伴”学而思,更是没有设置全部的提防,从而导致三体云联公司(学而思子公司)利用这份信任,即:在未经笔神作文 APP 授权许可的情况下,在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。

对此,笔神作文主张该行为违反了双方的合同条款,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文 APP 的数据权益。

事后,笔神作文向学而思进行了求证,对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,却没有得到对方的实质性回复,而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。

“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出,目前的法律法规并没有【AI 大模型数据盗取】的判决先例,因此只能“勇敢地走出这第一步”。

至于笔神作文的诉求,实际上也并非是索要大额赔偿金:只想要学而思支付 1 元赔偿金,公开道歉并删除已爬取的数据。

对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”

dbea536ce1d2110f1168ec64c7dfd1d3.png

确实正如笔神作文所说,其体量并不大,因此这封声明也并未引起太多关注,不过仅有的几条评论中都在谴责学而思的行为。

b8c1f5265c99ef1264e6f7edd7df3588.png

学而思回应:均符合合同要求

经多家媒体报道后,这起事件逐渐发酵,于是学而思官方微博也对此发文回应:

首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文 AI 助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。

a9c5c52ed50fa21cf38e996c0e1f4fc6.png

而笔神作文声称被爬取二百多万次的数据,学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。

在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是:“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”

453fa972b6388eb879f1771e41bb62aa.png

AI 训练数据的版权问题

从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热的 AI 大模型角逐下,一个容易被忽略却又十分重要的盲点:AI 训练数据的版权问题。

事实上,最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。

近年来 Reddit 上发布的聊天内容,已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材,以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆,Reddit 创始人兼 CEO 表示:“Reddit 的数据语料库非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”

继 Reddit 带头表态要求科技巨头付费使用数据后,知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起,向大型 AI 开发商收取数据访问费用,其 CEO 也指出:“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿。”

除了 Reddit 和 Stack Overflow 这类大型网站,甚至在开发者圈子中,部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub:

1df46f2e8f4490202aa7394de9c63bd0.png

fd5a4ac6e1ef789006f1fb2fa3550e9b.png

毫无疑问,AI 大模型在变得更智能的过程中,海量的训练数据必不可少,但从目前来看,当今 AI 领域的“当红炸子鸡”OpenAI,对于训练数据的版权问题都没有很好的解决方案。

然而,伴随着 AI 热潮进一步推进,这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说:“可能在研发初期,大家对数据来源并不在意,但当你产生了巨大的经济效益时,现实传统的经济模式、法律体系都将约束着你的行为。”

那么对于这个问题,你又是否有什么看法?

参考链接:

https://weibo.com/combmobile

https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4

https://www.36kr.com/p/1723938652161

推荐阅读:

▶75 岁 AI 教父 Hinton:我已经老了,如何控制比人类还聪明的 「超级智能」,交给你们了

▶图灵奖得主杨立昆:GPT模式五年就不会有人用了,世界模型才是AGI未来

▶揭秘 “移动云杯”行业赛道——云电脑创新应用子赛道

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31908.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用GPT-4 写2022年天津高考作文能得多少分?

正文共 792 字,阅读大约需要 3 分钟 学生必备技巧,您将在3分钟后获得以下超能力: 积累作文素材 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | Linda ●图片由Lexica …

react聊天组件:用antd和react-chat-element组装的聊天列表

效果图: 安装库 用到了antd design和github上的一个库:react-chat-element (1)antd design: 安装:yarn add antd 修改 src/App.css,在文件顶部引入 antd/dist/antd.css import ~antd/dist/a…

chatgpt赋能python:人脸识别技术进程Python应用

人脸识别技术进程Python应用 人脸识别技术是计算机视觉领域的重要应用,随着深度学习技术的发展,越来越多的人开始关注并使用这种技术。Python作为一种高效、易用的编程语言,也在人脸识别领域得到了广泛应用,本文将介绍Python如何…

chatgpt赋能python:Python人脸搜索:进入智能搜索的新时代

Python人脸搜索:进入智能搜索的新时代 随着神经网络和深度学习的迅猛发展,人工智能已经成为许多领域中最重要的研究方向。人脸搜索的普及,是人工智能引领的技术革命最具有代表性的例子。Python作为一种高级编程语言,在人脸搜索领…

chatgpt赋能python:Python实现人脸识别系统

Python实现人脸识别系统 在当今科技发展的时代,人脸识别技术已经广泛应用于各行各业中,如安全防范、金融交易、医学检测等领域,成为了一个备受瞩目的技术。Python作为当今最流行的编程语言之一,其实现人脸识别系统的能力备受重视…

chatgpt赋能python:人脸识别软件的作用及发展

人脸识别软件的作用及发展 随着科技的飞速发展,人脸识别技术越来越广泛地应用于各个领域,例如安全监控、金融交易、社交网络等。人脸识别软件通过识别人脸图像中的特征来进行身份验证或辨认,具有高效、准确、便捷等优点。而Python作为一种易…

chatgpt赋能python:Python人脸匹配:自动识别人脸并进行匹配

Python人脸匹配:自动识别人脸并进行匹配 介绍 Python已经成为一种广泛使用的编程语言,在许多任务中被广泛应用。其中一项任务是人脸匹配,这是在安全性和身份验证方面非常有用的应用程序。Python提供了一些很好的库,使得在Python…

chatgpt赋能python:Python人脸识别教程

Python人脸识别教程 什么是人脸识别? 人脸识别是一种通过人脸图像进行身份识别的技术,根据人脸的特征信息进行比对,以识别一个人的身份。 Python人脸识别技术 Python是一种高级编程语言,现在被广泛应用于人工智能,…

IDEA官方中文插件!!!

随着IDEA2020.1版本的到来,官方也悄悄更新了IDEA的中文插件 不得不说,还是比较给力的。 打开设置–>插件: 搜索 Chinese (Simplified) Language Pack 下载重启,IDEA中文版就来啦。 整体效果还是不错的: ATFWU…

IDEA官方中文版插件

IDEA官方中文插件安装步骤: 打开Settings–>Plugins:搜索 Chinese (Simplified) Language Pack 下载重启,IDEA中文版安装完成。

IDEA好用的插件推荐

目录 1.Translation 2.GsonFormat 3. VisualVM Launcher 4.CodeGlance Pro 5.Key Promoter X 6.GenerateAllSetter 7..ignore 8.MyBatisCodeHelperPro 9.Grazie 10.Background Image Plus 1.Translation 翻译插件。程序员最痛苦的事莫过于阅读代码时遇到不懂的英文单词&#…

IDEA实用插件

IDEA中引入插件支持方式如下: 点击File-- Settings设置界面--PlugIns,安装指定的插件,安装后自动或手动重启IDEA。 1、Translation 【实用程度 ★★★★★】 用处:直接选中你想要翻译的词,然后右键选择,或…

idea中文版插件

IDEA怎么设置成中文? 首先点击左上角的File-Settings 进入设置 进入Settings后点击Plugins,在搜索框输入Chinese language pack,点击install安装插件 下载成功后,点击installed,找到下载的汉化插件,点击Restart IDE&…

如何缓解高考前紧张的情绪,ChatGPT这么说......

明天就要高考了,看到家长有各种打气的做法,既有上灵隐寺的,也有穿着旗袍希望旗开得胜的,还有说什么失败了不要紧的......,反正都是焦虑的不行。 面对高考,大多考生都会紧张,但适度的紧张对发挥出…

13、列表

一.列表 列表是python的基础数据类型之一 ,其他编程语言也有类似的数据类型. 比如JS中的数 组, java中的数组等等. 它是以[ ]括起来, 每个元素用’ , 隔开而且可以存放各种数据类型: 列表是python中的基础数据类型之一,其他语言中也有类似于列表的数据类型&#…

基于单片机无线防丢报警器设计过程分享

目录 【功能介绍】 【原理图】 【PCB】 【实物图】 【元器件清单】 【源代码】 【模块介绍】 【参考资料】 【参考文献】 【功能介绍】 本设计利用51单片机结合NRF24L01无线模块进行设计,防丢器分为两个部分,分为从机和主机,即发射模…

基于单片机倾角检测仪设计分享

目录 【功能介绍】 【原理图】 【PCB】 【实物图】 【元器件清单】 【源代码】 【参考资料】 【参考文献】 【功能介绍】 本设计利用51单片机为主控系统,采用三轴加速度传感器ADXL345进行倾角测量,可以实现两大功能: 实时显示当前测…

360数科港交所上市:市值超160亿港元 周鸿祎为大股东

雷递网 雷建平 11月29日 360数科股份有限公司 (股票代码:3660)今日在港交所主板上市,发行价为50.03港元,募资净额为2.77亿港元。 360数科开盘价为50.6港元,较发行价小幅上涨,收盘价为51.75港元,较发行价上涨…

80%的能力问题,都是态度问题

置顶 “进击的阿秀” 和优秀的人一起成长,做牛逼闪闪的职场青年 咱们开头先分享一个故事。 周鸿祎在创办3721的时候,有一次开会后嘱咐傅盛一定要做好会议记录。 周鸿祎天马行空地讲了好久,傅盛不仅把内容全记了下来,还仔细研究每段…

雷军以为会当一辈子码农,不料后来成了小米董事长

本文转自:IT时代网 不会写代码的CEO,不是好技术。在科技互联网行业,其创始人大都由技术人员组成,百度李彦宏,腾讯马化腾,360周鸿祎、特斯拉、SpaceX创始人马斯克,微软创始人比尔盖茨&#xff0…