6 年成果,被爬取 200+ 万次,仅索赔 1 元?AI 大模型被指控“偷”数据,学而思最新回应...

595d1c1e7393fc4b83cd68ab123df62b.gif

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。

彼时许多人感慨,“理科生”版的 ChatGPT 终于要来了。

不曾想,MathGPT 还未真正面世,有关它的“丑闻”就先一步爆发了:本周二,笔神作文 App 指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达 258 万次,以此开发 MathGPT 的新产品“作文 AI 助手”。

277fbb03a45456feb6a18f4288b6bfea.jpeg

70ef33e87b1979fbf91ba42269c0d76a.png

6 年成果,一个周末被爬取超 200 万次

此次事件的主角之一,笔神作文,是一个成立于 2017 年 12 月的 K12(从幼儿园到 12 年级的教育)作文教育平台,隶属于北京一笔两划科技有限公司。

当时的 AI 市场远不如现在火爆,笔神作文却凭借其“用人工智能技术,帮助写作者提升写作能力”的特色,在 2018 年 1 月获得了真格基金数百万元种子轮融资,后来又在 2019 年 7 月完成了数百万天使轮融资。

根据官方资料显示,笔神作文上线六年,每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论,积累了数百万篇作文素材,月批改作文量超 3 万篇。

而伴随着去年年底 ChatGPT 的横空出世,笔神作文的投资方之一世纪天鸿曾表示,“笔神”与 ChatGPT 技术同源,都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队有超过 60% 为技术研发人员,在成立公司之前该团队就曾创立过 NLP 类公司,部分骨干在自然语言理解领域合作并深耕多年。”

因此整体而言,笔神作文的算法模型为一笔两划公司自研训练,其平台的大数据来自于自身累积。

因其在写作方面的技术积累和显著成果,三年前笔神作文与学而思达成了合作:与学而思旗下的学习工具 App “题拍拍”签约,主要负责提供作文素材查询服务。

而作为合作伙伴,本周笔神作文表示:在 4 月 13 日发生了一件我们都没有预想的事情,我们团队从创业以来的 6 年成果,被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次!

7898afe22b835eac5a281213bd19eb59.png

诉求:1 元赔偿金,公开道歉并删除数据

从笔神作文官方微博的声明来看,本身它没有完备的数据安全机制,而对于“合作伙伴”学而思,更是没有设置全部的提防,从而导致三体云联公司(学而思子公司)利用这份信任,即:在未经笔神作文 APP 授权许可的情况下,在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。

对此,笔神作文主张该行为违反了双方的合同条款,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文 APP 的数据权益。

事后,笔神作文向学而思进行了求证,对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,却没有得到对方的实质性回复,而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。

“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出,目前的法律法规并没有【AI 大模型数据盗取】的判决先例,因此只能“勇敢地走出这第一步”。

至于笔神作文的诉求,实际上也并非是索要大额赔偿金:只想要学而思支付 1 元赔偿金,公开道歉并删除已爬取的数据。

对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”

a23068e7ec5e6c2cb0254eb8772be89d.png

确实正如笔神作文所说,其体量并不大,因此这封声明也并未引起太多关注,不过仅有的几条评论中都在谴责学而思的行为。

6d14a9b247bd16ebca6cd248d85a200a.png

学而思回应:均符合合同要求

经多家媒体报道后,这起事件逐渐发酵,于是昨晚学而思官方微博也对此发文回应:

首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文 AI 助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。

e9ae867d1d2589e3bb254be9bd72ae3f.png

而笔神作文声称被爬取二百多万次的数据,学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。

在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是:“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”

8fd236837060284b59dd85bc5a70ab75.png

AI 训练数据的版权问题

从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热的 AI 大模型角逐下,一个容易被忽略却又十分重要的盲点:AI 训练数据的版权问题。

事实上,最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。

近年来 Reddit 上发布的聊天内容,已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材,以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆,Reddit 创始人兼 CEO 表示:“Reddit 的数据语料库非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”

继 Reddit 带头表态要求科技巨头付费使用数据后,知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起,向大型 AI 开发商收取数据访问费用,其 CEO 也指出:“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿。”

除了 Reddit 和 Stack Overflow 这类大型网站,甚至在开发者圈子中,部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub:

29171478b7f107f969f775124a8a0d42.png

ce7d8eeead447aab4d769125456ee6cf.png

毫无疑问,AI 大模型在变得更智能的过程中,海量的训练数据必不可少,但从目前来看,当今 AI 领域的“当红炸子鸡”OpenAI,对于训练数据的版权问题都没有很好的解决方案。

然而,伴随着 AI 热潮进一步推进,这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说:“可能在研发初期,大家对数据来源并不在意,但当你产生了巨大的经济效益时,现实传统的经济模式、法律体系都将约束着你的行为。”

那么对于这个问题,你又是否有什么看法?

参考链接:

https://weibo.com/combmobile

https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4

https://www.36kr.com/p/1723938652161

推荐阅读:

▶余承东回应高通对华为恢复 5G 芯片供应;ChatGPT 发布重要更新;微软推出免费 AI 入门课|极客头条

▶Altman、Hinton 中国首秀:GPT 终将过时,AI 是当今世界最迫切的问题!

▶价格最高降75%、API函数调用上线、上下文长度提高4倍,OpenAI凌晨再给ChatGPT、GPT-4加码!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17859.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说

6月9日,讯飞星火认知大模型发布,内容详见: 新闻通稿表明: 讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。 但是事实是不是这样?我们还…

ChatGPT被起诉索赔30亿!「未经允许收集并泄露个人信息」,16人匿名状告OpenAI...

明敏 发自 凹非寺量子位 | 公众号 QbitAI 一天吃两起官司,ChatGPT现在有大麻烦了。 原因都和数据有关。 先是16人匿名起诉OpenAI及微软,认为他们在未经允许的情况下使用并泄露了个人隐私数据,索赔金额高达30亿美元。 紧接着,2位全…

chatgpt赋能python:Python黑白图片上色:让历史重现生机

Python黑白图片上色:让历史重现生机 随着科技的不断进步,现代照片的质量越来越高,但是过往的历史照片往往因为技术限制而只有黑白色调。然而,Python这个强大的编程语言可以通过深度学习技术让这些历史照片重现生机,让…

ResNet 论文理解含视频

ResNet 论文理解问题导引论文理解Q1.神经网络真的越深越好吗?Q2. 为什么加深网络会带来退化问题?Q3. 如何构建更深层的网络? 基于残差的深度学习框架Residual Learning 的理论依据 网络结构ResNet 的成绩总结 视频理解引入恒等映射 ResNet 论文理解 问…

创新工具 | 教你6步用故事板设计用户体验事半功倍

问题 构思方案时团队在细节上难以共识 故事板是什么?故事板就像连环画一样,将用户使用解决方案的关键步骤顺序串联了起来,呈现了方案和用户之间的交互。 故事板以先后顺序展现团队票选出来的最佳解决方案,在过程中对于方案中未…

AI奇点已至,是黎明前的黑暗,还是黑夜前的黄昏

2022年11月,OPEN AI公司推出了ChatGPT 3模型,瞬间引爆全球话题,所有业内人士都在感叹他的强大,比尔盖茨也曾经评价道,ChatGPT将会改变世界 ,是一个相当于PC和互联网的革命性产品。 作为信息行业人&#xff…

汇编之调试环境搭建及调试步骤详解

调试环境搭建 思路 学习一门语言,上手上机调试是非常重要的,它会带来一个感性的认知,所以学习汇编第一件事,推荐把开发环境搞起来。 安装 nasm: 程序中的汇编代码需要转译为处理器指令,在提交给处理器执…

通过gulp+rollup从零到一搭建前端组件库

核心要点 通过 webpack 搭建运行环境通过 gulp 执行编译流程通过 rollup 编译组件代码编写 组件测试 组件打包 编译组件上传 npm 1、通过 webpack 搭建运行环境 这里主要是创建一个可以运行的测试的组件的环境,全局安装vue-cli脚手架,并初始化项目 v…

Nuxt重构的填坑之路

我的个人网站是用vuecli写的,SEO不忍直视。于是用Nuxt重构了代码,过程中踩了无数坑,记录如下 一:body样式不生效 正常的body样式设置不能生效,需要在nuxt.config.js中配置 1、设置bodyAttrs的class属性,该…

【ProNoC】Chap.1 ProNoC生成2x2的mesh型的4核片上网络系统;实现NoC的RTL设计

【ProNoC】Chap.1 ProNoC生成2x2的mesh型的4核片上网络系统;实现NoC的RTL设计 0. NoC多核片上网络生成器ProNoCProNoC的功能实现 1. 生成一个叫做Mor1kx SoC的单个Tile(包含NI网络接口)1.1 打开ProNoC用于生成Tile的GUI界面1.2 为Tile添加时钟…

【AI绘图学习笔记】transformer

台大李宏毅21年机器学习课程 self-attention和transformer 文章目录 Seq2seq实现原理EncoderDecoderAutoregressive自回归解码器Non-Autoregressive非自回归解码器Corss-attention 总结TrainingtrickCopy MechanismGuided AttentionBeam Search强化学习(Reinforceme…

MATLAB转C

1、先写好一个 函数调用。点击应用程序----MATLAB coder 打开一个对话框,确定C语言代码的工程名。 2、添加函数文件 3、添加文件后,单击变量,选择变量类型和矩阵大小。注意,如果选择的不是double型的数据类型,MATLAB…

Qt功能优化:Qt语音助手

Qt功能优化:Qt语音助手 文章目录 Qt功能优化:Qt语音助手一、效果图二、使用步骤1. .pro部分2. .h部分3. .cpp部分总结一、效果图 点击界面右上方类似于耳机的按钮,即可召唤出语音助手,来为您讲解我们的项目。如下图所示: 二、使用步骤 1. .pro部分 代码如下: QT …

【Chisel学习】设计n位超前进位加法器生成器(Carry-Lookahead Adder Generator)

Chisel学习——设计n位超前进位加法器生成器(Carry-Lookahead Adder Generator) 文章目录 Chisel学习——设计n位超前进位加法器生成器(Carry-Lookahead Adder Generator)一,项目简介二,理论基础2.1 Chisel2.1 硬件生成器&#xf…

OpenAI GPT-3模型详解

OpenAI GPT-3模型详解 针对文本生成和代码生成这两大类场景,OpenAPI分别提供了GPT-3和Codex模型, 模型描述GPT-3一组能够理解和生成自然语言的模型Codex一组可以理解和生成代码的模型,包括将自然语言转换为代码 本文将为大家详细介绍这两个…

Vue3通透教程【十七】Vite构建TS版本Vue项目

文章目录 🌟 写在前面🌟 创建TS版本的Vue3项目🌟 插件安装🌟 写在最后 🌟 写在前面 专栏介绍: 凉哥作为 Vue 的忠实 粉丝输出过大量的 Vue 文章,应粉丝要求开始更新 Vue3 的相关技术文章&#…

用 ChatGPT 重构工作流程

如果你第一次听说 ChatGPT,那你要反思一下自己的信息获取渠道是不是出了问题,作为 AI 时代最强代表,你一定要亲自去体验一下,而不是道听途说。 公司需要降本增效,个体也一样,在工作中畅快应用 AI 来帮助自己…

Qt:可视化UI设计

1、创建项目&修改组件的对象名字和显示文本内容 创建一个 Widget Application 项目类 QDialog,在创建窗体时选择基类 QDialog,生成的类命名为 QWDialog,并选择生成窗体。 在界面设计时,对需要访问的组件修改其objectName&am…

【Qt设计开发】GUI界面设计开发

文章目录 一、Qt简介和下载安装二、Qt入门2.1 创建第一个项目2.2 快捷键和命名规范2.3 Qt项目和VS2022项目相互转换 三、Qt基础3.1 Qt对象树和窗口坐标系概念3.2 QPushButton3.3 信号和槽(signals and slots)3.3.1 pushbutton关闭窗口3.3.2 自定义信号和槽 3.4 Lambda表达式3.5…

【饭谈】ChatGpt如果让软件ui都消失的话,那ui自动化测试该何去何从?

“未来的软件长什么样?” 一位妹子产品经理问我:“你说说未来的软件ui是什么样的?听到这个问题我先是诧异了一下,随即陷入了沉思。” 我看着眼前的产品经理,她是一位比较年轻干练的女强人类型,1.65的身材…