GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

【导读】深陷数据风波的OpenAI,背后真正原因竟是优秀的数据太少了。

穷尽「全网」,生成式AI很快无数据可用。

图片

近日,著名UC伯克利计算机科学家Stuart Russell称,ChatGPT和其他AI工具的训练可能很快耗尽「全宇宙的文本」。

换句话说,训练像ChatGPT这样的AI,将因数据量不够而受阻。

图片

这可能会影响生成式AI开发人员,在未来几年收集数据,以及训练人工智能的方式。

同时,Russell认为人工智能将在「语言输入,语言输出」的工作中取代人类。

数据不够,拿什么凑?

Russell近来的预测引起了大家重点关注。

OpenAI和其他生成式AI开发人员,为训练大型语言模型,开始进行数据收集。

然而,ChatGPT和其他聊天机器人不可或缺的数据收集实践,正面临着越来越多的审查。

图片

其中就包括,未经个人同意情况下创意被使用,以及平台数据被自由使用感到不满的一些高管。

但Russell的洞察力指向了另一个潜在的弱点:训练这些数据集的文本短缺。

去年11月,MIT等研究人员进行的一项研究估计,机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。

图片

论文地址:https://arxiv.org/pdf/2211.04325.pdf

根据这项研究,「高质量」集中的语言数据来自:书籍、新闻文章、科学论文、维基百科和过滤后的网络内容等。

而加持当红炸子鸡ChatGPT背后的模型GPT-4同样接受了大量优质文本的训练。

这些数据来自公共在线的资源(包括数字新闻来源和社交媒体网站)

从社交媒体网站「数据抓取」,才导致马斯克出手限制用户每天可以查看的推文数量。

图片

Russell表示,尽管许多报道未经证实,但都详细说明了OpenAI从私人来源购买了文本数据集。虽然这种购买行为可能存在解释,但自然而然的推断是,没有足够的高质量公共数据了。

一直以来,OpenAI尚未公开GPT-4背后训练的数据。

而现在,OpenAI需要用「私人数据」来补充其公共语言数据,以创建该公司迄今最强大、最先进的人工智能模型 GPT-4。

足见,高质量数据确实不够用。

OpenAI在发布前没有立即回复置评请求。

OpenAI深陷数据风波

近来,OpenAI遇上了大麻烦,原因都和数据有关。

先是16人匿名起诉OpenAI及微软,并提交了长达157页的诉讼,声称他们使用了私人谈话和医疗记录等敏感数据。

图片

他们的索赔金额高达30亿美元,诉讼中指出,

尽管制定了购买和使用个人信息的协议,但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。

这其中包含账户信息、姓名、联系方式、电子邮件、支付信息、交易记录、浏览器数据、社交媒体、聊天数据、cookie等等。

这些信息被嵌入到ChatGPT中,但这些恰恰反映出个人爱好、观点、工作履历甚至家庭照片等。

而负责这次起诉的律师事务所Clarkson,此前曾负责过数据泄露和虚假广告等问题的大规模集体诉讼。

图片

紧接着,这周又有几位全职作者提出,OpenAI未经允许使用了自己的小说训练ChatGPT,构成侵权。

那么是如何确定使用自己小说训练的呢?

证据就是,ChatGPT能够针对他们的书生成准确的摘要,这就足以说明这些书被当作数据来训练ChatGPT。

作者Paul Tremblay和Mona Awad表示,「ChatGPT未经许可就从数千本书中拷贝数据,这侵犯了作者们的版权」。

图片

起诉书中预估,OpenAI的训练数据中至少包含30万本书,其中很多来自侵权网站。

比如,GPT-3训练数据情况披露时,其中就包含2个互联网图书语料库,大概占比为15%。

2位起诉的作者认为,这些数据就是来自一些免费的网址,比如Z-Library、Sci-Hub等。

另外2018年,OpenAI曾透露训练GPT-1中的数据就包括了7000+本小说。起诉的人认为这些书没有获得作者认可就直接使用。

另谋他法?

不得不说,OpenAI使用数据来源一事确实存在诸多争议。

今年2月,《华尔街日报》记者Francesco Marconi曾表示,新闻媒体的数据也被用来训练ChatGPT。

Marconi让ChatGPT列了一个清单,竟有20家媒体。

图片

早在今年5月,Altman在接受采访时曾表示,OpenAI已经有一段时间没有使用付费客户数据来训练大语言模型了。

客户显然不希望我们训练他们的数据,所以我们改变了计划,不再这么做。

图片

其实,OpenAI在3月初,曾悄然更新了服务条款。

Altman提到,现在公司正在开发的新技术,可以使用更少的数据来训练模型。

或许从OpenAI身上受到了启发,谷歌选择先行堵上这一漏洞。

7月1日,谷歌更新了其隐私政策,现在的政策中明确谷歌有权收集任何公开可用的数据,并将其用于其人工智能模型的训练。

图片

谷歌向所有用户表明,只要是自己能够行公开渠道获得的内容,都可以拿来训练Bard以及未来的AI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54882.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python简单小游戏代码教程,python小游戏程序源代码

球球各位大神怎么用python写一个猜词小游戏的代码? key input(请输入一个单词:)description input(输入单词描述:)chance 5mark 5print(现在开始游戏)print(description \t 这是单词的描述,请你输入这个单词: )for i in ra…

python简单小游戏代码

前言 大家小时候都玩过贪吃蛇吧?小编小时候可喜欢拿爸妈的手机玩了,厉害着呢!今天,小编就来用100行代码实现一个简易版的贪吃蛇。 在网上,贪吃蛇教程蛮多的,但要安装蛮多库的,而且也不够清晰&…

ChatGPT最擅长完成哪些工作,学会了这些你的工作效率提高100倍

自然语言处理技术正在迅速发展,随之而来的是对于 ChatGPT 的需求也在不断增加。ChatGPT 作为一种强大的自然语言处理工具,已经被广泛应用于多个领域。在本文中,我们将会介绍一些可以借助 ChatGPT 帮忙完成的工作,让大家更好地了解…

Redis之父:找个靠谱的 C 程序员太难了!

作者 | yukang 出品 | 程序员的喵 (ID: coderscat ) 西西里岛,是位于意大利南部阳光而宁静的岛屿,正如电影《西西里岛的美丽传说》中演绎的那样,这里有着古老的历史和建筑,看起来和 IT 不沾边&#xff0…

.Net 问世 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 13 日,在 2001 年的今天,跨国科技公司谷歌(Google)进行了其历史上的第一次收购,收购对象是 Dej…

AI是一场革命,我真不是在跟风

AI是场革命,好像现在很多人都开始这么说,那么我说我不是在跟风,为什么?不好意思,又要翻翻旧贴 -> AI是一场革命,不要笑,我是认真的。2016年我就这样讲了,就如我常说的&#xff0c…

智能化软件开发微访谈·第二十四期 大模型时代的智能化软件生态

CodeWisdom 大模型时代的智能化软件生态 微访谈 活动预告 背景介绍 ChatGPT和GPT-4的横空出世以及所掀起的热潮标志着大模型时代的到来。大模型以交互式对话的方式实现了多领域任务完成能力,表现出了很高的通用智能水平。与此同时,大模型的出现也创造了…

告别输入网址烦恼!ChatGPT不错开源客户端

ChatBox 是什么 开源的 ChatGPT API (OpenAI API) 桌面客户端,Prompt 的调试与管理工具,支持 Windows、Mac 和 Linux。 为什么需要它 每次想访问 ChatGPT 时,都需要在浏览器中输入 ChatGPT 网址,然后点击登录,选择账…

Electron-ChatGPT桌面端ChatGPT实例|electron25+vue3聊天AI模板EXE

原文:Electron-ChatGPT桌面端ChatGPT实例|electron25vue3聊天AI模板EXE - 技术经验 - W3xue 基于electron25vite4vue3仿制chatgpt客户端聊天模板ElectronChatGPT。 electron-chatgpt 使用最新桌面端技术Electron25.x结合Vite4.x全家桶技术开发跨端模仿ChatGPT智能…

chatgpt赋能python:用Python打造一个快捷聊天程序

用Python打造一个快捷聊天程序 如果你想要快速建立一个简单的聊天程序,Python是一个很好的选择。Python是一种易于学习和使用的编程语言,并且它有许多库和框架,可以使你能够快速地搭建一个聊天应用程序。下面我们简单介绍如何使用Python构建…

大咖思辨-42 | 大模型狂飙背后的推动力是什么?让我们一探究竟!

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 随着ChatGPT、GPT-4、Copilot的火热出圈,大模型已经成为AI领域的研究热点与必争之地。2023年3月28日,由AI TIME、清华校友总会AI大数据专委会联合主办,有孚网络、智谱AI、金地…

通用人工智能+智能车舱,商汤绝影带来怎样一番景象?

/ 导读 / 进入4月,中国科技圈迎来最卷的时刻,这可能中国AI史上一个重要节点。ChatGPT、GPT-4的出圈掀起了通用人工智能(AGI)的技术狂潮,引爆了一场以大模型为代表的生成式AI狂飙,也催生了新的研究范式。 转…

一文带您快速梳理ChatGPT、GPT4 和OpenAPI的关系

最近最火的几个词无疑是ChatGPT、GPT4 和OpenAPI,那么这三者究竟有什么关系呢?本文将带您进行快速梳理! OpenAPI是一家公司 OpenAI是一家专注人工智能研究的公司,使命是确保人工智能造福全人类。官网: https://openai.…

趣挨踢 | 用大数据扒一扒蔡徐坤的真假流量粉

戳蓝字“CSDN云计算”关注我们哦! 作者:AlfredWu 转自: Alfred数据室 前段时间央视新闻公开披露流量明星数据造假。作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新…

生成身份证校验码(c语言)

生成身份证校验码 描述格式样例题解及详细注释 描述 我国的居民身份证是18位字符的编码,每个人的编码都是唯一的,校验规则如下: ∑(ai*wi)mod 11 1 i表示号码字符从左至右包括校验码字符在内的位置序号&#xff1b…

chatgpt赋能python:Python生成4位验证码的方法

Python生成4位验证码的方法 在网络安全中,验证码是一种常见的安全技术,它可以有效地防止恶意攻击,保护网站和应用程序安全。在这篇文章中,我们将介绍使用Python生成4位验证码的方法,并探讨如何在实际应用中使用它。 …

让ChatGPT3.5写的一个PHP图形验证码,大家觉得怎么样?

闲来无事让ChatGPT3.5写的一个PHP图形验证码&#xff0c;并运行了一下&#xff0c;感觉验证码有点丑。。。 下面是ChatGPT3.5写的代码和使用说明&#xff0c;各位大佬感受一下&#xff01; <?php // 创建图像 $imageWidth 150; $imageHeight 50; $image imagecreatetru…

开源商业化,走出“射手假说”迷雾

随着过去十年开源技术的“复兴”及全面发展&#xff0c;开源技术与商业化的关系日益紧密&#xff0c;成为了业内备受关注的话题。虽然在开源技术的发展历程中&#xff0c;“商业化”曾是一道难以逾越的障碍&#xff0c;但随着时间推移与业界不断探索&#xff0c;如今的开源技术…

【成为架构师系列】领导力就是两件事:断物和识人

领导力——是战略与执行的原动力 所以执行力和战略一定要结合起来。 战略的执行和落实需要掌握核心能力的人,所以领导力——是战略与执行的原动力。 简单地说,领导力就是两件事——“断物”和“识人”。 “断物”代表战略思考,“识人”代表执行能力。 目录 导读 领导力就是…

澳网:王雅繁0:2不敌本土名将 遗憾止步第二轮

资料图&#xff1a;王雅繁在比赛中。中新社记者 张畅 摄 中新网1月16日电 16日&#xff0c;2019赛季澳大利亚网球公开赛继续展开争夺&#xff0c;在女单第二轮的比赛中&#xff0c;中国金花王雅繁挑战15号种子巴蒂。比赛中王雅繁整场被对手压制&#xff0c;2&#xff1a;6/3&…