马斯克要告微软 拒绝AI训练“白嫖”数据

“现在是诉讼时间。”4月20日,推特被微软踢出其数字营销平台后,新掌门人马斯克立马发推回击称,微软用推特的数据做“非法训练”。这一怼,直接揭开了AI大模型开发商与数据源的利益之争。

此前,在线社区论坛Reddit与程序员社区Stack Overflow先后宣布,将向使用平台API训练数据的公司收费;环球音乐集团直接表示,将阻止AI从其版权歌曲中抓取歌手的声音。

在此之前,AI大模型开发商都在低成本地使用互联网公开的内容数据训练自家的大模型,如今,各种科技巨头们加持的大模型纷纷开始商业化,互联网内容平台们突然反应过来,不能让这些巨头们薅羊毛“白嫖”数据了。

当推特将API收费门槛摆在微软面前时,AI大模型训练要给付的成本就不止芯片算力和研发算法的人才了,现在还要加上“为数据付费”。

马斯克直怼微软“非法训练”

“他们非法使用推特的数据进行训练。现在是诉讼时间。” 4月20日,“宇宙顶流”马斯克直接在推特上明示要告微软。他以推特CEO的身份亲自下场,以此直怼微软把推特踢出Microsoft Digital Marketing Center(微软数字营销中心)的做法。

这个“中心”是干嘛的呢?它其实是微软利用大数据和AI技术开发的一个广告和营销的管理平台,聚合了包括推特、脸书、Ins等海外所有主流的社交平台,方便企业主们在一个平台上完成广告和营销活动的推送,还能管理各种账号、分析推流数据。你刷微博、微信朋友圈时突然冒出的广告,就有类似微软这种工具的贡献。

微软这个数字营销中心能实现这些功能,很重要的一环是接入了这些社交平台的API,这是企业主推送广告、分析数据的基础。

结果,马斯克收购推特后,直接把推特API的企业套餐初始订阅费用定为4.2万美元/月,折合人民币28.9万元,以这个价格能获得2500万条推文,一条差不多1块多钱了。如果每月支付12.5万美元,能获得 1 亿条推文,后续还会按照使用量加钱。

推特API的新收费标准直接劝退了不少小公司,连财大气粗的微软数字营销中心都直言“要价太高”,于是,直接把推特踢出了管理库。这意味着,借助微软这个平台执行广告和营销计划的广告主们,没法在推特上搞投放了。

原本这是企业主、分发平台、渠道商之间的广告业内事,马斯克跳出来了,直指微软用推特的数据搞非法训练。

 马斯克称微软用推特数据“非法训练”

谁都知道,爆火的ChatGPT背后有微软的资本加持。而马斯克和GPT大模型的开发方OpenAI不仅渊源颇深,还积怨许久。

2015年,马斯克与Sam Altman等6人共同创立OpenAI人工智能实验室,致力于建设开源的、研发人工智能的非营利机构,来抗衡当时在人工智能领域大有一家独大之势的谷歌。为此,马斯克捐了1亿美元,承诺未来继续捐9亿。结果不到2年,马斯克就退出了OpenAI董事会,这里既有烧钱开发大模型短期没烧出成果的问题,也有马斯克和Altman对OpenAI的管理权之争。

马斯克退出1年后,即2019年3月,OpenAI成立子公司OpenLP,将其定位为“有限营利机构”,重组后的OpenAI很快拿到了来自微软的10亿美元投资。谁也没想到又一个3年过去后, OpenAI站上了全球科技舞台的最前沿。

ChatGPT爆火后,当初为OpenAI掏过钱、站过台的马斯克频频表达怨念。

2月17日,马斯克发推指称OpenAI从开源、非营利变成了微软控制的“闭源、追求利益最大化”的公司;后来还多次在公开场合强调人工智能对人类社会的潜在危害,甚至认为“风险比飞机、汽车、毒品更大”;3月29日,那封科技大佬联署签名“暂停AI巨型实验”的公开信上,他也第一时间签名表态。

马斯克为人工智能的健康发展操碎了心,看上去,这位将巨型载人飞船送入太空的现实版“钢铁侠”似乎不打算跟风人工智能了。

然而,4月17日,马斯克在媒体采访中披露,将推出一款生成式AI大模型TruthGPT。很快就有媒体爆料,马斯克买了1万个英伟达A100芯片。这是AI大模型训练的重要硬件。

撕微软非法训练数据,怼OpenAI变成逐利公司,无论马斯克如何批评这两家公司,这下也难掩他对人工智能的兴趣了。左手拦下推特数据低成本外流,右手高价囤芯片,在AI大模型赛道上,马斯克开始跑马圈地。

多平台API拟收费 AI训练成本被推高

不过,最近要向AI大模型开发商们收取API费用的平台不止推特。

4月18日,海外最大的社区论坛Reddit宣布,将向使用其API做数据训练的公司收取数据使用费。Reddit暂未公布具体收费标准,业内推测,Reddit很可能会按数据数量分等级收费,这也是业内的常规做法。此外,程序员问答网站Stack Overflow也计划向AI巨头收取训练数据费用。

 Reddit更新数据API条款防大公司薅羊毛

要知道,研发AI大模型,算法、算力和算据这“三算”缺一不可。以OpenAI训练GPT-3.5为例,这个模型容纳了多达45TB的文本语料,这些语料既包括书籍期刊等出版物的内容,也包括社交平台、问答网站、论坛小组等在线数据中的用户生成内容。而从OpenAI的公开信息看,该公司并没有提及获取线上数据是否支付过费用。用“爬虫”爬、和第三方合作、以及购买都有可能是OpenAI 获得数据的方式。

此前,各个生成式大模型似乎都在没啥限制地使用互联网上的公开内容,影响大模型性能的要素就集中在算法和算力差异上。从推特、Reddit等平台明确为API收费后,大模型开发商自在地使用数据的好日子到头了。

2019年之前,OpenAI是非营利机构,如今,ChatGPT都有Plus收费版了,更别提该公司还开通了API的付费渠道。当前,OpenAI的估值接近300亿美元,研究机构PitchBook预测,该公司今年的收入将达到2亿美元,明年会翻五番。

社交平台们明确API收费,剑指大模型开发商,双方也正式变成了“商业对商业”的关系,收费与付费实属正常。这也意味着,AI大模型成为科技巨头们狂卷的赛道后,像Reddit这样的海量内容平台将增加商业来源,数据将成为重要要素。

以成立于2008年的Reddit为例,它是全球互联网中最有活力的社区之一,目前日活达到3.3亿,大量的用户创建了超过14万个活跃社区,帖子总量超3.6亿。尤其在很多小众领域,Reddit论坛贡献了很多有价值的讨论内容。换句话说,Reddit提供了英语互联网中最重要的语料库。

OpenAI的CEO Sam Altman也表示,公司在积极与内容公司进行合作,并愿意“为高质量数据支付高价”。

尽管Altman宣称“目前没在训练GPT-5”,但OpenAI应该不会停下数据训练的脚步,因为GPT-4仍有很多需要打磨的地方,比如通识知识的准确性、对人类语言的理解进化等等,这些仍然需要语料数据的持续投入。

放眼全球,研究AI大模型的公司还不止OpenAI一家,海外有谷歌,国内有百度、华为、阿里。可以预见,切入大模型赛道的公司,都将面对数据所有者的收费关卡,训练成本将水涨船高。

另一个值得深思的问题是,Twitter也好,Reddit也罢,他们手握数据向大模型开发公司收取价格不菲的费用,那么,为这些平台贡献了海量内容和数据的用户又得到了什么?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/46053.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT 封号,不能注册?

最近全网都在流传不能注册了,大规模的封号?其实还好,我们群里有小伙伴昨天还成功注册的,确实开始部分停止了一些区域的注册,但是注册的大门并没有完全关上! 比如这个是我们昨天注册的,目前还是有…

C++无法输出txt文件全部内容以及输出出现乱码的解决方法

在做数据结构的大作业时,发现在输出某篇文章时输出到某个位置就强制中止了,后面的代码也无法正常执行。 以下是代码和文本原文,出现问题的部分已经标记出来了。 The orange is the fruit of various citrus species in the family Rutaceae (…

解决vscode终端信息太长,输出不全

我遇到的问题 vscode终端只显示一部分内容,显示不全 原因:vscode默认设置最多能显示1000行,超出就不显示了 解决办法: 点击vscode左下角 点击setting, 输入terminal, 找到这一栏,把数字稍微改大一些&…

Pycharm输出窗口有省略号,数据显示不全解决方法(转载)

一、借助pandas库来控制窗口的显示: import pandas as pd pd.set_option(display.max_rows, 500) pd.set_option(display.max_columns, 100) pd.set_option(display.width, 1000) 在要输出数据之前按如上方式设置, display.max_rows’是设置输出窗口显示…

Vscode 终端显示的输出结果不全

搜索 Integrated: Scrollback 将 Integrated: Scrollback 这个值增大即可

币圈变天,玩家纷纷抛售风险资产 “波米诺骨牌”已经开启

由于FTX的崩溃打击了投资者对数字资产的信心,加密货币市场在过去一周就损失了约2000 亿美元的价值。比特币 ( BTC ) 在7 天内下跌了 22%,分析师们正争先恐后地评估数字资产市场的前景,以及可能产生的政策影响。 FTX爆雷事件使得金融市场对中心…

STO不会火,比特大陆不会死,币安会去非洲:区块链行业的63个预测

翻译 | 贾瑞婷 编辑 | 波波 有句话是这么讲的:凡是杀不死你的,必定能让你更强大。 比特币大神哈尔芬尼也是这么看比特币的。 作为资深密码朋克、中本聪之外第一个接触比特币的人、传说中同中本聪交集最多的一个人,哈尔芬尼的观点在某种程度上…

BNB、HT、OKB全面估值分析——平台币还能涨多少倍?

本文采用市盈率相对估值、费雪方程式模型和折现现金流三套估值方法为三大平台币划出当前合理的价格区间。 资深分析师 | 李雪婷 运营 | 盖遥 编辑 | 郝方舟 出品 | Odaily星球日报研究院(ID:Odaily-research) 一年前,“乱入者”…

NFT 的洗盘交易,真的赚钱吗?

Nov. 17,Hanson Data Source: Footprint Analytics Wash Trade Analysis 洗盘交易造成的虚假交易是准确评估 NFT 项目、交易所和整个行业的最大障碍之一。 这份报告将会分析X2Y2市场的洗盘交易者如何从洗盘交易和代币质押中获励。同时分析了前10交易量…

108斤到90斤,我在减肥路上遇到的宝藏健身博主

点击上方蓝色字体,关注我们~ 这是一篇很早就想写的总结文,或者也可以叫安利帖。 首先宣布一件大事:我终于在有生之年,减!肥!成!功!过!了! 对的,成…

实验02 使用网络模拟器packet Tracer实验报告

这个格式可能有点问题,文档下载地址:https://download.csdn.net/download/mariodf/20203327?spm1001.2014.3001.5503 一、实验名称 使用网络模拟器Packet Tracer 二、实验目的: 1. 掌握安装和配置网络模拟器Packet Tracer的方法&#xf…

电子邮箱如何大量发送邮件?TOM VIP邮箱邮件群发的建议

明确了要做邮件营销,却不知从何入手?这是很多人业务拓展人士所遇到的问题。下面由从业多年的TOM VIP邮箱为大家分享下~ 首先,在邮件群发时品牌怎么选? 影响群发效果的几个关键因素,发信数量、发信通道、频率、ip、内…

邮件群发软件哪个好用?

后疫情时代,邮件在我们的工作、生活中扮演越来越重要的角色。无论是用户交流、身份认证还是资料传输,都离不开邮件。因此有人使用群发邮件来扩展公司的业务,收到了不小成效,所以邮件群发也是我们在和客户交流时必备的技能。 在邮…

分享邮件营销群发的6大技巧!怎么群发邮件效果好?

新的一年想要大展宏“兔”,首先要有可以提高工作消息的工具—邮箱。目前有小部分企业会进行邮件营销,邮件营销的重中之中是邮件群发!怎么做邮件营销群发推广?分享邮件营销群发的6大技巧! 邮件群发信息时还在手敲&#…

新人进群发邮件软件,QQ群潜伏发邮件软件,一进群就收到邮件软件

一、QQ群监控介绍: 什么是QQ群监控?简而言之,只要我的号在里面,我就能获取到我所加入的这些群,什么时候有新成员进入,一旦有新成员进入,立即推送广告过去,因为客户只有在想了解某样…

外贸公司怎么群发邮件?群发邮件邮箱怎么发更高效?

最近跟小妹聊天,小妹说她在老家把铁饭碗给辞了,想去北京打拼。我说挺好的呀,支持你。然后小妹就跟我说我妈不支持我去北京上班,其实这个事情一出,我妈就非常生气了,就不同意我去北京打拼。 结束聊天后&…

批量导入邮箱:收发邮件/群发邮件

批量导入邮箱:收发邮件/群发邮件 如果你有大量邮箱需管理 如果你需要批量登陆大量邮箱收取邮件 如果你需要批量登陆大量邮箱群发邮件 那么请往下看 一、批量导入邮箱(文本导入) 参照《邮箱管理》,打开界面>>选择“导入/导出…

怎么群发邮件,群发邮件怎么发,哪个邮箱好?

大家好哦,本期分享关于怎么群发邮件,群发邮件怎么发,哪个邮箱好等相关内容,具体如何发信的技巧,让我们一起来看下吧!首先群发前,我们需要先了解收件人、抄送、密送、群发单显的关系。 收件人&a…

如何利用Gmail群发电子邮件

并非每个人都有投资电子邮件营销软件的预算。 但是,是否有任何解决方案可以通过 Gmail 发送大量电子邮件(或 批量电子邮件 )? 值得庆幸的是,有。 您可以通过以下 2 种方式使用 Gmail 快速免费地发送群发电子邮件。 …

群发邮箱软件哪个好?邮箱群发平台哪个好用?

日常使用邮箱办公的人员,经常会用到群发这个功能,群发邮件给客户、给同事,对于群发邮件来说,群发的数量应该是在首位的,其次就是群发是否可以正常的收到邮件,根据这两点,就可以判断出群发邮箱和…