拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!...

e41430b4a6902cb31b283784783300ac.gif

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

打不过就加入!

继去年 12 月 Stack Overflow 称 ChatGPT 生成的答案正确率非常低并决定宣布临时封禁 ChatGPT 之后,其开始以另一种身份加入这场 AI 竞赛中。

据外媒 Wired 报道,开发运行 ChatGPT 和 DeLL-E 等“病毒式” AI 工具系统可能会使得背后的公司如 OpenAI 花费数十亿美元,而 StackOverflow 正计划让这笔费用变得更高一些,其希望对使用自己平台数据进行训练的 AI 公司收费。

值得注意的是,现如今和 Stack Overflow 有着类似想法的公司也不在少数, 社交媒体 Twitter、新闻社区 Reddit 等也正有此意,在各方「画地为牢」之际,谁将为大模型的训练买单也成为行业内关注的焦点。

5ac498cc53fb31108f3ac5b9119d3766.png

大模型背后的大数据从何而来?

众所周知,ChatGPT、GPT-4、Google Bard、Bing Chat、LLaMA 等 AI 模型都需要基于大量数据集进行训练。

然而,数据从何而来,这些模型背后的开发商 OpenAI、Google、Meta 虽然从未正面解释过这一问题,但是据《华盛顿邮报》的一项调查显示,其中大部分是从互联网上抓取的。

为了验证这一点,《华盛顿邮报》分析了 Google 的 C4 数据集,其中包含了 1500 万个网站内容的快照,它也被用来训练 Google T5、Facebook 的 LLaMA 模型。

通过与艾伦人工智能研究所的研究人员合作,最终他们发现此数据集主要来自新闻、娱乐、软件开发、医药和内容创作等多个行业的网站,覆盖收集来自世界各地发布的专利文本的 patents.google.com、维基百科、仅供订阅的数字图书馆(scribd.com)、Medium,以及 Stack Overflow、Reddit 等平台也在其中。

来自这些网站的数据显然对 AI 模型公司而言非常具有价值,他们可以通过互联网成千上万的信息源,根据参数训练他们的大型语言模型(LLM),从而成功进行自然语言处理(NLP)。

0f8349035905f121d9e7b70f4e65c270.png

Stack Overflow 反向抵制 AI 模型

Stack Overflow 作为全球知名的编码论坛,为开发者提供协作与交流的环境,也是程序员讨论编码问题的主要聚集地。当前,市面上很多的 AIGC 都支持辅助编码、能够在理解用户提出的编码问题基础上提供生成式代码、甚至也可以捕捉 Bug 以及 Debug,而大模型之所以拥有这些能力,也有大量相关编码问题与数据集的支撑。

不过,随着 ChatGPT 等产品的到来,对老牌 Stack Overflow 这样的平台带来了巨大的冲击。在今年早些时候,也有媒体报道,Stack Overflow 惨遭程序员抛弃,其网站访问量与搜索量急剧下降。

根据营销平台 Semrush 的流量监测工具显示,近一年来,Stack Overflow 的访问量持续下滑。

da343c7c7597beed7b200677ce07489e.png

另一方面,以 Stack Overflow、ChatGPT、GitHub 为关键词,据 GoogleTrends 显示,Stack Overflow 的搜索量垫底。

c504e4885b95c8db9e468f3aafc1daf4.png

与之形成鲜明对比的是,很多大模型产品已经走向了商业化,如微软对其代码生成器 GitHub Copilot 的收费高达 19 美元/人/月、OpenAI 推出了每月 20 美元的 ChatGPT Plus 服务。

在这种趋势之下,Stack Overflow 想要绝地反击,便也不足为奇。据 Wired 报道,Stack Overflow CEO Prashanth Chandrasekar 表示,“Stack Overflow 计划最快在今年年中开始向开发大模型的开发者、公司收费,付费的群体才可以获得其服务中的 5000 万个问题和答案。”

为此,Prashanth Chandrasekar 也在 Stack Overflow 的官方博客上特地发表了一篇主题为《社区是人工智能的未来》的长文,分享道:

如今,建立在尖端大语言模型 (LLM) 之上的复杂聊天机器人只需一张在餐巾纸上画的草图照片即可为网站编写功能代码。他们可以回答有关如何构建应用程序的复杂查询,帮助用户调试错误,并在几分钟内在不同语言和框架之间进行翻译。

在 Stack Overflow,我们不得不坐下来问自己一些尖锐的问题。当用户可以像其他人一样轻松地向聊天机器人寻求帮助时,我们在软件社区中扮演什么角色?我们的业务如何适应,以便我们继续授权技术人员学习、分享和成长?

在 Prashanth Chandrasekar 看来,「人工智能系统的核心是建立在丰富的人类知识和经验之上。他们通过数据训练来学习——例如开源代码和 Stack Overflow 问答。」

基于此,Stack Overflow 想要推出 Stack Overflow for Teams 服务,决定向使用其数据的公司寻求赔偿,这属于维持社区蓬勃发展战略的一部分,无可厚非。

080ab393d44ed11298e518e597652511.png

Reddit、Twitter 同样想要对数据收费!

无独有偶,想要强硬地拒绝 AI 模型开发商“白嫖”的平台也不止 Stack Overflow 一家。

就在几天前,美国知名论坛社交平台 Reddit 宣布,它将从 6 月开始向一些人工智能开发者收取访问其自身内容的费用。Reddit 表示,API 访问收费的细节仍在敲定,价格预计在未来几周内公布。

除此之外,马斯克掌管下的 Twitter 也欲对大模型公司发起反击。在 3 月 26 日,Twitter 推出了自家最新的 API 价格结构,包含免费版、基础版以及企业版。

  • 免费版:只有使用 Twitter 登录的访问权限,以及每月仅提供 1,500 个发帖请求。

  • 基础版:每月 100 美元,可以获得 50,000 个发帖请求和 10,000 个阅读请求。

  • 企业版:并没有列出具体的价格。但是承诺提供“满足您和您客户特定需求的商业级访问”以及“[来自]专门客户团队的托管服务。” 不过,据外媒 Platformer 此前报道,企业版每月的费用可能高达 42,000 美元。

d87e2f49d3e0452ccd9f88df48634658.png

这意味着如果企业想要接入 Twitter API,用上面的数据来训练,需要付出一笔不菲的费用。

与此同时,马斯克还打算追究旧账,其认为 OpenAI 以及微软在 AI 模型方面的成功,离不开 Twitter 数据的贡献。为此,在上周微软宣布旗下 Smart Campaigns 广告服务不再支持 Twitter 之际,马斯克便留下威胁之语,称「他们使用 Twitter 数据进行非法训练。(现在是)诉讼时间。」

a62312f1327f6f072ca31bd350c1668a.png

77a40ee31282e16c531581a56b6af04f.png

StackOverflow:不是针对全员,只是针对大公司

在 Stack Overflow CEO Prashanth Chandrasekar 看来,"为 LLMs 推波助澜的社区平台绝对应该为他们的贡献得到补偿,这样像我们这样的公司就可以重新投资回我们的社区,继续使它们蓬勃发展"。

Chandrasekar 认为,潜在的额外收入对确保 Stack Overflow 能够不断吸引用户和维持高质量的信息至关重要。他认为这也将有助于未来的聊天机器人迭代,毕竟大模型想要与时俱进,必须要"在一些最前沿的知识上训练。而 Stack Overflow 需要不断创造新的知识"。

但是,将有价值的数据圈起来也可能阻止一些人工智能的训练,并减缓 LLMs 的改进。Chandrasekar 表示,开放适当的许可只会有助于加速高质量 LLM 的发展。

不过,据 Wired 透露,此次 Stack Overflow 和 Reddit 并非是想向所有 AI 模型公司“发难”,其还是会将继续向一些人和公司免费授权数据。

Chandrasekar 表示,“Stack Overflow 只希望从本着商业目的而开发 LLM 的公司那里得到报酬。当人们开始对建立在我们这样社区之上的产品收费时,这就是不公平使用的地方。"

另外,据《纽约时报》报道,Reddit 首席执行官 Steve Huffman 称,他不想给世界上最大的公司提供免费服务。他表示,「抓取 Reddit,产生价值,却不把这些价值返还给我们的用户,这是我们有意见的地方。」

434bf67dcd779a7c2292c373d938ad04.png

AIGC、大模型的下一步:该如何规范使用?

为此,不少业界人士认为,Stack Overflow、Reddit 对其聊天数据进行收费是似乎已经成为行业一种发展趋势,这也必然会对上游 AI 大模型厂商带来一定的影响。

毕竟每个 AI 模型开发商无不在寻求降低开发大模型的巨大成本,然而,如今他们不仅需要为巨大的算力付出代价,也还要为无法计算的数据量来买单。截至目前,OpenAI、Meta、Google 等公司均未予置评。

不过,继续想想,如果 Stack Overflow、Reddit 等平台索取费用成功,对于在其平台上免费撰写问题和答案的普通用户而言,似乎也有理由要分一杯羹了。

这一场围绕大模型、AIGC 训练引发的规范、付费问题的讨论也将愈演愈烈。

参考:

https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/

https://www.zdnet.com/article/stack-overflow-joins-reddit-and-twitter-in-charging-ai-companies-for-training-data/

https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

推荐阅读:

▶ 马斯克损失126亿美元,仍为世界第二富!网友:“公司太多的烦恼?”

▶ “F1 车王”昏迷 10 年能受访了?某杂志 AI 生成“舒马赫专访”惹众怒,涉事主编遭解雇

▶ 华为宣布实现自主可控的 MetaERP 研发和替换

8974ca85e8d2860162eade53e2fb6340.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17167.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT紧急下线联网模式,曾被曝能白嫖付费网页

克雷西 发自 凹非寺量子位 | 公众号 QbitAI 用ChatGPT白嫖网页付费内容,马上就要行不通了。 就在昨天,OpenAI宣布,暂时禁用ChatGPT的官方网页浏览模式。 虽然公告说的很隐晦,但此次功能下架,主要目的就是针对“翻越付费…

轻松白嫖GPT-4,已经标星38K,不再害怕高昂的AI模型费用!

文章目录 白嫖GPT-4当前可白嫖站点 白嫖GPT-4 计算机专业学生xtekky在GitHub上发布了一个名为gpt4free的开源项目,该项目允许您免费使用GPT4和GPT3.5模型。这个项目目前已经获得了380000颗星。 开源地址:https://github.com/xtekky/gpt4free 简而言之&a…

这3个网站能够让你白嫖GPT4

1、perplexity(https://www.perplexity.ai/) 特点: 1)保存试用上限5次GPT4,每4小时恢复1次 2)试用需连接外网谷歌账号 3)可以查看其他用户的提出的热门问题 4)可以开启对话线程。在…

王琤:当数据治理遇上ChatGPT

以ChatGPT为代表的人工智能等技术正在“狂飙”,为全球带来一场翻天覆地的变革。4月27日在2023数据治理新实践峰会上,Datablau数语科技创始人&CEO王琤先生以《数据治理新实践与人工智能》为主题进行了分享,与参会同仁共同探索当数据治理遇…

免费AI工具推荐:Chat8

最近很火的ChatGPT,很多人想尝试但都无从入手,这里推荐一款免费使用的国内平替ChatGPT的AI聊天工具【Chat8】。 【Chat8官网介绍】 Chat8 是一款基于OpenAi的ChatGPT3.5接口开发的聊天网站,旨在为用户提供高效便捷的沟通体验。相较于ChatGPT&…

马云:你们只关心我回不回国,而我却关心ChatGPT对教育的冲击!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 在中国互联网界,有两个人回国与否,牵动了成千上万人的神经。 一个是“明日回国贾跃亭”,另一个就是就是马云。 贾跃亭回国,遥遥无期。 但马云,则已经回国了。 根据…

业界讨论ChatGPT对教育带来的影响

连日来,ChatGPT在教育领域掀起了大讨论:有人大呼,学校教育被逼到了墙角;有人说,人工智能和ChatGPT让传统学校教育优势荡然无存;也有人批评说,ChatGPT算不得什么创新,比如图灵奖得主&…

ChatGPT对教育的变革与影响

我们所面临的挑战往往是我们最直接的痛点。那么,你是否曾经想过,教育可能正在经历一场由人工智能驱动的革命?是的,我说的就是ChatGPT,它正在改变教育的面貌。 回到2022年11月,OpenAI发布了ChatGPT。令人惊…

chatgpt赋能Python-python_member

Python Member:了解Python的会员机制 如果你是一个Python开发者,你可能已经很熟悉了Python的会员机制。Python Member是Python的会员计划,为Python社区激励开发者,提供更好的资源和支持。在这篇文章中,我们将详细介绍…

全方位AI工具集成,免费使用

全方位AI工具集成,免费使用 百家AI工具一应俱全 GPT问答,Midjourney绘图,自然语言处理等超过100种AI工具集成,覆盖全方位的需求。 可自由组合和自定义,打造符合自己需求的AI应用。 便宜使用,让你享受先进…

Bard!谷歌对 ChatGPT 的最强反击,悄咪咪的支持中文了!

“ ChatGPT、Bard,哪个是更好的AI人工智能大语言模型。” 01 — ChatGPT 这么火,而且这款产品是 OpenAI 以谷歌的大模型架构 transformer 为基础迭代的。谷歌自然不甘落后,早在3月份推出自家的人工智能大语言模型 Bard,只是当时还…

从今天开始,让AI成为你的贴身助理

在 ChatGPT、Whisper 和 Stable Diffusion 这样强大的 AI 技术出现之后,我们去学习任何新技术和新知识的方式也都应该改一改了。所以,我也推荐大家从现在开始,利用 AI 工具来改造你学习和工作的流程。通过将 AI 嵌入生活和工作的方方面面&…

Claude使用教程,解决Claude不能回复

Claude是ChatGPT最为有⼒的竞争对⼿之⼀,Claude 的研发公司是专注人工智能安全和研究的初创公司 Anthropic,由前 OpenAI 员工共同创立的。今年 3 月份 Anthropic 获得了谷歌 3 亿美元的投资,谷歌也因此获得其 10% 股份。 ⽬前可以通过官⽹加…

巴比特 | 元宇宙每日必读:重磅更新!ChatGPT推出插件功能,能联网、能搜索、能运算,强化版AIGC工具即将大量涌现?...

摘要:据财联社报道,OpenAI于3月24日宣布,部分解除了ChatGPT无法联网的限制。其CEO山姆•阿尔特曼(Sam Altman)表示,“我们正在开始推出ChatGPT插件,您可以安装插件来帮助完成各种各样的任务&…

复旦Moss团队:Moss参数规模约是ChatGPT的1/10;贾跃亭再获FF执行官身份;PowerToys新版发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

CSDN 创始人蒋涛对话北大谢涛:AI 正在变革软件工程

【CSDN 编者按】生成式 AI 的爆发已经开始改变很多行业的工作方式,但对于软件工程来说,转型早就开始。一位顶级华人学者在一篇16年前的经典论文中就已尝试用智能化的方式解决特定的软件工程领域的问题,在之后的十几年,这篇智能化软…

ChatGPT 点燃向量数据库赛道,刚刚,Zilliz Cloud 云服务重磅发布!

自 OpenAI 在去年 11 月发布 ChatGPT 以来,AI 市场被彻底引爆,国内外科技企业纷纷发布自家的 AI 大模型。国内大模型的发展也迎来前所未有之机遇,“百模”激战正酣。在刚闭幕的世界人工智能大会上,国内外科技公司全线加入&#xf…

会签是什么,何时使用会签,如何设计使用会签

一.会签 1.1会签定义 会签用于与本次审核内容相关的各有关部门进行协商并核签,简单地讲就是多方共同签署,对签字内容进行确认并签字,签字就意味着要负责、要为确认内容承担责任。 1.2会签与加签 会签是多人同时处理,加签是当前处…

SpringBoot实现电子文件签字+合同系统

大家好,我是宝哥! 一、前言 今天公司领导提出一个功能,说实现一个文件的签字盖章功能,然后自己进行了简单的学习,对文档进行数字签名与签署纸质文档的原因大致相同,数字签名通过使用计算机加密来验证 &…

SpringBoot实现电子文件签字+合同系统!

一、前言 今天公司领导提出一个功能,说实现一个文件的签字盖章功能,然后自己进行了简单的学习,对文档进行数字签名与签署纸质文档的原因大致相同,数字签名通过使用计算机加密来验证 (身份验证:验证人员和产…