Science:AI竞赛,学界正在输给业界

【编者按】人工智能(AI)正在向业界倾斜。相比于学界的前沿性研究,风靡当下的 AI 聊天机器人 ChatGPT、AI 艺术生成器 Midjourney,以及微软发布的新一代 AI 驱动搜索引擎 New Bing、谷歌发布 ChatGPT 竞品 Bard 和那些未来将要发布的“类 ChatGPT”等,似乎正在预示着一场更大、更系统的变革。

尽管消费者能够从业界的这些成果中受益,但伴随而来的是全球决策者的担忧——重要 AI 工具的公共科技替代品可能会越来越稀缺

2023 年 3 月 3 日,来自麻省理工学院、弗吉尼亚理工大学的研究团队在权威科学期刊 Science 上发文,阐述了业界在“数据、算力与人才”方面的优势,并探讨了业界的这些优势可能带来的隐患,以及可行的对策。

a1dfe244ceef73d346496d1f8e02080f.png

(来源:Midjourney)

学术头条在不改变文章原意的前提下,对原文进行了精简与编译。


几十年来,AI 研究在学界和业界并存,但随着深度学习成为该领域的领先技术,平衡正在向业界倾斜。我们常常看到业界 AI 的成功,如 DALL·E 2、ChatGPT、new Bing 等。

然而,这些头条新闻预示着一场更大、更系统的变革:业界正在占据 AI 研究的主导地位,从大型数据集、计算能力和高技能研究人员三方面支配着 AI 投入。这种支配正在转化为一系列研究成果:业界在学术出版物、尖端模型和关键基准方面的影响力越来越大。尽管消费者能够从中受益,但伴随而来的是全球决策者的担忧——重要 AI 工具的公共科技替代品可能会越来越稀缺


27577ef63bf6906d1581687614d62856.png

业界的投入优势:数据、算力与人才

业界长期以来更能够访问大型、具有经济价值的数据集,因为大量用户与设备交互时会自然而然地产生数据。例如,在 2020 年,WhatsApp 美国用户每天发送大约 1000 亿条消息。然而,业界的主导地位除了凸显在数据之外,更是扩展到了现代 AI 的其他关键投入:人才和计算能力

在过去十年中,AI 人才的需求骤升导致了 AI 人才竞争的加剧。然而,业界正在赢得这场竞赛。来自北美州的众多大学的数据显示,专门研究 AI 的计算机科学(CS)博士毕业生正以前所未有的数量进入业界。2004 年,只有 21% 的 AI 博士进入业界,但到 2020 年,这一数量占比高达 70%

4b8926c0df30dc59f67fc738c26e5f3f.png

专门研究 AI 的 CS 研究人员也从大学被聘请到业界工作。自 2006 年以来,这一招聘人数增长了 8 倍,远高于 CS 研究人员的整体增长。这种担忧并不局限于美国的大学。在英国,华威大学国王十字校区院长 Abhinay Muthoo 表示,“顶尖的科技公司正在汲取大学的精华”

c7953d01751b3f811454f8a3e09078cc.png

学界和业界的算力使用也呈现出越来越大的差距。在图像分类中,业界使用的算力比学界或业界-学界合作使用的更大,并且增长更快。研究运用参数数量(所需算力的关键决定因素之一)来代替模型中使用的计算能力。2021 年,业界模型的平均规模是学界的 29 倍,突显出两组计算能力的巨大差异

a3b06f2511881d9dc8ba49e17215c065.png

业界雇佣人才和利用更大算力的能力很可能是造成 AI 研究成果差异的原因。虽然公共和私营部门在 AI 方面的投资都在大幅增加,但业界的投资更大、增长更快。2021 年,非国防的美国政府机构在 AI 行业拨款 15 亿美元。同年,欧盟委员会计划支出 10 亿欧元。

相比之下,同年全球范围内,业界在 AI 上的支出超过了 3400 亿美元,大大超过了公共投资。例如,2019 年,谷歌母公司 Alphabet 在其子公司 DeepMind 上花费了 15 亿美元,这只是其 AI 投资的一部分。在欧洲,这一差距较小,但仍然存在;AI Watch 估计,“私营和公共部门分别占欧盟 AI 投资的 67% 和 33%”。

开展 AI 研究所需资金规模的一个例子来自 OpenAI,它最初是一个非营利组织,声称“不受产生财务回报的约束”,旨在“造福整个人类”。四年后,OpenAI 将其定位改为“有上限的营利组织”,并宣布这一改变将使他们“迅速增加对算力和人才方面的投资”。

ad1969459537acadbb780488fa750093.png业界在 AI 研究中日益占据主导地位

如今,业界对 AI 输入的主导地位表现在 AI 成果的日益突出,尤其是在研究发布、创建最大模型和超越关键基准方面。在主要 AI 会议上,由一位或多位业界联合作者撰写的研究论文从 2000 年的 22% 增长到 2020 年的 38%;业界在最大的 AI 模型中所占份额已从 2010 年的 11% 上升到 2021 年的 96%

abe5c12ab3e9c5a1b96accda27951f1a.png

在 AI 基准方面,纵观图像识别、语义分析、语言建模、语义分割、对象检测和机器翻译 6 个方面,以及涵盖机器人和常识推理等领域的另外 14 项基准,在 2017 年之前,业界单独或与大学合作,有 62% 的时间处于领先地位。自 2020 年以来,这一比例已上升到 91%

35f3480ced7bf07cac8d7110320676dc.png

因此,通过在领先的研究机构发表文章、建立最先进的 AI 模型以及超越关键基准三个方面衡量,分析表明,业界在 AI 产出方面的地位越来越突出。

937d19c4e1fcbcc556c8ec457a758f1e.png业界的压倒性优势带来隐患

业界对 AI 的投资不断增加,可能通过技术的商业化为社会带来巨大利益。公司可以创造更好的产品,使消费者受益——机器翻译有利于国际贸易,并能简化流程降低成本。业界对 AI 的投资还产生了对整个社区有价值的工具。例如,学界广泛使用的 PyTorch 和 TensorFlow,促进深度学习模型高效训练的硬件如 TPU,以及可公开访问的预训练模型——Meta 的 OPT 模型。

与此同时,AI 在业界中的集中也令人担忧,业界的商业动机促使他们关注以盈利为导向的话题。如果所有的前沿模型都来自业界,就会出现不存在具有公共意识的替代品的情况。换句话来说,“优先部门的 AI 研究人员倾向于专注于数据要求高和计算密集的深度学习方法”是以“涉及其他 AI 方法的研究、考虑 AI 的社会和伦理影响的研究以及在健康等领域的应用”为代价的。

AI 的发展轨迹如何?谁来控制它?AI 会替代人类吗并引发不平等吗?一些研究人员担心,“我们可能正走向社会次优轨迹,它更侧重于替代人类劳动,而不是增强人类能力。”一些人展开想象:业界和学界可能会形成与其他学科类似的分工:基础研究主要由大学完成,而应用研究和开发则主要由业界完成。

然而,在 AI 领域,产学的明确分工并不存在。业界所使用的应用模型往往是那些突破基础研究边界的模型。例如,transformer 是由谷歌大脑研究人员于 2017 年开发的一种深度学习架构,使得基础研究向前迈出重要一步,并且几乎立即应用于业界使用。尽管这意味着学术工作可以直接惠及业界,但是应用工作的业界主导权也赋予了它决定基础研究方向的权力。

鉴于 AI 工具可以在整个社会中得到广泛的应用,这种情况将使少数技术公司在社会发展方向拥有巨大的权力。对于世界上许多人来说,这种担忧进一步加剧,因为这些组织对他们来说是“外国公司”。例如,生命未来研究所认为,“欧洲公司没有开发通用 AI 系统,而且由于他们与美国和中国公司相比在竞争上处于相对劣势,不太可能很快开始开发”。

1a787379fc19ec5bfeb0d9a4267fb726.png

学界重塑 AI 前沿的可行之路

通过对业界 AI 的审查或外部监督,监管可能是解决方案。例如,2018 年,学者 Joy Buolamwini 和 Timnit Gebru 记录了商业人脸识别系统中的性别和种族偏见。然而,如果学界不能接触到业界的 AI 系统,或者没有资源来开发竞争模型,他们解释业界模型或提供公共利益的替代方案的能力将受到限制。

这既是因为学界无法建立尖端性能所需的大型模型,也是因为 AI 系统的一些有用的能力似乎是“涌现”的——系统只有在特别大的时候才能获得这些能力。模型的一些负面特征似乎也随着规模的增加而扩大。例如,AI 生成的语言中的毒性以及刻板印象。在任何一种情况下,没有足够资源的学者都无法对这些重要领域做出有意义的贡献

在全球范围内,这种对学界在 AI 研究中的资源劣势的担忧正在被认识到,并开始出现政策应对措施。在美国,NAIRR 工作组提议创建公共研究云和公共数据集。在加拿大,国家高级研究计算平台一直在为该国的学界服务,自从近十年前启动以来,一直被超额使用。

对许多国家来说,这类投资所需的规模可能令人望而生畏。在这种情况下,决策者面临的关键问题将是,他们是否能够与志同道合的合作者一起筹集足够的资源,以达到创建反映自己优先事项的 AI 系统所需的规模。

算力并不是提供补救措施的唯一领域,构建公共数据集将非常重要。但是,这并非易事,因为现代 AI 训练数据集可以是数十亿份文档。特别值得关注的是,创建没有直接商业利益的重要数据集,以及提供资源让顶尖 AI 研究人员留在学界。例如,加拿大研究主席计划(CRCP)通过提供工资和研究基金吸引加拿大顶尖人才。

对于致力于这一问题的决策者来说,目标应该是确保有足够的能力来帮助审查或监控业界模型,或生产出符合公众利益的替代模型

有了这些能力,学界可以继续塑造现代 AI 研究的前沿,并为负责任的 AI 制定基准。若没有这些能力,重要的公众兴趣 AI 工作将被抛弃。

参考链接:

https://www.science.org/doi/10.1126/science.ade2420

|点这里关注我,记得标星|

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7965.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

A Survey on Evaluation of Large Language Models

这是LLM相关的系列文章,针对《A Survey on Evaluation of Large Language Models》的翻译。 大型语言模型评价综述 摘要1 引言2 背景2.1 大语言模型2.2 AI模型评估 3 评估什么3.1 自然语言处理任务3.1.1 自然语言理解3.1.2 推理3.1.3 自然语言生成3.1.4 多语言任务…

深度长文|详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来

来源:工业互联网研习社 作者:陈巍博士,曾担任华为系自然语言处理(NLP)企业的首席科学家,文章首发于「先进AI技术深入解读」 工业互联网浪潮来袭,你准备好了吗? 每一代GPT模型的参数量…

一个 ChatGPT,还能养活多少 AI 新老板?

内容一览:当下,国内 AI 创业十分火爆,截止目前加入这个阵营的已有贾扬清等多位明星创业者。然而,这次 ChatGPT 的出现能否打破国内 AI 公司缺少规模化落地的创业「魔咒」? 本文首发自 HyperAI超神经微信公众号~ 刚刚过…

爆火的 ChatGPT 太强了!写代码、改 bug,网友:可取代 Stack Overflow 了

OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句,一会儿功夫它就能把问题给你解决了。例如用户要求:「C…

you-get: 用户账户异常、请重新登录

刚开始还能下载的,后面就不行了,一直出现这个异常。不知道什么原因?无法解决,求助各位!

万字干货!ChatGPT 从零完全上手实操指南!(一)

阅读提示: 1.文章大约10000多字,文章内容硬核,需要你集中注意力,不建议碎片化阅读,请预留出30分钟的整块时间。 2.本文是一套完整的知识体系,文章不会上来就直接扔你一个解决方案,而是会从『是…

ChatGPT实现语义分析情感分类

语义分析情感分类 我们从开源社区找到了中科院谭松波博士整理的携程网酒店评论数据集(https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv)。一共七千余条数据,包括 label 和 review …

GPT4和Claude100k测试使用

总述 程序员们通常使用大量代码,找到一个能够使用Claude100k和GPT4的,长代码优化有希望啦! Liaobots:支持GPT4和Claude100k 不定期供应GPT4 32k,支持最多24000字符请求 大家有时候会觉得GPT4 8k不够用,…

ChatGPT之后我们要做什么?丨文本生成中的知识和控制

导读 ChatGPT出现后,语言理解与生成质量较之前有显著提升,但在知识性、逻辑性、可控性、可解释性方面仍然存在一些问题。如何让现有的聊天机器人拥有人类对话中丰富的先验知识?如何让生成的回复具有更强的交互性?针对这些问题&…

ChatGPT会对我们日常生活带来什么影响?这些技术会改变我们学习阅读工作方式吗?

ChatGPT会对我们日常生活带来什么影响?这些技术会改变我们学习阅读工作方式吗? AI 这个话题很火,我也一直在关注着,很多人甚至觉得 AI 会改变世界,也许你会好奇:ChatGPT 会在三年内终结编程吗?A…

独家演示全开源全新彩虹晴天多功能系统源码/知识付费系统/虚拟商城系统/完美可用

正文: 独家演示全开源全新彩虹晴天多功能系统源码/知识付费系统/虚拟商城系统/完美可用。直接服务器打包,分享给需要的小伙伴。 云盘: http://zijieyunpan.cn/LXMc0EenE4J 图片:

教授专栏48 | 熊辉: 浅谈ChatGPT

文 / 熊辉教授 触类旁通&天外飞仙 从上世纪90年代到现在,我一直在做大数据相关的研究,包括如何通过data Driven人工智能进行商业开发等,整个学术生涯都是围绕着人工智能大数据而进行的。我认为,做任何事情之前,一定…

【送书福利-第九期】《用ChatGPT与VBA一键搞定Excel》

大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员。关注公众号【程序员洲洲】即可获得10G学习资料、面试笔记、大厂独家学习体系路线等…还可以加入技术交流群欢迎大家在CSDN后台私信我! 本文目录 一、前言二、内容介绍三、作者介…

用ChatGPT处理Excel问题,工作效率狂升!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>CV微信技术交流群 转载自:机器之心 精通 Excel 或许不再是简历亮点了。 ChatGPT 自去年 11 月 30 日 OpenAI 重磅推出以来,这款 AI 聊天机器人迅速成为…

如何在EXCEL中运行ChatGPT,从此不再需要记函数

文章目录 目录 文章目录 序言 如果你可以直接使用chatGPT 如果你不可以直接使用chatGPT 序言 Excel是处理大量数据非常有用的工具。然而,找到并实施正确的公式有时可能是一个复杂和令人沮丧的经历。幸运的是,ChatGPT可以成为一个优秀的助手&#x…

【视频课程】算法工程师需要的ChatGPT大模型算法理论与实践课程!非粗浅科普...

前言 自从2022年11月ChatGPT发布之后,迅速火遍全球。其对话的交互方式,能够回答问题,承认错误,拒绝不适当的请求,高质量的回答,极度贴近人的思维的交流方式,让大家直呼上瘾,更是带火…

chatgpt 与传统3D建模对比分析

推荐:将NSDT场景编辑器加入你的3D工具链 随着人工智能技术的发展,越来越多的领域正逐渐被AI模型所取代。ChatGPT作为一种自然语言处理技术,越来越为人们所熟悉。最近,一些3D建模领域的专家想知道ChatGPT是否可以取代传统的手动3D建…

太强了!吴恩达的 ChatGPT 视频课程来了,完全免费,中文版出炉!

点击关注公众号,Java干货及时送达 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 终于把 Spring Boot 3.0 写成书了! 转自 | Datawhale 教程背景 最近,吴恩达官宣了一个好消息&#xff1…

❤️ ❤️ ❤️ 爆:使用ChatGPT+Streamlit快速构建机器学习数据集划分应用程序!!!

❤️ ❤️ ❤️ 爆:使用ChatGPTStreamlit快速构建机器学习数据集划分应用程序!!! ChatGPT 对于 Python 程序员有用吗?特别是我们这些使用 Python 进行数据处理、数据清洗和构建机器学习模型的人?我们试试就…

炸锅了!又一 VSCode 神器面世!!!

来自机器之心 在项目开发中,优秀的代码自动补全工具可以提升工作效率。然而,传统的 IDE 基本都使用搜索方法进行补全,在一些场景下效果不佳。 GitHub 和 OpenAI 联合发布了新的 AI 代码补全工具 GitHub Copilot,并展示了技术预览版…