还在对大模型做刷榜优化吗,错了!专业考试不是唯一基准

夕小瑶科技说 原创
作者 | 智商掉了一地、鹰钩鼻涕虫

自从推出 GPT-4 以来,OpenAI 并没有公布太多关于它的实现细节。虽然曾经 OpenAI 在创立之初就将自己定义为一家非营利的机构,并格外注重人工智能(AI)的安全和隐私。但理想很丰满,现实却很骨感,当因资金短缺而引入微软投资之后,也转变了自身的定位,为了有所回报也很难一直坚守初心,不再一直 open。

最近就有人发文对 GPT-4 模型进行了讨论和一定的批判,尽管 GPT-4 在各类专业执照考试中表现优异,但文章作者提出我们应谨慎看待这些结果。他们主张,即使语言模型在机器学习任务中表现优秀,这并不意味着它能像人一样处理和解决现实生活中的问题,因此,GPT-4 在标准化测试中的表现并不能准确反映其在实际应用场景中的表现。此外,他们还提出了要考虑训练数据污染的问题,并认为需要对机器学习模型进行更切实际的考核

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

文章速览

问题1:训练数据污染

GPT-4 在解决 2021 年之前的编程问题上表现很好,但在解决 2021 年之后的问题上表现不佳。如图 1 所示,这揭示出 GPT-4 可能记住了训练集中的解决方案。作为对这个假设的进一步证据,作者在 2021 年的不同时间测试了 Codeforces 的问题,发现它可以解决 9 月 5 日之前的问题,但不能解决 9 月 12 日之后的问题。

此外,他们还发现由于 GPT-4 存在记忆,因此对问题的措辞更为敏感,稍微改变问题细节就可能导致它的误判。他们批评 OpenAI 处理训练数据污染问题采用的子字符串匹配方法较为肤浅,尤其在问题名字和数字有所改变的情况下,这种方法容易受到训练集中存在的测试问题的影响。作者建议使用更精确的方法,如基于嵌入距离的方式。

同时,他们也认为,评估语言模型在现实任务中的表现存在问题,因为任何两个具有相似特征的问题(如律师资格考试题目或医学考试题目)在训练预料库中的存在可能导致对模型在实际应用场景中的表现被高估。

这个问题重点突出了在开发和评估 AI 程序时,需要考虑如何更好地模拟和应对真实世界的挑战,而不仅仅是解决在标准化环境下的问题。记忆和应对旧问题的能力当然重要,但开发出更强大、创新和适应性强的 AI 模型同样关键。

问题2:专业考试并不能有效比较人类和 AI 的能力

作者还强调了,标准化测试并不能准确地比较 AI 和人类的能力,因为机器学习模型在处理新问题时,其处理策略主要基于它的训练数据,而非独立思考或深度推理。对于涉及新技术或新的司法决定的复杂问题,AI 可能无法给出满意的答案,因为这需要深度思考和实际世界的理解,这些是目前 AI 所缺乏的。

尤其值得一提的是,如律师资格考试等专业考试往往更强调主题知识,而忽视了实际能力的测试,这正是 AI 模型所擅长的。因此,使用这种方法来评估并比较 AI 和人类可能会产生误导。

此外,作者批评了对于 AI 评估过度依赖基准测试,以及将复杂的评估简化为单一数字的做法。在对人类和 AI 进行比较时,这种做法可能会导致错误信息的产生。

最后,该段落指出 OpenAI 过于依赖这种测试方法来评估 GPT-4,并未充分解决数据污染问题。

这反映了许多 AI 评估和比较的固有问题和挑战。进一步的研究和创新可以在这个基础上找到更好的方式,有效比较和评估 AI 和人类的能力,同时也能够更准确地揭示 AI 的实际应用的可能性和局限性。

评估专业影响的更好方式

人们在工作期间可以上网,但在标准化考试期间却不行。因此,如果语言模型能够与能访问网络的专业人员的表现相匹配,那么这将是对它们是否实际有用的更好的测试。

但这仍然是一个错误的问题。我们应该衡量语言模型完成专业人员必须完成的几乎所有现实任务的能力,而不是单独的基准。例如在学术界,我们经常会遇到充满我们不熟悉领域术语的论文,如果 ChatGPT 能够以一种更容易理解的方式准确地总结这样一篇论文,那将非常有用。有些人甚至在测试这些工具是否可以进行同行评审,但这也很容易陷入对训练数据进行测试的陷阱。

把这个问题框定为专业人员和 AI 之间的比较的研究是错误的,ChatGPT 可以取代专业人员的想法仍然是牵强。相反,我们需要真正评估专业人士使用 AIGC 工具完成工作的研究

两项早期研究或许可以带来灵感:

  • 一项研究着眼于 GitHub copilot 的编码;
  • 另一项研究着眼于 ChatGPT 的写作协助。

在这个阶段,我们更需要定性研究,而不是定量研究,因为这些工具都很新,以至于我们甚至不知道如何提出正确的定量问题。这只是说如果不定性地理解专业人士如何使用 AI,很多指标就没有意义。

小结

尽管目前看来 GPT-4 对我们的生活和工作来说利大于弊,但总体来看,这篇文章对 GPT-4 的性能提出了谨慎的看法,并建议大家应更实际地看待语言模型的能力和应用。

在近期 AI 科技革新的进程中,GPT 系列技术的带来的突破无疑是影响广泛的。然而,在沉浸在其模型强大的喜悦中时,我们更应该关注对技术的使用方法和其如何更好地服务人类这两个问题。这正是 OpenAI 最初创立时的原则,但现如今,这个理念在 LLM 的迭代过程中似乎变得越来越模糊,许多团队致力于为打榜而打榜,而忽视了这个模型究竟该如何去使用以及怎样更好地服务于人类。

毫无疑问,确保我们坚守这个原则的一种方式就是每次对语言模型进行基准测试的时候都创建新的测试,或者将基准评估集严格保密。这就是OpenAI在其大部分基准测试中做的,它采用了公开可用的测试,唯一例外的是律师资格考试。虽然关于如何制定这个考试的细节并不具体,但 OpenAI 提到了他们在 Casetext 和 Stanford Codex 的帮助下进行了新的考试。

尽管如此,即便是 LLM 得以实现令人满意的同行评估,并不意味着它在伦理上可被接受,或者在实践中具有实用性。论文得到好评并不一定凭借其实质内容,相反,它可能通过对模型的对抗性优化来获取。这再次凸显了我们必须始终关注的问题:如何利用这项进步的技术让科技更好地为人类服务,而不是滥用技术去追逐虚假的成就标准。而这,也正是我们每个人都必须牢记的技术发展的初衷。

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18023.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软 CTO 断言,明年是AI社区最激动人心的一年,网友:GPT-4 要来了?

来源:AI前线 整理:褚杏娟 核子可乐 GPT 不出,AI 万古如长夜。 “对于人工智能,2022 年是有史以来最激动人心的一年。”微软首席技术官 Scott Stein 在近日的分享中说道,但他还自信地表示,“2023 年将是 AI…

英伟达、Google与Adobe陆续推出AI模型,未来还会有多少职业会被取代?

3月21日晚,关于GPT的热点依然在继续。 在一年一度的GTC大会上,英伟达发布了新显卡H100 NVL,它拥有双GPU NVLink与188GB HBM3内存,专为算力需求巨大的ChatGPT而设计。 Adobe Premiere的傻瓜式插件Runway Gen 2也首次披露&#xff0…

【大模型】—LangChain开源框架介绍

大模型——LangChain开源框架介绍 2023年可以说是AI大语言模型发展元年,随着OpenAI的ChatGPT和GPT-4的发布,点燃了人工智能大语言模型的发展浪潮,各大科技公司纷纷推出了自家的大语言模型产品,各国更是将大语言模型的发展作为人工…

程序员变高危职位!又一个删库跑路进去了

上一篇:中国各城市首轮感染高峰期预测! 最近又有一个同行为了泄私愤,又删库跑路了。(我为什么要加个“又”?) 一提到「删库跑路」,大众肯定最新会想到程序员群体。 没错,我们手上握着…

【电商AI工具一期】AI引领电商新风潮:20款AI电子商务工具盘点,让你实现财富增长!

注: 本文可自由转载 0. 未来百科 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的…

如何使用ChatGPT帮助孩子辅导作业?

如果您对自媒体内容感兴趣,关注公众号:色宁AI,发送邮件给tiktok_top_listshsening.com即可加入邮件列表,可免费获取youtube/tiktok top100热门视频名称和链接,每天免费发送,每天免费发送,每天免…

面对ChatGPT的挑战,教育如何接招?

面对以ChatGPT为代表的AI所带来的挑战,教育必须看清未来趋势,要不然费劲心思育人,就如同埋头苦干造了一艘船,过了几十年却发现旅行目的地是沙漠一样无用。 为此,上海市教育委员会副主任倪闽景提出,教育改革…

如何借力ChatGPT辅导孩子学习和成长

ChatGPT云炬学长 公众号:云炬网络 ChatGPT不仅可以成为一名优秀的教师,甚至可以成为教育大师,让您的孩子直接与教育大师对话、学习、进步。 这在AI 2.0之前,是无论如何也无法想想的。 下面,就让ChatGPT成为下面4位…

ChatGPT对未来教育的影响:教师学生需要掌握这个新能力

美国人工智能公司OpenAI的大语言模型ChatGPT在推出约两个月后,1月已达到1亿月活跃用户,成为历史上增长最快的消费者应用程序。 目录 01.诞生过程 02.背后的技术 03.颠覆的行业 04.对教育的未来变化 01.诞生过程 2018年6月,拥有1.17亿参…

用 Python 实现 OpenAI 余额查询功能

大家开发完 OpenAI 的产品后经常需要关注费用情况,也有很多网站支持输入 api_key 查询余额。 但是,你真的敢用么? 这里教大家自己用 python 写一段查询 openai key 的代码,如下: import datetime# 用您的 API 密钥替…

关于chatGPT、AI绘画、AI提示词等AI账户积分用完获取的办法

账户余额充值教程 11、如果对应的AI工具余额不够了,只需要点击上面的RECHANGE充值对应的账户即可。例如:我这里以充值ChatGPT账户为例子。 11.1点击RECHARGE CHATGPT 11.2、点击…

2023商业版ChatGPT网页版源码V4.7.2+新增后台查KEY余额功能

正文: 4.7.2版 新增后台批量查KEY余额 修复邮箱可反复注册的BUG 优化前端UI手机端小BUG 修复SQL语句执行错误 修复数据库用户注册后密码明文显示BUG 安装教程: 搭建宝塔 解析域名 上传程序至根目录 配置数据库信息:lib/config.php 导入数据库 PHP选择:7.3 访问网…

2023最新ChatGPT余额查询网页源码+实测直接用/已配置API接口

正文: 实测可用,界面轻量级,接口已配置,直接用就可以了,有需要的可以自己拿去安装查询吧,是html的,不用上传到服务器也可以用。 程序: wweorg.lanzout.com/iLZ9K0v1fjzc 图片:

ChatGPT 余额查询接口

接口地址: http://freeapi.club:9001/openai/apikeyBilling/2/sk-xxxx 请求类型: get 参数说明:2 为最近几天的使用情况。结果中会有最近2天内各种模型使用的token数量 sk-xxxx 为你的apikey 浏览器可以直接访问,结果json格式化一下就好。 {"u…

智能优化算法:CEC23组常用测试函数公式介绍

智能优化算法性能比较:常用的23组测试函数 文章目录 智能优化算法性能比较:常用的23组测试函数1. 单模态的基准测试函数2. 多模态的基准测试函数3. 复合基准测试函数4. 测试函数代码5. 智能优化算法的性能对比5.1 对比结果在智能优化算法的性能比较过程中,经常会需要用到一些…

LaTeX 免费神器!再也不怕复杂的公式了

(给程序员的那些事加星标) 综合整理:算法爱好者(ID:AlgorithmFans) 推荐一个免费神器 Snip,能把各种公式转成 LaTeX。 下载链接: https://mathpix.com/ 简单易用 1、快捷方式启动 2、…

如何使用BBP公式直接计算π的第n位

使用BBP公式可以直接求得十六进制π的第n位而不需要计算前n位的数(讲道理,我认为是可以计算十进制的第n位的,毕竟其本身就能直接计算出十进制的π,但我没试),其优点在于可以进行分布式计算,即将一个耗时的运算拆分成若…

成功率100%的通达信指标公式,你敢相信吗?

前几天,有人问能不能把通达信副图公式改成选股公式。我把指标公式加载到副图(如上图),发现这个指标真是牛了,成功率100%,发出信号的之后两天,总是能涨。难道找到了交易的圣杯,如果按…

能正常支付的的虚拟信用卡汇总

前言 OpenAi采用的是Stripe Checkout进行付款,理论上支持大多数卡种,包括Visa、万事达和银联等。然而,由于OpenAI在Stripe中限制了部分国家的银行卡支付,因此可能会出现一些支付问题。最近您尝试使用了不少卡种,包括实…