AI开始卷高考了,英语已被卷到134分??

90b5effebdadb166553b4fbc152d3076.png

文 | 天于刀刀

AI 真的太卷了!不但模型之间互相卷,现在直接开始和人类学生一起卷高考了!

近期,来自 CMU 两位学者提出的重构预训练模型(reStructured Pre-training, RST)在只有 GPT-3 十六分之一参数量的情况下,在2022年高考全国英语卷上豪取134分,碾压 GPT-3 的同时也远远超出了人类学生的英语平均分,正式加冕为人工智能第一实验中学大模型班的第一学霸。

人家的学习成绩不但是今年的表现相对出彩,还能稳定在130分上下,历年最高分还拿到过138.5分,听力和阅读理解都是满分!

从下表中可以看出 RST 在听力、完形填空和阅读部分碾压了 GPT-3,并且在写作部分和 GPT-3 相差无几,总分平均分高出15分!

在这里小编想安慰一下 GPT-3,咱今年考得不理想没关系,记得回家后让 OpenAI 买一套最新版的《五年高考三年模拟》,我们来年再卷!

ac3e7ec544895ef6c864cad28bf5b55e.jpeg

可有时候气人的是,哪怕你刷再多的题(更多的数据用于训练),也架不住人家 RST 天生比你骨骼清奇啊(参数量少,更轻量级)!

在文章中,作者详细地阐述了她是基于什么思想,如何构筑训练数据,以及怎样训练模型结构的。

让小编惊喜的是,作者不仅仅是介绍了 RST 模型和高考英语测试系统 Qin,同时还提出了自然语言处理技术进化假说等综述性的结论,再搭配上其精美的手绘漫画配图,非常适合作为今年 NLP 前沿技术的科普文章。

9edfcdee810748467eb90fd932ceabbc.jpeg

接下来,让我们通过文章[1],来探究 RST 如此优秀的原因。

ea09a8fc44e50c9d00d5b2621cceb7a3.jpeg

在这篇文章中,作者提出了一些新方法论,新的数据集[2]和代码[3]资源,新的高考英语测试基准[4],和新的表情包[5]。

让我们向作者致敬!

55000c25a00b060a10181e13b47a12d1.png

文中用一句话总结了自然语言处理技术的发展。

技术的迭代方向总是朝着系统开发者可以做更少的事去完成一个更好的更通用的系统。

这话说着有些拗口,但是这基本概括了自然语言处理技术的进化脉络。

  1. 在标签数据上的特征工程 feature engineering(监督学习);

  2. 使用特定结构的神经网络进行训练的结构工程 architecture engineering(预训练-微调-无上下文);

  3. 基于上下文的无监督预训练大模型 objective engineering(预训练-微调-有上下文);

  4. 注重零样本或少样本表现的泛用预训练大模型 prompt engineering(预训练-提示-预测)。

基于上面的种种思想,作者提出自然语言处理下一步的发展方向应该为:

  1. 强调数据储存和调用的预训练大模型 data engineering。

69dbc1607ce0fcd76c638b19fe41a585.jpeg

作者认为,在当今 NLP 领域中预训练大模型大行其道的时候,我们不能一股脑地堆积更大的模型和更多的数据,而需要考虑获取模型中数据信息的便利性。

简单来说,预训练大模型完成了对数据的储存和积累(data storing),而在下游任务中我们需要调用模型中的数据信息(data accessing)去解决业务。

在上图中可以看到,作者将预训练大模型类比为人脑和传统的数据库,都是数据储存的一个媒介。

而在进行数据检索的时候,人脑依靠的是思考,数据库依靠的是 SQL 语言,而预训练大模型则依靠的是 prompt。

但问题在于,同样是机器储存数据,我们知道使用 SQL 语言查询数据库的结果远比 prompt 来的更准确、更快速和更具有可解释性。

当前 prompt learning 的技巧并不能完全达到“所查即所得”的效果,同时不同下游任务中模型在预训练步骤中储存数据的方式也是不透明。

也就是说,下游任务并不知道使用何种 prompt 可以更好地从大模型中获取想要的结果。

(prompt 工程师上大分)

195dca2c0d6e5fc57196f5a1b74ee0d6.jpeg

那么作者是如何解决这个问题的呢?

一言以蔽之,所有的诀窍就在模型的名字中:重构 + 预训练

为了最大化地利用现有的数据,作者将数据看作是由各种信号(signal)组成的,并且需要:

  1. Identify:在信息的海洋中定义和发现这些信号;

  2. Restructure:将各种信号重组为统一的格式让模型进行预测训练;

  3. Pre-train:选择预训练结构,并通过训练的方式储存数据;

  4. Fine-tune:使用结构化数据进一步微调以适应下游任务。

我们很少在文章中见到“信号”这种描述,小编感觉就是一个数据对的意思。

例如(“我喜欢夕小瑶,她是一个优雅的算法女神”;“夕小瑶”)就可看成是一个命名实体识别的信号。

作者在文中调研了许多不同的数据集,并且给出了他们对应所包含的信号样本。(如下图)

5cfecf8420334ea95aa32f577cfa8930.jpeg

历尽千辛万苦获得信号后,下一步就是将其组合成一个统一的固定格式。

作者将信号分为两个主要类别:普通信号任务相关的信号

普通信号包含基础的语言知识,泛用性强,而任务相关的信号则有利于某些特定的下游任务。

对于普通信号来说,通常都是一些完形填空的类型,因此输入和输出可以采用互补的方式。

例如我们现在有一个普通信号:(夕小瑶是一个< X >的< Y >,< X >|< Y >,优雅 | 算法女神)。

那么我们的输入为“夕小瑶是一个< X >的< Y >”, 输出为“< X >优雅< Y >算法女神< Z >”。

对于任务相关的信号来说,我们可以使用选择式生成式的方式进行重组。

例如在情感分类任务中,选择式重组的结果为:“我喜欢夕小瑶。这句话是‘积极的’还是‘消极的’?”

而生成式重组的结果往往是:“我喜欢夕小瑶。请问这句话的情感倾向是什么?”

作者使用特殊标记“ TEXT: ”和“ QUERY: ”来区分普通文本和目标任务。同时对于每一个信号,作者构造了多种 prompts,使模型可以学习到多种提问的方式。

814d24c506274e2bafef812a7fdb4cc7.png

由于篇幅关系,后续的数学公式推导和附录中大段的 prompt 构造就不再一一介绍了。

感兴趣的同学可以自行查看原文,不要被112页的篇幅所吓到,正文部分基本到38页左右就结束了。

小编刀刀在阅读完全文后,感触最深的就是作者大胆地提出了对第五范式的猜想,基于当前流行的 prompt 思想,进一步想到了重构数据集,最终以达到 prompt in prompt out 的类似 SQL 查询的效果。

不论作者的猜想是否被最终印证,我想说当前业界的共识就是数据代表了一切,同时数据也是模型最大的提分点。

文中还曾提到,作者希望该英语测试系统可以帮助老师批改作业,指导学生学习进步,甚至可以在最后实现教育公平的目的。

在这个场景下,对于模型的可解释性其实有着较高的要求。

或许我们可以从 prompt 的不同构筑中,来进一步提高模型的表现。

但是很多情况下,深度学习模型很难做到保证一个稳定的、高水平的和可解释的输出结果。

小编期待能看到,之后作者就该模型的可解释性设计更多的实验(例如不同的 prompt 是否会有不同结果?),或者是真的设计一个仿真实验,来模拟评判人工智能是否真的能够辅助学生和老师的英语学习。

6b0667b2a2950c0add34ba843e4b0464.jpeg

彩蛋小剧场:

(交稿了)
刀刀:写完啦,顺便想探讨下第五范式真的会是 data engineering 么 orz
刀刀:(typing)我觉得在 NLP 里数据不是一直很重要么,之前...
小瑶:第五范式不是降本增效吗(歪头)
刀刀:(删除删除) 
刀刀:夕总说的对啊!

450e36b94b0e17f24931f93f9ca7eb71.png

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

2e2a95f4c95bb8aa59c23b128ffa9544.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

09fb3985f838dd13bfad599be8ab5e88.png

[1] reStructured Pre-training, https://arxiv.org/abs/2206.11147

[2] reStructured-Pretraining, http://github.com/ExpressAI/reStructured-Pretraining

[3] rst-all-llb, http://huggingface.co/XLab/rst-all-llb

[4] Explainable Leaderboards (GaoKao), https://explainaboard.inspiredco.ai/benchmark?id=gaokao

[5] XLab emoji, http://expressai.co/peripherals/emoji-zh.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62384.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一试卷网(网站)

首先&#xff0c;站内涵盖了有语文&#xff0c;数学&#xff0c;英语&#xff0c;物理&#xff0c;化学&#xff0c;政治&#xff0c;历史&#xff0c;地理&#xff0c;生物等等的试卷&#xff0c;从小学到高三的都有非常的全面。 点开需要的试卷&#xff0c;显示资源还是比较新…

【CSDN|每日一练】小股炒股

目录 运行结果题目描述输入描述:输出描述:示例代码结语运行结果 题目描述 已知n天后的股票行情,现在已有的本金是m, 规定只能入手一次股票和抛售一次股票。 最大收益是? 输入描述: 第一行输入整数n,m。(1<=n<=1000,1<=m<=10000) 第二行输入n个整数表示某…

5 月编程语言榜:C 再度暴涨,Scala 成功上位

&#xff08;点击上方公众号&#xff0c;可快速关注&#xff09; 转自&#xff1a;开源中国 TIOBE 刚刚发布了 5 月编程语言排行榜。Scala 经过长时间的沉淀&#xff0c;本月终于进入了 TIOBE 榜单的前 20 名。 Scala 是一种 JVM 上运行的函数式编程语言&#xff0c;可与 Java …

个人整体项目:今日诊股(今日指数)后端代码开发(day01)

&#xff08;当前开源个人项目正在开发&#xff0c;请关注个人项目专栏。需要源码请关注留言哦&#xff01;&#xff01;&#xff01;&#xff09; &#xff08;怀玉是一名一年的后端&#xff0c;前端目前不太精通&#xff0c;前端代码是直接写好的&#xff09; 首先我们先看一…

Python版股市情感分析源代码,提取投资者情绪,为决策提供参考

情绪与股市关系的研究由来已久&#xff0c;情绪是市场的一个重要影响因素已成为共识。 15年股灾时&#xff0c;亲历了一次交易灾难&#xff0c;眼见朋友的数千万在一周不到的时间内灰飞烟灭。那段时间市场的疯狂&#xff0c;让人深刻地明白&#xff1a;某些时候&#xff0c;股票…

干货全拿走-用Excel获取上证指数等50+股指行情及历史数据

一、 前言 二、 实现思路 三、 核心代码 四、 注意事项 一、前言 大数据时代&#xff0c;数据分析的价值愈发凸显&#xff0c;数据对于金融市场亦如是。现在越来越多的金融机构和个人借助专业的软件去做数据分析和获取数据&#xff0c;但是显然对于普通人来说&#xff0c;…

程序员能用大数据分析,用脚本测算股市的状况吗?

星期一的基金收益更新&#xff0c;没想到竟然… 8月2日的支付宝基金收益收益为2443元&#xff0c;今日收益为负值&#xff0c;上个星期暴跌4天&#xff0c;大盘很大大浮动。细看一下我的仓位&#xff0c;从上星期到现在都一直是这几个&#xff0c;没变过&#xff0c;医疗板块&a…

【Android】最新主流新闻app功能实现。仿网易,搜狐等新闻客户端实现展示

最新主流新闻app功能实现。仿网易,搜狐等新闻客户端 作者&#xff1a;程序员小冰 欢迎点击关注微博 (原创作品&#xff0c;转载请说明出处)先给大家看一下效果图&#xff1a; 这个项目总体来说虽然不是特别难&#xff0c;但是确实非常常用的功能。是业余时间自己写的一个小…

Safari 安装 Tampermonkey(油猴)插件

Safari 安装 Tampermonkey&#xff08;油猴&#xff09;插件 一、软件介绍 今天给大家推荐的一款”神器插件”叫 油猴&#xff0c;英文为Tampermonkey&#xff0c;是一款适用于Safari用户的脚本管理器&#xff0c;能够方便管理不同的脚本。虽然有些受支持的浏览器拥有原生的用…

使用Tampermonkey(油猴) 插件,重新实现了,百度搜索热点过滤功能

昨天晚上&#xff0c;花了点时间学习了Chrome插件的制作方法&#xff0c;并书写了《Chrome 百度搜索热点过滤插件 - 开源软件》这一文章&#xff0c;简单地介绍自己实现的百度搜索热点过滤神器的原理和使用方式&#xff0c;并进行了开源&#xff08;https://github.com/yaowenx…

Mac的Safari安装油猴插件(Tampermonkey)

Mac的Safari安装油猴插件&#xff08;Tampermonkey&#xff09; 官方的AppStore是没有油猴插件&#xff08;Tampermonkey&#xff09;的&#xff0c;官方插件不仅少&#xff0c;功能被阉割&#xff0c;相对弱小&#xff0c;还收费。嗯&#xff0c;这很苹果第三方拓展。 这是油…

油猴插件: AC-百度-重定向优化

在日常使用搜索引擎时, 会遇到有些问题 1.搜索结果 网址重定向问题, 导致的打开很慢(每次跳转浪费1-2秒钟) 2.搜索结果里面的 垃圾网站, 比如某些 爬虫采集网站 重复出现(频繁出现, 一次浪费5秒左右) 改了之后记得点保存 ps: 不仅仅是百度, google, bing也会出现 垃圾答案网…

uniApp 新闻详情页语音播报,百度语音合成app端、H5端语音播报实例

非常轻便的语音合成接口&#xff0c;可以用于新闻详情页语音播报&#xff0c;实例功能&#xff1a; 点击“播放”按钮播放新闻详情页面的内容&#xff0c;播放按钮文字也图标变为“暂停”&#xff0c;再点击重新播放。 实例用到uniApp插件&#xff1a;百度语音合成接口 - DCl…

编写一个油猴脚本,去除百度首页的广告卡片(亲测有效)

1、去除前 2、去除后 3、脚本实现 // UserScript // name 隐藏百度首页的卡片 // namespace http://tampermonkey.net/ // version 0.2 // description try to take over the world! // author You // match *://www.baidu.com/?tn* // grant …

哪些手机浏览器可以安装油猴插件(Tampermonkey)

哪些手机浏览器可以安装油猴 安装 Tampermonkey 一、可以安装油猴的手机浏览器 火狐浏览器&#xff08;Firefox&#xff09; Kiwi 浏览器 Yandex 浏览器 二、优点与缺点 火狐浏览器 UI 互动效果差一些&#xff0c;Kiwi 浏览器 UI 互动更爽一些Yandex 浏览器俄式风格&…

利用浏览器的油猴插件下载网页视频

1. 油猴介绍 油猴是一个浏览器的插件&#xff0c;该插件用于管理&#xff08;安装和卸载&#xff09;浏览器的功能脚本&#xff0c;实现浏览器附加功能的添加。 众所周知&#xff0c;浏览器可以添加扩展程序插件&#xff0c;以扩展浏览器的功能。但是&#xff0c;有些扩展程序…

【自动化】初见 - 最强浏览器插件 《油猴Tampermonkey》 开发和发布

▒ 目录 ▒ &#x1f6eb; 导读需求开发环境 1️⃣ 油猴插件基本使用安装油猴插件安装用户脚本使用用户脚本 2️⃣ 脚本开发-自定义baidu搜索框新建脚本修改元数据编写脚本 3️⃣ 脚本发布注册账号发布脚本 &#x1f6ec; 文章小结&#x1f4d6; 参考资料 &#x1f6eb; 导读 …

让iOS Safari浏览器支持油猴脚本

Userscripts 是一款免费 iOS Safari 浏览器插件&#xff0c;可以兼容油猴脚本&#xff0c;但如果油猴脚本代码没有对手机进行适配的话可能不会生效。 1、首先 打开设置 找到 Safari 浏览器 选择 扩展 然后 勾选 Userscripts 所有网站中 选择 允许 然后打开 Userscripts 后按照…

Tampermonkey[油猴插件]开发者的神级工具!

油猴插件在项目开发中的应用 油猴插件介绍和使用插件介绍输出Hello world 实战应用文档生成代码 油猴插件介绍和使用 插件介绍 Tampermonkey是一款免费的浏览器扩展和最为流行的用户脚本管理器&#xff0c;它适用于 Chrome, Microsoft Edge, Safari, Opera Next, 和 Firefox。…

利用油猴插件 Tampermonkey 编写脚本以屏蔽网页指定元素——以屏蔽百度搜索右边的百度热榜为例

一、起因 一直使用 Tampermonkey 中的 AC-baidu-重定向优化百度搜狗谷歌必应搜索_favicon_双列 这个插件屏蔽好好的&#xff0c;今天突然屏蔽不了&#xff0c;正好自己编写一个简单的插件试试完成这一效果&#xff0c;如下图 二、过程 Tampermonkey 版本 v4.11 直接进入油…