AI终于能替我写论文了

0617d1d878406aef3a4d945f46a0c7cf.jpeg

编 | 小舟、陈萍
源 | 机器之心

Meta AI 提出了一个可以总结学术文献,解决数学问题的新模型,该模型还能生成百科文章,编写科学代码,注释分子和蛋白质等等。

近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。

现在,来自 Meta AI 的研究团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。

a3ed29ea6357203cfe0ada217978b6c7.png

论文地址:
https://galactica.org/static/paper.pdf

试用地址:
https://galactica.org/

Galactica 模型有多强大呢,它可以自己总结归纳出一篇综述论文:

9b7afdb482b472a344540a146e918331.png

也可以生成词条的百科查询:

ce1c9b97fabebed394b0430ce5b7fe44.png

对所提问题作出知识性的回答:

18c6b3e2b1a62fa7ec8220dc9b707759.png

这些任务对于人类学者来说尚且是具有挑战性的任务,但 Galactica 却很好地完成了。图灵奖得主 Yann LeCun 也在推特上发文称赞:

abf7636538dbf21b86fc74f4a52f6232.png

我们来看一下 Galactica 模型的具体细节。

模型概述

Galactica 模型是在大量的论文、参考资料、知识库和许多其他来源的科学语料库上进行训练的,包括超过 4800 万篇论文、教科书和讲义、数百万种化合物和蛋白质知识、科学网站、百科全书等。与依赖于未经整理的、基于网络爬虫文本的现有语言模型不同,Galactica 训练所用的语料库是高质量且经过高度整理的。该研究在不过拟合的前提下对模型进行多个 epoch 的训练,其中在上游和下游任务上的性能通过使用重复的 token 得到改善。

Galactica 的性能在一系列科学任务上优于现有模型。在 LaTeX 方程式等技术知识的探索任务上,Galactica 与 GPT-3 的性能是 68.2% VS 49.0%。Galactica 在推理方面也表现出色,在数学 MMLU 基准上的表现显著优于 Chinchilla。

尽管没有接受过通用语料库的训练,Galactica 在 BIG-bench 上的性能也优于 BLOOM 和 OPT-175B。此外,它还在 PubMedQA 和 MedMCQA 开发等下游任务上创下了 77.6% 和 52.9% 的性能新高。

简单来说,该研究将逐步推理封装在特殊的 token 中,以模仿内部工作原理。这允许研究人员使用自然语言与模型进行交互,下图是 Galactica 的试用界面。

9211877bf78f7648cfc62cbc2a5582e0.png

值得一提的是,除了文本生成,Galactica 还可以执行涉及化学公式和蛋白质序列的多模态任务。这将为药物发现领域做出贡献。

实现细节

本文的语料库包含 1060 亿个 token,这些 token 来自论文、参考文献、百科全书以及其他科学资料。可以说该研究将自然语言资源(论文、参考书)与自然界中的序列(蛋白质序列、化学形式)都囊括了。表 1 和表 2 中显示了语料库的细节。

6a7e9be3a9adde756eca9f3f67e65b6a.png

语料库有了,接下来是对数据怎么操作。一般来讲,对 tokenization 的设计是非常重要的。例如,蛋白质序列是根据氨基酸残基来编写的,那么基于字符的 tokenization 是合适的。为了实现 tokenization,该研究对不同的模态进行了专门的 token 化。具体表现在(包括但不仅限于):

  • 引用:用特殊的参考 token[START_REF]和 [END_REF] 来包装引用;

  • 逐步推理:用 working memory token 来封装逐步推理,模拟内部 working memory 上下文;

  • 数字:把数字分成单独的 token。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;

  • SMILES 公式:用 [START_SMILES] 和[END_SMILES]包装序列,并应用基于字符的 tokenization。同样,该研究使用 [START_I_SMILES] 和[END_I_SMILES]来表示异构体 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;

  • DNA 序列:应用一种基于字符的 tokenization,将每个核苷酸碱基视为一个 token,其中起始 token 为 [START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下图 4 显示了对一篇论文的引用进行处理的示例。在处理引用时使用全局标识符和特殊 token[START_REF]和 [END_REF] 来表示引用的地方。

783c1f73ac243f7bfd223c9878319ae1.png

数据集处理好之后,接下来就是怎么实现。Galactica 在 Transformer 架构的基础上进行了以下修改:

  • GeLU 激活:将 GeLU 激活用于各种大小的模型;

  • 上下文窗口:对于不同大小的模型,使用 2048 长度的上下文窗口;

  • 无偏置:遵循 PaLM,在密集内核或层规范中不使用偏置;

  • 学习位置嵌入:学习位置嵌入用于模型;

  • 词汇表:使用 BPE 构建一个包含 50k token 的词汇表。

表 5 列出了不同大小模型以及训练超参数。

f20f1e410cfbcdb2a03c589e2f440650.png

实验

重复的 token 被认为是无害的

从图 6 可以看出,在经过四个 epoch 的训练之后,验证损失继续下降。拥有 120B 参数的模型在第五个 epoch 开始时才开始过拟合。这是出乎意料的,因为现有的研究表明重复的 token 可能对性能有害。该研究还发现,30B 和 120B 的模型在 epoch-wise 后表现出双下降效应,即验证损失达到平稳(或上升),然后是下降。这种效果在每个 epoch 后都变得更强,最明显的是 120B 模型在训练结束时。

2a8c5de4990881d1e7f928508d0ff954.png

图 8 结果显示实验没有出现过拟合迹象,这表明重复 token 能够提高下游和上游任务性能。

698940b14894db9d2561de40ed8710b7.png

其他结果

键入公式太慢了,现在用提示就能生成 LaTeX:

40272234adbc42a2bd8bbc5979bd4f66.png

在化学反应中,要求 Galactica 在化学方程 LaTeX 中预测反应的产物,模型仅根据反应物就能进行推理,结果如下:

e0033c629f14cde3c185ec89bf5ff983.png

表 7 中报告了一些其他结果:

30ffd49d4603bfbd058a6bbdbe29f98d.png

Galactica 的推理能力。该研究首先在 MMLU mathematics 基准上进行评估,并在表 8 中报告了评估结果。Galactica 与较大的基础模型相比表现强劲,并且使用 token 似乎可以提高 Chinchilla 的性能,即使对于较小的 30B Galactica 模型也是如此。

b75dedb91e5c23cb9b9e0639691ed302.png

该研究还对 MATH 数据集进行了评估,以进一步探索 Galactica 的推理能力:

0bbe8b42f7e5edf245d5ed21e814fe5f.png

从实验结果可以得出:Galactica 在思维链和提示方面都大大优于基础 PaLM 模型。这表明 Galactica 在处理数学任务上是个更好的选择。

在下游任务的评估结果如表 10 所示。Galactica 显着优于其他语言模型,并且在大多数任务中优于更大的模型(Gopher 280B)。与 Chinchilla 相比,性能表现差异更大,Chinchilla 在子集任务上似乎更强:特别是高中科目以及数学较少、记忆密集型任务。相比之下,Galactica 往往在数学和研究生水平的任务中表现更好。

0e35ebba7fd04dccdf0e3b294566a191.png

该研究还评估了 Chinchilla 在给定输入上下文的情况下预测引用的能力,这是对 Chinchilla 组织科学文献能力的一个重要测试。结果如下:

c198139a3d684f3c3829f674ad8a40df.png

更多实验内容,请参考原论文。

87cc75d6b1277eb7dca86302680a5f5f.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69865.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你写论文时发现了哪些非常神的网站?

链接:https://www.zhihu.com/question/35931336 转自:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:luluCHENGhttps://www.zhihu.com/question/35931336/answer/998331404 1.文献检索类的网站我只推荐一个&#…

科研论文写作

科研论文写作 文章目录 科研论文写作一、论文写作的重要性二、论文写作的总原则二、论文写作的注意事项要注意\citet, \citep, \cite的区别数学符号上下文要保持一致英文表达存在天然的顺承关系比较级和最高级不可以轻易使用需要有甄别的使用其他论文中的句子数学符号需要有明确…

iPortal之注册服务代理配置

SuperMap iPortal 提供了注册服务代理功能,方便您对注册到 iPortal 门户中的多源服务的权限进行统一的控制;提供了代理服务访问统计功能,支持记录代理服务的访问次数,按服务访问次数排序等;此外还支持代理服务以 HTTPS…

搭建代理服务器

搭建代理服务器 搭建代理服务器场景ccproxy进行搭建代理服务器proxifier配置代理服务器总结 搭建代理服务器 有这种情况,在家需要访问某个内网环境,但是内网的ip从外网是访问不到的,这种需要怎么处理呢? 答案是使用代理服务器。…

Endnote 导出英文、中文(知网)参考文献进入Word

1、英文文献 从Google Scholar 搜索需要的参考文献,然后点击“引用”按钮,导出Endnote的格式,例如scholar.enw。 在Endnote中File-->Import-->File...-->Import File-->Import 参考文献导入完毕 进行参考文献在word中的导出…

知网论文参考文献导入到Endnote方法

第一步下载参考文献文件第二步:右键->打开方式->选择endnote 3. 导入结果

【论文笔记】知识图谱研究综述 思维导图

写在前面 是论文笔记,主要是思维导图。DOI:10.13451/j.cnki. shanxi. univ( nat. sci.).2017.03.008 摘要 知识图谱以结构化的方式描述客观世界中概念、实体及其间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组…

使用Endnote快速导入知网的中文文献

下载pdf,不要下载到自动导入文件夹!!!下载文章的endnote引用文件,直接从知网点击更多引用格式。然后点击导出。 到endnote中进行编辑,attach pdf。这样做的好处是避免自动导入的时候生成不正确的citation&a…

文献知识图谱绘制

本博客分三阶段更新: 第一次主要介绍如何从CNKI中导出文献,并进行可视化分析(已完成)第二次主要介绍如何从WOS(Web of Science)中导出文献,并进行可视化分析(未完成,最近…

知网等数据库文献快速直接导入EndNote的方法

这个方法的前提是了解 EndNote 的一个机制:使用 EndNote 打开 txt 或 pdf 文件时,EndNote 会自动解析并尝试将文件导入到 EndNote 中,而用 EndNote 打开文件的步骤在 Windows 中可以用 CMD 命令简化 D: cd D:\Program Files (x86)\EndNote X…

五种知识图式的绘制方法(思维导图、概念图、知识图谱、语义网络、认知图)

文章目录 一、思维导图的绘制二、概念图的绘制三、知识图谱的绘制四、语义网络的绘制五、认知图的绘制 一、思维导图的绘制 绘制思维导图的步骤为: 第一步:拿出一张纸或使用软件,从中心开始绘制,周围留出空白。 第二步&#xff1…

代码随想录算法训练营第二天 |-数组篇97720959

文章目录 数组977-有序数组的平方题目&难度示例写在前面算法——暴力快速排序&双指针法1.暴力快速排序2.双指针法 数组209-长度最小的子数组题目&难度示例算法——滑动窗口(双指针法)复杂度分析 数组59-螺旋矩阵Ⅱ题目示例值得注意的算法——…

Bito插件

文章目录 01 引言 02 Bito的安装与使用 2.1 安装Bito 2.2 注册并创建工作空间 2.3 使用方式 03 其它 3.1 插件支持的平台 3.2 文档 04 文末 01 引言 Bito IDEA插件地址:https://plugins.jetbrains.com/plugin/18289-bito–gpt-4–chatgpt-to-write-code-explain-cod…

牛逼 !谷歌推出 PaLM 2 反击 GPT-4!

出品 | OSC开源社区(ID:oschina2013) 谷歌在 2023 年度 I/O 大会上宣布推出了其下一代大型语言模型 PaLM 2,擅长高级推理任务,包括代码和数学、分类和问答、翻译和多语言能力以及自然语言生成。 谷歌声称 PaLM 2 是一种最先进的语…

如何优雅的使用各类LLM

近几个月,随着ChatGPT的风靡,大型语言预训练模型也如雨后春笋般地涌现,虽然效果差强人意,好在不受限制。配置稍好的电脑也能跑个7B、13B参数的大语言模型。 虽然模型众多,但是如果给每一个模型都单独去配置环境&#x…

chatgpt赋能Python-python_opencv去噪

消除图像噪声:使用Python OpenCV 如果您曾经使用过数字图像编辑软件,那么您一定遇到过一种烦人的问题:图像噪声。图像噪声是指图像中不希望出现的杂色或像素。这些噪声会降低图像的质量并干扰图像识别或分析任务。在这篇文章中,我…

“硅谷八叛逆” 的领头人 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 12 日,在 15 年前的今天,一场噩耗突如其来,给四川省汶川县、北川羌族自治县、青川县等地造成重创,生态环境…

生成式AI机器人将如何平衡“网络言论”与“社会责任感”之间的关系?

什么是生成式AI? 生成式AI即Generative AI,是继专业生产内容(PGC, Professional-generated Content)、用户生产内容(UGC, User-generated Content)之后的新型内容创作方式,可以在创意、表现力、…

马斯克:OpenAI变了,原是为制衡谷歌现在却被微软有效控制

雷递网 乐天 2月18日 流行聊天机器人ChatGPT的爆火,让OpenAI爆火。 OpenAI是由特斯拉CEO马斯克、阿尔特曼等六人在2015年联合创办,最初为非营利性机构。 不过,2018年马斯克宣布退出,2019年,OpenAI宣布重组为一家“有限…