《预训练周刊》第11期:全球最大智能模型“悟道2.0”重磅发布、谷歌KELM:将知识图与语言模型预训练语料库集成...

No.11

智源社区

预训练组

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期《预训练周刊》,从论文推荐、研究动态、学术会议等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊,我们选择了10篇预训练相关的论文,涉及时空注意力、故事生成、解决数学问题、语料增强、代码修复、全连接网络、数学文字问题、小样本学习、自监督学习和对话语义表示的探索。此外,在研究动态方面,我们选择了6篇预训练资讯,将介绍全球最大智能模型、新一代搜索引擎、深度生成版权、深度学习综述、生物计算和预训练语言模型等方面的一些最新内容。在会议动态方面,将介绍大规模预训练模型学术会议方面的最新动态。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

论文推荐

标题:图宾根大学|Where and When: Space-Time Attention for Audio-Visual Explanations(何时何地:视听可解释性的时空注意力机制)了解详情

简介:多模式决策者的可解释性,我们采取了向前迈出的关键一步,并探索可学习的解释视听识别。我们提出一种全新揭示协同作用的时空注意力机制以关注网络视听数据在时空上的动态变化。我们的模型能够预测视听视频事件,同时通过定位相关的视觉提示出现,以及预测的声音何时出现在视频中。实验结果表明与现有模型相比,我们的模型在视听事件识别任务上具有明显的性能优势。

论文地址:https://arxiv.org/pdf/2105.01517v1.pdf

 

标题:清华|Stylized Story Generation with Style-Guided Planning(基于风格指导规划的风格化的故事生成)了解详情

简介:当前的叙事系统更加关注无论叙述风格如何,都可以使用连贯的情节来生成故事,这对于可控文本的生成很重要。因此,我们提出了一项新任务,即风格化的故事生成,即在给定主要上下文的情况下以指定样式生成故事。应对这个问题,我们提出了一个模型:首先计划风格化关键字,然后用关键字指导。此外,我们提出了两个自动指标来评估生成的故事与指定的样式。实验证明我们的模型可以根据ROCStories数据集可控地生成情感驱动或事件驱动的故事。

论文地址:https://arxiv.org/pdf/2105.08625v2.pdf

 

标题:加州大学、微软、霍布金斯大学|Compositional Processing Emerges in Neural Networks Solving Math Problems(合成处理在解决数学问题的神经网络应用)

了解详情

简介:最近的人工神经网络的进展表明,当大型模型要接受足够的语言数据训练,语法结构会出现在它们的表示形式中。我们扩展这个在数学推理领域工作可能就含义如何提出精确的假设应根据结构化规则组成。我们的工作表明神经网络不仅能够推断关于其隐含的结构化关系的一些信息训练数据,但也可以利用这些知识来指导将单个含义组成一个整体。

论文地址:https://arxiv.org/pdf/2105.08961v1.pdf

 

标题:谷歌|KELM: Integrating Knowledge Graphs with Language Model Pre-training Corpora(KELM:将知识图与语言模型预训练语料库集成)了解详情

简介:我们探索了将KG转换为合成自然语言句子以增强现有的预训练语料库,从而将其集成到预训练语料库中的能力。在不进行架构更改的情况下训练语言模型。为此,我们利用可公开获得的英文Wikidata KG并将其转换为自然语言文本,以创建合成语料库。然后,我们使用合成语料库扩充REALM(一种基于检索的语言模型),作为在预训练中整合自然语言语料库和KG的一种方法。我们已为更广泛的研究社区公开发布了该语料库。

论文地址:https://arxiv.org/pdf/2010.12688

 

标题:微软 | DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons(DeepDebug:基于堆栈、回译和代码骨架的Python  Bug修复)了解详情

简介:在软件开发过程中,bug定位和程序修复是一个重要组成部分。本文提出了DeepDebug,一种使用大型预训练Transformer进行自动debug的方法。作者首先在提交数据上训练一个错误生成模型以生成合成bug,为后续工作提供了丰富的诸如堆栈痕迹和打印语句的调试信息,其可被用来微调预训练模型。随后作者扩展到有问题的函数本身之外,添加了一个由该函数的相关信息组成的代码骨架来强化模型。该方法在QuixBugs基准测试中,修复总数增加了50%以上,同时也将假阳性率从35%降低到5%,并将超时时间从6小时降低到1分钟。

论文地址:https://arxiv.org/pdf/2105.09352v1.pdf

 

标题:谷歌 | Pay Attention to MLPs (集中注意力到全连接网络)了解详情

简介:Transformer已经成为深度学习中最重要的架构创新之一。本文提出了一个简单的无注意力网络架构--gMLP。它完全基于带有门控的全连接网络,并在关键的语言和视觉应用中表现的和Transformer一样表现出色。实验表明,自注意力对于视觉Transformer来说并不关键,因为gMLP可以实现同样的准确性。对于NLP领域BERT来说,本文的模型在预训练的perplexity上与Transformers持平,并且在一些下游任务上表现更好。在gMLP表现较差的微调任务上,使模型大幅增大可以缩小与Transformers的差距。总的来说,本文的实验表明,在数据和计算量增加的情况下,gMLP可以和Transformers一样延申扩展。

论文地址:https://arxiv.org/pdf/2105.08050v1.pdf

 

标题:新加坡管理大学 | Investigating Math Word Problems using Pretrained Multilingual Language Models (使用预训练的多语言模型分析数学文字问题)了解详情

简介:本文从多语言的角度重新审视数学文字问题(MWP),在预训练的多语言模型上构建了MWP求解器并比较了其在多语言情况下的表现。作者首先将大规模的英文数据集MathQA转换为中文数据集Math23K的对应数据,然后通过机器翻译和人工注释将几个英语数据集扩展为双语数据集。本文的实验表明,即使目标表达式具有相同的运算符集和常数,MWP求解器也可能无法转移到不同的语言中。但是对于多语言的情况,如果源语言和目标语言上都存在该问题类型,那么它可以更好地被泛化。

论文地址:https://arxiv.org/pdf/2105.08928v1.pdf

 

标题:NYU,脸书 | True Few-Shot Learning with Language Models(真正的语言模型小样本学习)了解详情

简介:预训练语言模型即使在从小样本中学习,依旧在许多任务中表现良好。但先前的工作使用许多保留的样本来调整学习,如超参数、训练目标和自然语言模板prompts。本文评估了当这种保留的样本不可用时,语言模型的真正的小样本学习能力。作者测试了两种模型选择标准,交叉验证和最小描述长度,用于选择语言模型的prompt和超参数。平均来说,这两种方法都略微优于随机选择,而大大低于基于保留样本的选择。本文的研究结果表明,考虑到小样本模型选择的难度,之前的工作明显高估了语言模型的真实小样本能力。

论文地址:https://arxiv.org/pdf/2105.11447v1.pdf

 

标题:CVPR 2021:阿德莱德大学、同济大学、字节跳动|自监督学习方法解决:预训练与下游密集预测任务间的鸿沟了解详情

简介:预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集进行模型监督预训练,近年来自监督学习方法的出现,让预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异,因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。基于此,来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能。目前该论文已被 CVPR 2021 接收。

论文地址:https://arxiv.org/pdf/2011.09157

 

标题:浙大、西湖大学、腾讯|Semantic Representation for Dialogue Modeling(对话建模的语义表示)了解详情

简介:尽管神经模型在对话系统中取得了竞争性成果,但它们具有在表示核心语义方面显示出有限的能力。为此,我们利用抽象含义表示(AMR),以帮助进行对话建模。与文字输入相比,AMR明确提供核心语义知识并减少数据稀疏性。我们开发了对话级AMR的算法句子级AMR的图表并进行探索将AMR纳入对话的两种方法系统。对话理解和反应产生的实验结果任务显示了我们模型的优越性。据我们了解,我们是第一个利用正式的语义表示转化为神经对话建模。

代码:https://github.com/muyeby/AMR-Dialogue

论文地址:https://arxiv.org/pdf/2105.10188.pdf

研究动态

全球最大智能模型“悟道2.0”重磅发布了解详情

简介:2021年6月1日,由北京智源主办的 2021 北京智源大会在北京中关村国家自主创新示范区会议中心成功开幕。“悟道2.0”模型的参数规模达到1.75万亿,是GPT-3的10倍,打破了之前由Google Switch Transformer预训练模型创造的1.6万亿参数记录,是目前中国首个、全球最大的万亿级模型。据介绍,“悟道 2.0”开创性地研发了FastMoE技术,这是打破国外技术瓶颈,实现“万亿模型”基石的关键。

 

重新思考PageRank:GPT-3这样的语言模型会带来新一代搜索引擎?了解详情

简介:即使网络规模激增,搜索引擎也变得越来越快,越来越准确。现在使用AI对结果进行排名,而Google使用BERT可以更好地理解搜索查询,所有主流搜索引擎的工作方式仍与20年前相同。GPT-3在大多数网络和数百本书上接受了训练,可以从多种来源中获取信息,以自然语言回答问题。问题在于它无法跟踪这些来源,也无法提供答案的证据。无法判断GPT-3是在骗取可信赖的信息还是虚假信息,或者只是散布自己的废话。在不同的搜索领域,从回答查询到总结文档再到结构化信息,已经取得了数十年的进展,令人兴奋的前提是大型语言模型能够同时完成所有这些操作。

 

博洛尼亚大学、伦敦大学学院|COPYRIGHT IN GENERATIVE DEEP LEARNING(深度生成学习中的版权问题)了解详情

简介:机器制作的艺术品现在是当代艺术领域的一部分:它们正在吸引大量投资,它们与人类艺术家创作的作品一起在展览中展出。在本文中,我们考虑了是否可以使用受版权保护的作品作为生成模型的训练集?我们如何合法存储他们的副本以执行训练过程?然后,谁将拥有生成数据的版权?考虑到在美国和欧盟以及未来法律的效力,我们试图回答这些问题,试图为艺术家和从事深度学习的开发人员生成艺术提供一些指导建议。

论文地址:https://arxiv.org/pdf/2105.09266v1.pdf

 

中国电子科技|2020年深度学习技术发展综述了解详情

简介:首先分析围绕注意力机制的深度学习技术最新研究成果,以及在自然语言处理领域取得突破性进展的巨型预训练模型的特点与发展路径;随后概述开源深度学习市场的火热局面及其对技术升级的推动作用;最后分别从香农定律、冯·诺依曼架构、摩尔定律三个角度探讨深度学习技术的未来发展方向。综述表明,注意力机制和预训练范式在当前计算机视觉和自然语言处理等深度学习重点应用领域中取得长足技术突破,开源深度学习市场的兴起有效推动产学研用各领域深度学习技术落地。

 

百度生物计算平台螺旋桨负责人:预训练技术在生物计算中的新应用了解详情

简介:由中国首家生物计算技术驱动的生命科学公司百图生科,与致力于 IT 和 BT 交叉融合的创新孵化中心播禾创新共同主办的 “首届中国生物计算大会” 成功举办。在其中的生物计算与新算法分论坛,百度自然语言处理部技术总监、螺旋桨 PaddleHelix 生物计算平台负责人何径舟带来了题为《大规模预训练技术与药物研发》的演讲,从 AI 研发者视角,与大家分享了一些百度在生物计算体系上所做的思考,包括如何看待 AI 在生物医药中存在的机遇和挑战,以及 AI 领域的前沿进展,以及基于这些进展如何助力生物医药领域。

百度万亿级图检索引擎发布!四大预训练模型开源,还“发糖”15亿了解详情

简介:在深度学习开发者盛会——WAVE SUMMIT 2021会议上,百度飞桨、作为国产最大深度学习平台,发布全新飞桨开源框架2.1版本、发布全新大规模图检索引擎开源文心ERNIE四大预训练模型、全新发布推理部署导航图……除此之外,还有15亿元资金,其中10亿要“发”给10万家企业和百万产业AI人才。与以往不同,此次峰会揭示了一种全新定调——大融合、大创新。此外,降低AI门槛,也是此次峰会的另一重点,是加快多样性和产业进程的核心。更多详情,请参阅原文。

学术会议

CCF学科前沿讲习班《大规模预训练模型》学术会议顺利召开了解详情

简介:由中国计算机学会主办的前沿讲习班《大规模预训练模型》,对大规模预训练技术最新研究进展及在视觉、语音、语言等多种模态下的预训练进行系统性介绍,帮助了学员理解预训练的基本概念、主要挑战和解决方法,掌握该领域包括视觉预训练、语音预训练、语言预训练以及多模态预训练的一系列前沿技术,并通过实际案例了解预训练的应用前景,开阔科研视野,增强实践能力。本期的专家讲师对大规模预训练模型在语言、视觉、语音和多模态方面的最新进展进行深入浅出的讲解,为听众展示在自然语言理解、计算机视觉以及语音语义等领域的实践案例, 并介绍了如何解决并行训练效率的挑战,如何压缩、加速和部署大模型等解决人工智能落地问题的宝贵经验。

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44351.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【悟道模型】主题论文推荐

悟道2.0参数量达到1.75万亿,创下全球最大预训练语言模型记录。"悟道"超大模型智能模型旨在打造数据和知识双轮驱动的认知智能,让机器能够像人一样思考,实现超越图灵测试的机器认知能力。 以下论文供大家参考学习: 1.B…

智源大会开幕,全球最大智能模型“悟道2.0”发布

6月1日,由北京智源人工智能研究院(以下简称智源研究院)主办的2021北京智源大会在北京中关村国家自主创新示范区会议中心成功开幕。 北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动,定位于“AI内行顶级盛会”&…

1.75万亿参数,刚刚智源发布了全球最大预训练模型“悟道2.0”

中国的AI内行顶级盛会——2021北京智源大会又来了。 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio、David Patterson两位图灵奖得主在内的200多位学者将一起对AI的技术和应用进行深度探讨。 Bengio更是带来了他的System2深度学习…

VMware虚拟机扩展磁盘容量

文章目录 VMware虚拟机扩展磁盘容量1. 关闭虚拟机,设置扩展磁盘容量2. 打开虚拟机,分配扩展出来的磁盘容量2.1 使用gparted工具,删除原来的扩展分区和逻辑分区2.1.1 安装gparted2.1.2 删除逻辑分区2.1.3 删除扩展分区 2.2 修改主分区大小&…

IDEA连接虚拟机

1. 在Intellij_idea上面点击如下菜单:Tools—Deployment—Configuration… 2. 新增一台虚机,输入名称,选择SFTP协议,点击OK 3. 输入IP地址、代码路径、账号密码,点击OK 4. 点击Tools—Deployment—…

虚拟机连接本地wifi网络

虚拟机常被用作安装一个系统,用来做系统开发,这个系统可以是红帽、Ubuntu、win10。毋庸置疑,虚拟机联网很有必要,通过网络你可以访问网页、下载资料、安装软件等。本人就为了联网折腾了不少时间,参考了不少资料&#x…

虚拟机Ubuntu安装VMware Tools

1.点击:虚拟机->安装VMware Tools 2.安装完成之后,打开文件夹,点击左侧VMware Tools,里面有压缩文件,将文件复制到home中,便于下面操作 3.打开终端(首页同时按住Ctrlaltt), 切换为root用…

解决虚拟机突然断网问题

被这个问题折磨了许多次,花费了很多时间,某一次突然就顺利解决了,以往都是只能卸载了重装一遍。其实最主要的操作,也包含在重装后设置网络的过程步骤中。不清楚我的经验是不是个例哈,没试验过是否适用所有情况&#xf…

虚拟机黑屏解决方法

在VM虚拟机操作过程中经常遇到黑屏的问题。而且黑屏一旦发生就会无法关闭和启动。 我在虚拟机安装中遇到很多次黑屏问题现在给兄弟们一些我成功的网上解决的办法。 第一种 WINR CMD(管理员模式运行) 输入netsh winsock reset 重启电脑 第二种 &#xf…

虚拟机无法上网的原因

原因之一:网关不一致。保证 WMare虚拟机、linux镜像系统 和 本地windows,三者网关一致即可 虚拟机网关配置,如下图所示 linux镜像系统配置网络中配置网关,如下图所示 本地windows网关配置,如下图所示 原理:镜像系统如果不能上网,需要借…

虚拟机JDK安装方法

虚拟机安装JDK 1、安装WinSCP 2、查找虚拟机IP(指令:ifconfig) 3、登录 4、找到JDK文件,拖入虚拟机opt文件夹内 5、进入虚拟机,使用指令cd切换文件夹路径,使用指令cd /opt切换到opt文件夹,再用ll查看JDK压缩包是否…

虚拟机如何进入PE系统

1、首先需要先制作一个iso PE系统 2、在虚拟机点击cd/dvd选项,选择刚制作的PE系统的 3、 选择:虚拟机》电源选项》打开电源时进入固件 4、进入boos系统后,选择boot》CD-ROM Drive》按 号键把CD-ROM Drive的位置调到第一位。按f10保存关机&a…

ENSP和虚拟机如何连接

在这里我们假设你已经安装好了vmaware和ensp。 首先,查看你的虚拟机绑定的虚拟网卡名称,一般测试环境下,我们绑定两个虚拟网卡,一个是nat,用于虚拟机上网;一个配置成dhcp动态获取或者静态IP,用…

VMware打开虚拟机

打开VMware虚拟机 自己电脑打开别人配置好的虚拟机步骤 1.打开vmware工具,选择虚拟网络编辑器。 2,进入虚拟网络编辑器,选择nat模式,记住自己的子网ip地址。 3.点击NAT设置,查看自己的NAT网关,我的是192…

安装windows server2008虚拟机

第一步:新建虚拟机 第二步:选择想安装的虚拟机版本 第三步:选择下载路径 第四步:分配虚拟机内存 第五步:编辑虚拟机设置并选择CD 第六步:选择虚拟机镜像 第七步:选择中文语言并继续安装 第八步&…

android的vmos虚拟机,vmospro虚拟机

游戏介绍 vmospro虚拟机是长时间受到用户推崇的虚拟软件,在vmospro虚拟软件中,整个模式从最初的VMOS(虚拟主机)进行了更新,该版本从根本上提供自定义ROM的权利,不再限制用户,鼓励用户自发更换ROM,发挥属于自…

随机硬件虚拟机修改教程

游戏虚拟机主要用于搬砖,那么就需要克隆多开以此实现收益最大化,但是多开又会有一个问题,克隆的显卡,硬盘,主板都是一样的,,这样就导致游戏容易封号。接下来这个教程就是实现显卡,硬…

win7虚拟机安装

第一步:右键新建虚拟机,选典型 第二步:选择想要安装的系统版本 第三步:将虚拟机安装在除C盘以外的硬盘中 第四步:分配磁盘大小同时将磁盘拆分为多个文件 第五步:一路下一步 第六步:将光盘映像应…

Ubuntu虚拟机更换国内清华源

使用ubuntu自带的源,下载或者更新软件默认是从国外的服务器下载,导致耗时时间非常长,所以修改为国内源,加快下载与更新速度。 查看ubuntu版本 切记!一定要查看对应的ubuntu版本,如果ubuntu18.04换的是ubu…

虚拟机双网卡配置

1、编辑 》 打开虚拟网络编辑器 》 更改设置 2、添加网络 3、选择要添加网络,然后点击确定 (仅主机模式),点击DHCP设置,然后注意IP地址的起始和结束地址 4、选中你要配置的虚拟机,鼠标右击,选择…