《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库集成...

No.11

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第11期《预训练周刊》，从论文推荐、研究动态、学术会议等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了10篇预训练相关的论文，涉及时空注意力、故事生成、解决数学问题、语料增强、代码修复、全连接网络、数学文字问题、小样本学习、自监督学习和对话语义表示的探索。此外，在研究动态方面，我们选择了6篇预训练资讯，将介绍全球最大智能模型、新一代搜索引擎、深度生成版权、深度学习综述、生物计算和预训练语言模型等方面的一些最新内容。在会议动态方面，将介绍大规模预训练模型学术会议方面的最新动态。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：图宾根大学｜Where and When: Space-Time Attention for Audio-Visual Explanations（何时何地：视听可解释性的时空注意力机制）了解详情

简介：多模式决策者的可解释性，我们采取了向前迈出的关键一步，并探索可学习的解释视听识别。我们提出一种全新揭示协同作用的时空注意力机制以关注网络视听数据在时空上的动态变化。我们的模型能够预测视听视频事件，同时通过定位相关的视觉提示出现，以及预测的声音何时出现在视频中。实验结果表明与现有模型相比，我们的模型在视听事件识别任务上具有明显的性能优势。

论文地址：https://arxiv.org/pdf/2105.01517v1.pdf

标题：清华｜Stylized Story Generation with Style-Guided Planning（基于风格指导规划的风格化的故事生成）了解详情

简介：当前的叙事系统更加关注无论叙述风格如何，都可以使用连贯的情节来生成故事，这对于可控文本的生成很重要。因此，我们提出了一项新任务，即风格化的故事生成，即在给定主要上下文的情况下以指定样式生成故事。应对这个问题，我们提出了一个模型：首先计划风格化关键字，然后用关键字指导。此外，我们提出了两个自动指标来评估生成的故事与指定的样式。实验证明我们的模型可以根据ROCStories数据集可控地生成情感驱动或事件驱动的故事。

论文地址：https://arxiv.org/pdf/2105.08625v2.pdf

标题：加州大学、微软、霍布金斯大学|Compositional Processing Emerges in Neural Networks Solving Math Problems（合成处理在解决数学问题的神经网络应用）

了解详情

简介：最近的人工神经网络的进展表明，当大型模型要接受足够的语言数据训练，语法结构会出现在它们的表示形式中。我们扩展这个在数学推理领域工作可能就含义如何提出精确的假设应根据结构化规则组成。我们的工作表明神经网络不仅能够推断关于其隐含的结构化关系的一些信息训练数据，但也可以利用这些知识来指导将单个含义组成一个整体。

论文地址：https://arxiv.org/pdf/2105.08961v1.pdf

标题：谷歌｜KELM: Integrating Knowledge Graphs with Language Model Pre-training Corpora（KELM：将知识图与语言模型预训练语料库集成）了解详情

简介：我们探索了将KG转换为合成自然语言句子以增强现有的预训练语料库，从而将其集成到预训练语料库中的能力。在不进行架构更改的情况下训练语言模型。为此，我们利用可公开获得的英文Wikidata KG并将其转换为自然语言文本，以创建合成语料库。然后，我们使用合成语料库扩充REALM（一种基于检索的语言模型），作为在预训练中整合自然语言语料库和KG的一种方法。我们已为更广泛的研究社区公开发布了该语料库。

论文地址：https://arxiv.org/pdf/2010.12688

标题：微软 | DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons（DeepDebug：基于堆栈、回译和代码骨架的Python Bug修复）了解详情

简介：在软件开发过程中，bug定位和程序修复是一个重要组成部分。本文提出了DeepDebug，一种使用大型预训练Transformer进行自动debug的方法。作者首先在提交数据上训练一个错误生成模型以生成合成bug，为后续工作提供了丰富的诸如堆栈痕迹和打印语句的调试信息，其可被用来微调预训练模型。随后作者扩展到有问题的函数本身之外，添加了一个由该函数的相关信息组成的代码骨架来强化模型。该方法在QuixBugs基准测试中，修复总数增加了50%以上，同时也将假阳性率从35%降低到5%，并将超时时间从6小时降低到1分钟。

论文地址：https://arxiv.org/pdf/2105.09352v1.pdf

标题：谷歌 | Pay Attention to MLPs （集中注意力到全连接网络）了解详情

简介：Transformer已经成为深度学习中最重要的架构创新之一。本文提出了一个简单的无注意力网络架构--gMLP。它完全基于带有门控的全连接网络，并在关键的语言和视觉应用中表现的和Transformer一样表现出色。实验表明，自注意力对于视觉Transformer来说并不关键，因为gMLP可以实现同样的准确性。对于NLP领域BERT来说，本文的模型在预训练的perplexity上与Transformers持平，并且在一些下游任务上表现更好。在gMLP表现较差的微调任务上，使模型大幅增大可以缩小与Transformers的差距。总的来说，本文的实验表明，在数据和计算量增加的情况下，gMLP可以和Transformers一样延申扩展。

论文地址：https://arxiv.org/pdf/2105.08050v1.pdf

标题：新加坡管理大学 | Investigating Math Word Problems using Pretrained Multilingual Language Models （使用预训练的多语言模型分析数学文字问题）了解详情

简介：本文从多语言的角度重新审视数学文字问题（MWP），在预训练的多语言模型上构建了MWP求解器并比较了其在多语言情况下的表现。作者首先将大规模的英文数据集MathQA转换为中文数据集Math23K的对应数据，然后通过机器翻译和人工注释将几个英语数据集扩展为双语数据集。本文的实验表明，即使目标表达式具有相同的运算符集和常数，MWP求解器也可能无法转移到不同的语言中。但是对于多语言的情况，如果源语言和目标语言上都存在该问题类型，那么它可以更好地被泛化。

论文地址：https://arxiv.org/pdf/2105.08928v1.pdf

标题：NYU，脸书 | True Few-Shot Learning with Language Models（真正的语言模型小样本学习）了解详情

简介：预训练语言模型即使在从小样本中学习，依旧在许多任务中表现良好。但先前的工作使用许多保留的样本来调整学习，如超参数、训练目标和自然语言模板prompts。本文评估了当这种保留的样本不可用时，语言模型的真正的小样本学习能力。作者测试了两种模型选择标准，交叉验证和最小描述长度，用于选择语言模型的prompt和超参数。平均来说，这两种方法都略微优于随机选择，而大大低于基于保留样本的选择。本文的研究结果表明，考虑到小样本模型选择的难度，之前的工作明显高估了语言模型的真实小样本能力。

论文地址：https://arxiv.org/pdf/2105.11447v1.pdf

标题：CVPR 2021：阿德莱德大学、同济大学、字节跳动|自监督学习方法解决：预训练与下游密集预测任务间的鸿沟了解详情

简介：预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集进行模型监督预训练，近年来自监督学习方法的出现，让预训练任务不再需要昂贵的人工标签。然而，绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异，因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。基于此，来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法，不需要昂贵的密集人工标签，就能在下游密集预测任务上实现出色的性能。目前该论文已被 CVPR 2021 接收。

论文地址：https://arxiv.org/pdf/2011.09157

标题：浙大、西湖大学、腾讯|Semantic Representation for Dialogue Modeling（对话建模的语义表示）了解详情

简介：尽管神经模型在对话系统中取得了竞争性成果，但它们具有在表示核心语义方面显示出有限的能力。为此，我们利用抽象含义表示（AMR），以帮助进行对话建模。与文字输入相比，AMR明确提供核心语义知识并减少数据稀疏性。我们开发了对话级AMR的算法句子级AMR的图表并进行探索将AMR纳入对话的两种方法系统。对话理解和反应产生的实验结果任务显示了我们模型的优越性。据我们了解，我们是第一个利用正式的语义表示转化为神经对话建模。

代码：https://github.com/muyeby/AMR-Dialogue

论文地址：https://arxiv.org/pdf/2105.10188.pdf

研究动态

全球最大智能模型“悟道2.0”重磅发布了解详情

简介：2021年6月1日，由北京智源主办的 2021 北京智源大会在北京中关村国家自主创新示范区会议中心成功开幕。“悟道2.0”模型的参数规模达到1.75万亿，是GPT-3的10倍，打破了之前由Google Switch Transformer预训练模型创造的1.6万亿参数记录，是目前中国首个、全球最大的万亿级模型。据介绍，“悟道 2.0”开创性地研发了FastMoE技术，这是打破国外技术瓶颈，实现“万亿模型”基石的关键。

重新思考PageRank：GPT-3这样的语言模型会带来新一代搜索引擎？了解详情

简介：即使网络规模激增，搜索引擎也变得越来越快，越来越准确。现在使用AI对结果进行排名，而Google使用BERT可以更好地理解搜索查询，所有主流搜索引擎的工作方式仍与20年前相同。GPT-3在大多数网络和数百本书上接受了训练，可以从多种来源中获取信息，以自然语言回答问题。问题在于它无法跟踪这些来源，也无法提供答案的证据。无法判断GPT-3是在骗取可信赖的信息还是虚假信息，或者只是散布自己的废话。在不同的搜索领域，从回答查询到总结文档再到结构化信息，已经取得了数十年的进展，令人兴奋的前提是大型语言模型能够同时完成所有这些操作。

博洛尼亚大学、伦敦大学学院|COPYRIGHT IN GENERATIVE DEEP LEARNING（深度生成学习中的版权问题）了解详情

简介：机器制作的艺术品现在是当代艺术领域的一部分：它们正在吸引大量投资，它们与人类艺术家创作的作品一起在展览中展出。在本文中，我们考虑了是否可以使用受版权保护的作品作为生成模型的训练集？我们如何合法存储他们的副本以执行训练过程？然后，谁将拥有生成数据的版权？考虑到在美国和欧盟以及未来法律的效力，我们试图回答这些问题，试图为艺术家和从事深度学习的开发人员生成艺术提供一些指导建议。

论文地址：https://arxiv.org/pdf/2105.09266v1.pdf

中国电子科技|2020年深度学习技术发展综述了解详情

简介：首先分析围绕注意力机制的深度学习技术最新研究成果，以及在自然语言处理领域取得突破性进展的巨型预训练模型的特点与发展路径；随后概述开源深度学习市场的火热局面及其对技术升级的推动作用；最后分别从香农定律、冯·诺依曼架构、摩尔定律三个角度探讨深度学习技术的未来发展方向。综述表明，注意力机制和预训练范式在当前计算机视觉和自然语言处理等深度学习重点应用领域中取得长足技术突破，开源深度学习市场的兴起有效推动产学研用各领域深度学习技术落地。

百度生物计算平台螺旋桨负责人：预训练技术在生物计算中的新应用了解详情

简介：由中国首家生物计算技术驱动的生命科学公司百图生科，与致力于 IT 和 BT 交叉融合的创新孵化中心播禾创新共同主办的 “首届中国生物计算大会” 成功举办。在其中的生物计算与新算法分论坛，百度自然语言处理部技术总监、螺旋桨 PaddleHelix 生物计算平台负责人何径舟带来了题为《大规模预训练技术与药物研发》的演讲，从 AI 研发者视角，与大家分享了一些百度在生物计算体系上所做的思考，包括如何看待 AI 在生物医药中存在的机遇和挑战，以及 AI 领域的前沿进展，以及基于这些进展如何助力生物医药领域。

百度万亿级图检索引擎发布！四大预训练模型开源，还“发糖”15亿了解详情

简介：在深度学习开发者盛会——WAVE SUMMIT 2021会议上，百度飞桨、作为国产最大深度学习平台，发布全新飞桨开源框架2.1版本、发布全新大规模图检索引擎开源文心ERNIE四大预训练模型、全新发布推理部署导航图……除此之外，还有15亿元资金，其中10亿要“发”给10万家企业和百万产业AI人才。与以往不同，此次峰会揭示了一种全新定调——大融合、大创新。此外，降低AI门槛，也是此次峰会的另一重点，是加快多样性和产业进程的核心。更多详情，请参阅原文。

学术会议

CCF学科前沿讲习班《大规模预训练模型》学术会议顺利召开了解详情

简介：由中国计算机学会主办的前沿讲习班《大规模预训练模型》，对大规模预训练技术最新研究进展及在视觉、语音、语言等多种模态下的预训练进行系统性介绍，帮助了学员理解预训练的基本概念、主要挑战和解决方法，掌握该领域包括视觉预训练、语音预训练、语言预训练以及多模态预训练的一系列前沿技术，并通过实际案例了解预训练的应用前景，开阔科研视野，增强实践能力。本期的专家讲师对大规模预训练模型在语言、视觉、语音和多模态方面的最新进展进行深入浅出的讲解，为听众展示在自然语言理解、计算机视觉以及语音语义等领域的实践案例, 并介绍了如何解决并行训练效率的挑战，如何压缩、加速和部署大模型等解决人工智能落地问题的宝贵经验。