2022年「预训练」优秀论文盘点

No.69

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

《预训练周刊》已经开启“订阅功能”，扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”，即可收到推送消息。

关于周刊

本期周刊，我们对2022年的预训练周刊中报道论文进行了重点汇总，包括了本年度的热点论文及领域综述等。视觉多模态话题包括各种通用模型、图文生成，机器人等；自然语言话题包括全年各个大厂的预训练和微调大模型等；生命科学话题介绍了本年在蛋白质预训练方面的进展；基础研究话题包括了Pathways、foundation transformer等在相对底层方面的工作。

本期汇总的话题，谨代表预训练周刊2022年中所报道的部分选摘内容，从中可以看到2022年大模型向着更大更通用的模型发展等整体趋势，希望2023能共同见证更通用更智能模型在各个下游领域大展身手。藉此机会、编辑组全员谨祝大家新年快乐！

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：翟珂吴新刚）

论文推荐

【视觉模态研究】

标题：Meta|data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language(data2vec：语音、视觉和语言自监督学习的通用框架)

推荐理由：本文介绍了一种通用表征工具，它对任何一种模态都使用相同的学习方法，核心思想是利用标准Transformer架构的遮蔽和自蒸馏机制学习，而不是预测特定任务目标。

论文地址：https://arxiv.org/pdf/2212.07525.pdf

Hub地址：https://hub.baai.ac.cn/view/14313

标题：谷歌｜ Scaling Autoregressive Models for Content-Rich Text-to-Image Generation（用于内容丰富的文本到图像生成的缩放自回归模型）

推荐理由：本文展示了在Pathways基础上训练的自回归文本到图像模型Parti，这是一种自回归文本到图像生成模型，可实现高保真照片级真实感图像生成，并支持涉及复杂构图和世界知识的内容丰富的综合，与谷歌的Imagen扩散模型分庭而立。

论文地址：https://arxiv.org/pdf/2206.10789.pdf

Hub地址：https://hub.baai.ac.cn/view/18292

标题：Meta | Scaling Language-Image Pre-training via Masking（通过掩码进行语言-图像预训练的缩放）

推荐理由：本文提出一种用于训练CLIP的简单而有效的方案FLIP，它在训练过程中对图像块进行大比例的随机掩码移除，可以将CLIP的训练过程加速2～3倍。其核心改进就是在训练过程对图像进行随机掩码。

论文下载：https://arxiv.org/pdf/2212.00794.pdf

HUB地址：https://hub.baai.ac.cn/view/22214

标题：谷歌等 | RT-1: Robotics Transformer for Real-World Control at Scale（RT-1: 用于真实世界大规模控制的机器人Transformer）

作者：Anthony Brohan, Noah Brown等

推荐理由：本文提出了机器人Transformer RT-1，它可以吸收大量数据，并推广到新任务、环境、物体和其他机器人形态。RT1基于transformer解码器架构构建，将图像和任务描述作为输入，经过ImageNet预训练的EfficientNet-B3模型和语言模型指令编码后，直接输出代表动作的11个变量的离散化表征。

论文下载：https://arxiv.org/pdf/2212.06817.pdf

HUB地址：https://hub.baai.ac.cn/view/22538

标题：Deepmind、牛津等 | Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?（突破自监督ResNet的极限：我们能否在无标签ImageNet上超越监督学习？）

推荐理由：本文提出了ReLICv2，它将不变性损失与对比目标相结合，首次证明了在无标签的情况下学习到的表征能够持续超越ImageNet上强大的监督基线，同时它也是第一个使用标准ResNet架构的在同类比较中持续优于监督基线的表征学习方法。

论文下载：https://arxiv.org/pdf/2201.05119v1.pdf

Hub地址：https://hub.baai.ac.cn/view/14183

标题：谷歌 | PaLI: A Jointly-Scaled Multilingual Language-Image Model（一种联合扩展的多语种语言图像模型）

推荐理由：本文展示了在Pathways基础上训练的迄今最大的ViT模型，PaLI。同时作者为训练 PaLI创建了一个大型多语言预训练数据集，包含100余种语言的文本和10B图像。PaLI 在多种视觉和语言任务中实现了最先进的水平，同时保留了简单、模块化和可扩展的设计。

论文下载：https://arxiv.org/abs/2209.06794

Hub地址：https://hub.baai.ac.cn/view/20656

标题：斯坦福、Salesforce|MaskViT: Masked Visual Pre-Training for Video Prediction（MaskViT：遮蔽视觉预训练用于视频预测）

推荐理由：本文介绍了MaskViT，它使用时空两种类型的窗口注意力，并使用了可变的遮蔽率。并且推理中进行了迭代优化解码和加速。本文表明可以通过通用遮蔽视觉模型和少量领域知识赋予智能体强大的预测能力。

论文下载：https://arxiv.org/pdf/2206.11894v1.pdf

Hub地址：https://hub.baai.ac.cn/view/18528

标题：百度 | 通过原型进行提示：基于原型的预训练视觉语言模型的Prompt 学习

推荐理由：本文聚焦研究预训练视觉语言模型上的小样本图像识别任务、并提出基于原型的Prompt学习方法PTP，以克服任务级提示和实例级提示的局限性。实验结果表明：本文的方法获得了七个真实世界基准的SOTA性能。此外，通过详细分析，作者还讨论了在小样本学习的背景下Prompt 学习和参数有效微调的优缺点。

论文下载：https://arxiv.org/pdf/2210.10841.pdf

HUB地址：https://hub.baai.ac.cn/view/21165

标题：斯坦福、康奈尔、宾夕法尼亚、华盛顿大学联合 | CREPE: Can Vision-Language Foundation Models Reason Compositionally?（CREPE：视觉语言基础模型能否进行组合推理？）

推荐理由：本文研究组合性评估基准、以用于评估预训练的视觉语言模型的系统性和生产力。在模型泛滥的当前，需要更多类似的大模型评估标准。

论文下载：https://arxiv.org/pdf/2212.07796.pdf

HUB地址：https://hub.baai.ac.cn/view/22629

标题：搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

推荐理由：在本文中，来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉-语言预训练最新进展和新领域，包括图像-文本预训练和视频-文本预训练。

论文下载：https://arxiv.org/pdf/2202.09061.pdf

HUB地址：https://hub.baai.ac.cn/view/15943

标题：英国牛津大学、萨里大学| Multimodal Learning with Transformers: A Survey（综述：Transformers 多模态学习）

推荐理由：本文对面向多模态的 Transformer 技术进行了全面调查。主要内容包括：（1）多模态学习、Transformer 生态系统和多模态大数据时代的背景。（2）从几何拓扑的角度对 Vanilla Transformer、Vision Transformer 和多模态 Transformer 的理论回顾。(3) 通过两个重要的范式：多模态预训练和特定的多模态任务，回顾多模态Transformer 应用程序。（4）总结常见挑战和设计。（5）讨论社区中的开放问题和潜在研究方向。

论文下载：https://arxiv.org/pdf/2206.06488

HUB地址：https://hub.baai.ac.cn/view/18006

标题：韩国科学技术院、NAVER公司 | DialogCC: Large-Scale Multi-Modal Dialogue Dataset（DialogCC：大规模多模态对话数据集）

推荐理由：本文提出大规模的多模态对话数据集 DialogCC，它涵盖了不同的现实世界主题和每个对话的不同图像。通过大量实验、作者证明了使用作者的数据集训练多模态对话模型可以提高泛化性能。

论文下载：https://arxiv.org/pdf/2212.04119.pdf

HUB地址：https://hub.baai.ac.cn/view/22463

标题：斯坦福大学、Meta、华盛顿大学 | Retrieval-Augmented Multimodal Language Modeling（检索增强的多模态语言建模）

推荐理由：多模态模型在文本到图像和图像到文本生成方面取得了显著进展。但这些模型将所有学习到的知识存储在模型参数中，需要越来越大的模型和训练数据来获取更多的知识。为了以更可扩展和模块化的方式集成知识，作者提出了一种检索增强的多模态模型，该模型使基础多模态模型能够引用检索器从外部存储器中获取的相关知识。该模型是业界第一个可以检索和生成文本和图像混合的多模态模型。

论文下载：https://arxiv.org/pdf/2211.12561.pdf

HUB地址：https://hub.baai.ac.cn/view/21934

标题：清华大学、字节跳动 | Multimodal Entity Tagging with Multimodal Knowledge Base（基于多模态知识库的多模态实体标注）

推荐理由：为了加强对多模态知识库和多模态信息处理的研究，作者提出了一种基于多模态知识库（MKB）的多模态实体标注（MET）任务、而且还使用现有的MKB为该问题开发了一个对应的数据集。

论文下载：https://arxiv.org/pdf/2201.00693.pdf

HUB地址：https://hub.baai.ac.cn/view/13750

标题：谷歌 | End-to-end Generative Pretraining for Multimodal Video Captioning（多模态视频字幕的端到端生成预训练）

推荐理由：本文创意地把“视频流中未来的话语”加入预训练、实现了新型高效的多模态视频生成模型。而且作者的模型在多模态视频字幕的四个基准上、以及其他视频理解任务（如 VideoQA、视频检索和动作分类）上实现了SOTA性能。

论文下载：https://arxiv.org/pdf/2201.08264

HUB地址：https://hub.baai.ac.cn/view/14288

【自然语言研究】

标题：谷歌|LaMDA: Language Models for Dialog Applications（LaMDA：对话应用的语言模型）

推荐理由：本文介绍了一个超大对话预训练语言模型，具有多达1370亿个参数，并且对1.56T字的公共对话数据和网络文本进行预训练。

论文地址：https://arxiv.org/pdf/2201.08239.pdf

Hub地址：https://hub.baai.ac.cn/view/14312

标题：微软、英伟达｜Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model（使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 5300亿，一种大规模生成语言模型）

推荐理由：本文展示了当时最大的具有 5300 亿个参数基于Transformer的语言模型 Megatron-Turing NLG，本文介绍了使用 DeepSpeed 和 Megatron 训练该模型的 3D 并行方法以及以及用于训练过程、训练语料库的设计和数据管理技术等基础设施。

标题：谷歌｜ PaLM: Scaling Language Modeling with Pathways（PaLM：基于Pathways系统扩展语言模型）

推荐理由：本文展示了在Pathways基础上的5400 亿参数密集激活的 Transformer 语言模型PaLM，该模型可以在数百个语言理解和生成基准上实现最先进的小样本学习结果，展示了模型规模扩大的持续优势，并且在其中的许多任务中PaLM取得了突破性的表现。

论文下载：https://arxiv.org/pdf/2204.02311v1.pdf

Hub地址：https://hub.baai.ac.cn/view/16161

标题：CMU | reStructured Pre-training（重构预训练）

推荐理由：本文提出一种新预训练范式，重构预训练，即识别数据，用统一的语言重组数据，将它们集成并存储到预训练语言模型中。该范式重新重视数据的作用，并将模型预训练和下游任务的微调视为数据的存储和访问过程。

论文下载：https://arxiv.org/pdf/2206.11147.pdf

HUB地址：https://hub.baai.ac.cn/view/18255

标题：Huggingface等 | BLOOM: A 176B-Parameter Open-Access Multilingual Language Model（BLOOM: 176B参数的开源多语言模型）

推荐理由：近年来，训练越来越大的语言模型已经成为一种常态，但鲜有人关注如何训练这些大模型的隐藏知识技巧。本文旨在改变这种状况，以公开民主的方式训练开源176B参数的语言模型BLOOM，并从硬件和软件两个方面阐明训练模型背后的技术和工程。

论文下载：https://arxiv.org/pdf/2211.05100.pdf

HUB地址：https://hub.baai.ac.cn/view/18992

标题：Meta ｜ Atlas: Few-shot Learning with Retrieval Augmented Language Models（Atlas: 用检索增强的语言模型进行小样本学习）

推荐理由：本文介绍了检索增强的语言模型：Atlas。它通过从数据库中检索信息回答问题，以110亿的参数表现超越了50倍大的PaLM模型。另外Atlas的检索可以被直接查验与更新，从而获得更好的可解释性。

论文链接：https://arxiv.org/pdf/2208.03299.pdf

HUB地址：https://hub.baai.ac.cn/view/19716

标题：谷歌 | Scaling Instruction-Finetuned Language Models（扩展指令微调语言模型）

推荐理由：本文提出新的微调方式，大规模指令微调，并讨论了扩展任务数量，扩展模型大小，以及用思维链数据进行微调等方式，通过指令微调模型可以实现比更大参数模型PaLM更好的小样吧性能。

论文下载：https://arxiv.org/pdf/2210.11416.pdf

HUB地址：https://hub.baai.ac.cn/view/21163

标题：UIUC、谷歌 | Large Language Models Can Self-Improve（大语言模型可以自我改进）

推荐理由：本文研究了一种大语言模型无监督微调的方式。使用预训练大模型，利用思维链提示和自洽性，为无标签的问题生成高置信度的理性增强答案，并使用这些自生成的数据作为标签输出来微调语言模型。

论文下载：https://arxiv.org/pdf/2210.11610v2.pdf

HUB地址：https://hub.baai.ac.cn/view/21292

标题：OpenAI ｜ ChatGPT

推荐理由：ChatGPT是年末最大热点。整体技术路线上，ChatGPT在效果强大的GPT3.5大规模语言模型基础上，引入“人工标注数据+强化学习”来不断微调预训练语言模型，主要目的是让大语言模型学会理解人类的命令指令的含义，以及让语言模型学会判断对于给定的prompt输入指令，什么样的答案是优质的。

HUB地址：https://hub.baai.ac.cn/view/22253

标题：以色列理工学院 | Temporal Attention for Language Models（语言模型的时间注意机制）

推荐理由：本文是将时间感知应用在预训练语言模型Attention机制上的创新研究。在这项工作中，作者扩展了transformer架构的关键组件：自我注意机制，并提出了时间注意机制——一种时间感知的自我注意机制，在三个数据集上的实验均达到了SOTA结果。

论文下载：https://arxiv.org/pdf/2202.02093.pdf

HUB地址：https://hub.baai.ac.cn/view/14618

标题：复旦大学、华东师范 | Black-Box Tuning for Language-Model-as-a-Service（语言模型即服务的黑盒调优）

推荐理由：GPT-3等超大的预训练语言模型通常作为服务发布，允许用户设计特定于任务的提示、通过黑盒API来查询预训练模型。在这种场景中，作者称之为语言模型即服务。本文提出了通过无导数算法优化预训练语言模型的黑盒调整。特别是，作者调用“协方差矩阵自适应进化策略”，通过迭代调用预训练语言模型推理API来优化输入文本之前的连续提示。实验结果表明：基于RoBERTa的黑盒调优不仅显著优于手动提示与GPT-3的上下文学习，而且还优于基于梯度的对应方法、即提示调优和全模型调优。

论文下载：https://arxiv.org/pdf/2201.03514.pdf

HUB地址：https://hub.baai.ac.cn/view/14009

标题：清华大学、北京国家信息科学技术研究中心等联合 | Prompt Tuning for Discriminative Pre-trained Language Models（判别式预训练语言模型的提示调优）

推荐理由：业界第一个用于判别预训练语言模型的Prompt提示调优框架，它将 NLP 任务重新定义为判别语言建模问题。实验表明：与普通微调相比，该框架实现了显着更高的性能，并且还防止了在全集和低资源设置中调优大型预训练语言模型的不稳定问题。

论文下载：https://arxiv.org/pdf/2205.11166

HUB地址：https://hub.baai.ac.cn/view/17415

生命科学研究

标题：德国拜罗伊特大学 | A deep unsupervised language model for protein design（用于蛋白设计的深度无监督语言模型）

推荐理由：本文介绍了GPT范式的蛋白生成模型ProtGPT2，一个在蛋白质空间上训练的语言模型，其生成的蛋白质显示出与天然蛋白质相似的氨基酸倾向性，可以揭示目前结构数据库中没有捕捉到的新拓扑结构，同时也抓住了一些功能决定因素，保留了配体结合的相互作用。

论文下载：https://doi.org/10.1101/2022.03.09.483666

HUB地址：https://hub.baai.ac.cn/view/15617

标题：Meta、UC伯克利、纽约大学 | Learning inverse folding from millions of predicted structures（从数百万个预测蛋白质结构中学习逆折叠，预测序列信息）

推荐理由：本文介绍了蛋白质结构模型ESM-IF1，该模型通过使用 AlphaFold2 预测 12M 蛋白质序列的结构训练，提高了模型困惑度和序列恢复度，并展示了对更长蛋白质复合物、多种构象的蛋白质以及对结合亲和力和突变影响的零样本预测的泛化。

论文下载：https://doi.org/10.1101/2022.04.10.487779

HUB地址：https://hub.baai.ac.cn/view/16410

标题：Meta AI | Language models of protein sequences at the scale of evolution enable accurate structure prediction（进化尺度上的蛋白质序列语言模型使准确的结构预测成为可能）

推荐理由：本文介绍了目前最大的蛋白质预训练语言模型ESM2和相应结构预测工具ESMfold，它可以直接从蛋白质的单序列中进行高精度端到端原子水平结构预测并且速度很快。该方法可以用于探索元基因组蛋白的结构空间，有助于揭示对天然蛋白质的广度和多样性的规律。

论文下载：https://doi.org/10.1101/2022.07.20.500902

HUB地址：https://hub.baai.ac.cn/view/19108

基础研究

标题：微软｜DeepNet: Scaling Transformers to 1,000 Layers（DeepNet：将Transformer扩展到1000层）

推荐理由：本文成功地扩大了Transformer到1,000层，比之前的深度变换器要深一个数量级。作者引入了一个新的归一化函数(DEEPNORM)修改Transformer中的残差连接，可以结合Post-LN的良好表现和Pre-LN的稳定训练。

论文下载：https://arxiv.org/pdf/2203.00555.pdf

Hub地址：https://hub.baai.ac.cn/view/15195

标题：谷歌｜ Pathways: Asynchronous Distributed Dataflow for ML（Pathways: 用于ML的异步分布式数据流）

推荐理由：本文展示了PaLM使用的系统Pathways，它可以在用一个架构同时处理多项任务，拥有快速学习新任务、更好地理解世界的能力。它使用了一种新的异步分布式数据流设计，采用单控制器模型，可以跨多个 TPU Pod 进行高效训练。

论文下载：https://arxiv.org/pdf/2203.12533.pdf

Hub地址：https://hub.baai.ac.cn/view/15984

标题：DeepMind、牛津、IDSIA等|A Generalist Neural Algorithmic Learner（通才神经算法学习者）

推荐理由：本文介绍了一种基于图神经网络的通用的神经算法学习器，能够学习执行各种算法例如排序、搜索、动态规划、寻路和几何。该学习器的特点是只要能在单任务机制下很好地执行任务，就可以以多任务方式有效地学习算法，这侧面证明了该通才学习器可以有效地整合专家模型捕获的知识。

论文下载：https://arxiv.org/pdf/2209.11142v1.pdf

Hub地址：https://hub.baai.ac.cn/view/20678

标题：微软 | Foundation Transformers（基础Transformers）

推荐理由：本文提出了一种跨越语言、视觉、语音和多模态的通用Transformer架构，它可以作为各种任务和模式的首选架构，并保证训练的稳定性，并从理论上提出了针对深层Transformer DeepNet的初始化策略来实现稳定提升。

论文下载：https://arxiv.org/pdf/2210.06423v1.pdf

HUB地址：https://hub.baai.ac.cn/view/21036

标题：美国弗吉尼亚大学、微软 | Active Data Pattern Extraction Attacks on Generative Language Models（对生成语言模型的主动数据模式提取攻击）

推荐理由：本文研究语言模型泄漏敏感信息的安全议题。在这项工作中，作者调查语言模型中的潜在信息泄漏漏洞。实验表明：黑盒和灰盒攻击能够从基于transformer的语言模型中恢复大量的隐私信息。作者希望能够激励机器学习从业者和研究人员重视大模型中的隐私保护与各种对抗能力。

论文下载：https://arxiv.org/pdf/2207.10802.pdf

HUB地址：https://hub.baai.ac.cn/view/19332

标题：美国石溪大学、IBM | Attention Hijacking in Trojan Transformers（特洛伊木马Transformers 中的注意力劫持）

推荐理由：本文研究木马攻击对人工智能系统的严重威胁，期望引发对大模型日益加重的安全隐患的思考与关注。

论文下载：https://arxiv.org/pdf/2208.04946.pdf

HUB地址：https://hub.baai.ac.cn/view/19640

标题：西湖大学、中科院等 | A Survey of Pretraining on Graphs: Taxonomy, Methods, and Applications（图预训练的综述：分类法、方法和应用）

推荐理由：本文为目前大热的图预训练的第一个全面的综述，从四个不同的角度系统地对现有的PGM进行了分类，并介绍了图预训练在社会推荐和药物发现中的应用。

论文下载：https://arxiv.org/pdf/2202.07893v2

HUB地址：https://hub.baai.ac.cn/view/15946

标题：比利时鲁汶大学等 | Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models（综述：预训练语言模型的量化偏见）

推荐理由：随着对自然语言处理资源中的偏见模式的认识不断提高，推动了“偏见”和“公平性”量化指标的研究。但比较不同指标的结果、如何使用这些指标进行评估的工作依然不易。本文是一篇预训练语言模型的量化偏见的综述，作者对公平性度量指标研究并实验评估。为改进未来指标的比较和公平性评估，作者建议：避免嵌入基于度量的方法、并将重点放在下游任务中的公平性评估上。

论文下载：https://arxiv.org/pdf/2112.07447.pdf

HUB地址：https://hub.baai.ac.cn/view/13590

标题：加利福尼亚大学 | A Survey on Model Compression for Natural Language Processing（NLP模型压缩综述）

推荐理由：Transformer和预训练技术，推动了自然语言处理（NLP）的应用进展。然而Transformer的高能耗和长推理延迟阻碍了NLP进入更广泛的场景。在本次综述中，作者将重点放在推理阶段，并回顾NLP模型压缩的现状，包括基准、指标和方法，最后作者还概述了目前的障碍和未来的研究方向。

论文下载：https://arxiv.org/pdf/2202.07105

HUB地址：https://hub.baai.ac.cn/view/14944

标题：加利福尼亚大学 | A Survey on Dynamic Neural Networks for Natural Language Processing（NLP动态神经网络综述）

推荐理由：动态神经网络是一个新兴的研究方向，它能够根据输入动态调整神经网络的计算路径，从而在计算量和时间上实现亚线性增长。在这篇综述中，作者总结了三种动态神经网络在自然语言处理中的进展：略读（skimming）、混合专家模型（mixture of experts）和早期退出推理（early exit）。作者还强调了动态神经网络目前面临的挑战和未来研究的方向。

论文下载：https://arxiv.org/pdf/2202.07101.pdf

HUB地址：https://hub.baai.ac.cn/view/14945