悟道2.0参数量达到1.75万亿,创下全球最大预训练语言模型记录。"悟道"超大模型智能模型旨在打造数据和知识双轮驱动的认知智能,让机器能够像人一样思考,实现超越图灵测试的机器认知能力。
以下论文供大家参考学习:
1.BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
在HPC系统上部署AI应用还存在差距,需要基于特定硬件特性的应用和系统协同设计。为此,本文提出了BaGuaLu1,这是第一个在整个百亿亿次级超级计算机(新一代双威超级计算机)上进行工作目标训练脑尺度模型。评估表明,BaGuaLu可以使用混合精度训练14.5万亿个参数模型,性能超过1EFLOPS,并且能够训练174万亿个参数模型,这与人脑中的突触数量相当。
PDF下载链接:https://www.aminer.cn/pub/6228239b6750f804ca0b65f9/?f=cs
2.Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models
在本文中,研究者首先正式描述了增量调优的问题,然后全面回顾了最近的增量调优方法。还提出了一个统一的分类标准,将现有的delta调优方法分为三组:基于加法,基于规范和基于重新参数化的方法。
PDF下载链接:https://www.aminer.cn/pub/623004315aee126c0f9b3934/?f=cs
3.WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models
研究者引入了一个名为WuDaoMM的大型多模态语料库,总共包含超过6.5亿个图像文本对,还发布了具有500万个强相关图像文本对的WuDaoMM的基本版本,足以支持常见的跨模态模型预训练。此外还训练了理解和生成视觉语言(VL)模型来测试数据集的有效性。结果表明,WuDaoMM可以作为VLPM的高效数据集,特别是对于文本到图像生成任务中的模型。
PDF下载链接:https://www.aminer.cn/pub/623a90055aee126c0f36c52e/?f=cs
4.Learning to Answer Questions in Dynamic Audio-Visual Scenarios
在本文中,研究者专注于视听问答(AVQA)任务,该任务旨在回答有关视频中不同视觉对象,声音及其关联的问题,并引入了一个大规模的MUSIC-AVQA数据集,其中包含超过45K个问答对,涵盖33个不同的问题模板,跨越不同的模式和问题类型。结果表明,AVQA受益于多感官知觉,本研究的模型优于最近的A,V和AVQA方法。研究者构建的数据集有可能作为评估和促进视听场景理解和时空推理进展的测试平台。
PDF下载链接:https://www.aminer.cn/pub/624278fa5aee126c0fd793ba/?f=cs
5.Balanced Multimodal Learning via On-the-fly Gradient Modulation
本文研究者指出,现有的多模态判别模型,其中为所有模态设计了统一目标,可能仍然是优化不足的单模态表示,这是由某些情况下的另一种主导模态引起的。研究者提出了动态梯度调制,通过监测每种模态对学习目标的贡献的差异,自适应地控制每个模态的优化。此外,还引入了动态变化的额外高斯噪声,以避免梯度调制可能导致的泛化降。该研究在不同的多模式任务上实现了对常见融合方法的显着改进,并且这种简单的策略也可以提高现有的多模式方法,这说明了其有效性和多功能性。
PDF下载链接:https://www.aminer.cn/pub/6243ca9b5aee126c0fbd1ba3/?f=cs
6.CPM: A large-scale generative Chinese Pre-trained language model
在该文章中,研究者发布了中文预训练语言模型(CPM),其中包含对大规模中文训练数据的生成预训练。CPM具有26亿个参数和100 GB中文训练数据,是最大的中文预训练语言模型,可以促进下游的几个中文NLP任务,如对话,论文生成,cloze测试和语言理解。广泛的实验结果表明,CPM在少数次(甚至零次)学习的设置下,在许多NLP任务上都取得了强大的表现。
PDF下载链接:https://www.aminer.cn/pub/5fc771ae91e011489792121d/?f=cs
发布于 2022-04-18 15:43