点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。
本周精选了10篇大模型领域的优秀论文,分别来自MIT、哥伦比亚大学、港科大、斯坦福、普林斯顿大学等机构。
为了方便大家阅读,只列出了论文标题、作者、AI华同学综述等信息,如果感兴趣可点击“论文详情页”查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
1. SE(3) diffusion model with application to protein backbone generation论文详情页
作者:Jason Yim,Brian L. Trippe,Valentin De Bortoli,Emile Mathieu,Arnaud Doucet,Regina Barzilay,Tommi Jaakkola
AI华同学综述(大模型驱动):在本文中,基于三维建模的传播模型已经成功地产生了具有结构性的新功能性蛋白质基础。然而,对于SE(3)上的基本方法论,没有关于分段等效的统一的方法论。我们开发了一个FrameDiff框架,该框架用于学习多个镜头上分段得分的不同分数。我们发现我们的样本能够扩展超越任何已知的蛋白质结构。
2. A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity论文详情页
作者:Yejin Bang,Samuel Cahyawijaya,Nayeon Lee....Pascale Fung
AI华同学综述(大模型驱动):本文提出了一种基于公开数据集的技术评估框架。我们使用21个带有8种基本NLP应用程序的语料库进行了广泛的实证评估。根据这些语料库和一个新设计的多向图表对ChatGPT的多任务、多语言和多模态方面进行了评估。我们发现,它在大多数任务中都优于零射击学习,甚至超过了精确校准模型。此外,我们发现,它能够从文本提示中生成多样性的视频内容,通过中间的编码生成步骤来实现。
3. MarioGPT: Open-Ended Text2Level Generation through Large Language Models论文详情页
作者:Shyam Sudhakaran,Miguel González-Duque,Claire Glanois,Matthias Freiberger,Elias Najarro,Sebastian Risi
AI华同学综述(大模型驱动):我们描述了用于生成各种环境的Mario格式特技。我们展示了如何将这种技术与新的大型语言模型相结合,以实现可控级别生成。此外,我们还引入了一种新的搜索算法,该算法可以灵活地组合多种模式来生成不同的水平。
4. Is ChatGPT a General-Purpose Natural Language Processing Task Solver?论文详情页
作者:Chengwei Qin,Aston Zhang,Zhuosheng Zhang,Jiaao Chen,Michihiro Yasunaga,Diyi Yang
AI华同学综述(大模型驱动):开放式数据库的自然语言处理能力随着规模的提高,大型语言模型(LLM)已经证明了能够执行各种自然语言处理(NLP)任务零射击。最近的推出吸引了大量的关注,因为它可以生成对人类输入的高质量反应,并基于后续的交流来纠正以前错误。然而,尚未确定这是否能成为一个通用的自然语言处理方法,或者ChatGPT是否适合许多NLP任务完成零射击。在本文中,我们进行了实证分析,通过评估20个受欢迎的NLP语料库来衡量该系统的无射击学习能力。我们发现,该系统在许多有利可图的任务上表现良好,但当解决特定的任务时仍然存在挑战。
5. Theory of Mind May Have Spontaneously Emerged in Large Language Models论文详情页
作者:Michal Kosinski
AI华同学综述(大模型驱动):我们将传统无知任务、人们用来测试人类行为能力的普通假设任务(如误导行为或自我意识等)送到几种语言模型中,没有借助任何先前训练的例子。结果表明,在2022年之前发布的模型中,它们几乎无法解决TOM任务。然而,截至2022年1月,该工具已解决了70%以上的TOM任务,与7岁儿童的表现相似。这些发现表明,这种能力自发的出现可能是一种语言模型改进的能力的结果。
6. Multi-Source Diffusion Models for Simultaneous Music Generation and Separation论文详情页
作者:Giorgio Mariani,Irene Tallini,Emilian Postolache,Michele Mancusi,Luca Cosmo,Emanuele Rodolà
AI华同学综述(大模型驱动):在本文中,我们定义了一个基于传播的生成模型,它可以处理音乐合成和源分割。除了基本推理任务(即产生混合物,分离来源)外,我们还引入并实验了源归纳部分推理的推理任务,该任务包括给别人分配一组源的来源子集。此外,我们提出了一种新的用于源归纳的推理方法。我们训练了我们的模型在斯拉克2100数据库上,这是一个音乐资源提取标准的数据集。
7. SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient论文详情页
作者:Max Ryabinin,Tim Dettmers,Michael Diskin,Alexander Borzunov
AI华同学综述(大模型驱动):在本文中,我们考虑了训练大型模型的替代设置:使用廉价的预处理实例或从多个地区挖掘现有资源。我们在这些条件下分析了现有模型平行算法的性能,并找到了这些条件下的训练大模型的局面。基于这些发现,我们提出了斯瓦尔姆平行性,这是一个设计用于不连接、异构和无可信的设备的模型平行学习算法。
8. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models论文详情页
作者:Junnan Li,Dongxu Li,Silvio Savarese,Steven Hoi
AI华同学综述(大模型驱动):Blip2是一个泛型且有效的预训练策略,该策略将视图语言培训从冷冻原始训练的图像编码器和冷冻大型语言模型驱动。Blip2与一种轻型查询转换器相结合,在两个阶段进行训练。首先,我们引入一个带有解析器的小型语法翻译器来引导对数线性规划的学习。然后,我们使用无限制文本生成自然语言输出的能力。
9. Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents论文详情页
作者:Zihao Wang,Shaofei Cai,Anji Liu,Xiaojian Ma,Yitao Liang
AI华同学综述(大模型驱动):我们研究了基于大型语言模型的协同规划方法的问题。我们发现,由于任务的长期性以及目标之间的距离,选择好的策略会产生不均衡的结果。为了解决这个问题,我们提出了“描述、解释、计划和选择”(DEPS),一种基于大型语言模型(LLM)的协同规划方法。我们的方案通过一个可学习的模块将平行子目标划分为预计完成的步骤,并根据结果对其进行改进。我们的实验标志着第一个能够高效地执行70多项《我的世界》任务的可持续发展壮举。最后,分析和探索研究详细说明了我们的设计是如何击败对手的,并为最终版本提供了一份有希望的更新。
10. Large language models can segment narrative events similarly to humans论文详情页
作者:Sebastian Michelmann,Manoj Kumar,Kenneth A. Norman,Mariya Toneva
AI华同学综述(大模型驱动):人类对事件的感知有一个非常重要的前提,研究人员通常通过从几个观察者中提取行为注释来获得此类信息。在这里,我们提出了一种替代计算方法,在大型语言模型GPT3中使用大规模语料库,而不是使用人类注释。我们证明了GPT3可以将连贯的叙事文本分割为事件。GPT3注释的事件与人类事件注释有很大的相关性。此外,这些GPT提取的注释达到了“共识”解决方案的近似程度。
— end —
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾450场活动,超500万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看更多!