AI_Papers:第一期

2023.02.06—2023.02.12

文摘词云

Top Papers

Subjects: cs.CL  

1.Multimodal Chain-of-Thought Reasoning in Language Models

标题:语言模型中的多模式思维链推理

作者:Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola

文章链接:https://arxiv.org/abs/2302.00923

项目代码:https://github.com/amazon-science/mm-cot

        这是来自亚马逊的AI大神李沐团队的最新研究成果。该论文正在讨论使用大型语言模型 (LLM) 进行复杂的推理任务。法学硕士通过使用一种称为“思维链 (CoT) 提示”的技术展示了良好的性能,该技术涉及生成一系列中间推理步骤以得出答案。然而,这种方法有局限性,因为它只考虑了语言模态,使得模型难以在现实场景中部署。为了解决这个问题,作者提出了一种称为“Multimodal-CoT”的新方法,它结合了视觉和语言特征。这种方法将生成推理步骤(或基本原理)的过程和进行最终推理的过程分成两个独立的阶段。通过在两个阶段结合视觉信息,该模型能够生成更有效的基本原理,有助于最终的答案推断。作者在称为 ScienceQA 的基准上评估了他们提出的方法,并表明他们的模型比以前最先进的 LLM (GPT-3.5) 高出 16%,甚至超过了人类的表现。

2.Zero-shot Image-to-Image Translation

标题:零样本图像到图像转换

作者:Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, Jun-Yan Zhu

文章链接:https://arxiv.org/abs/2302.03027

        我们大型文本到图像生成模型具有非凡的图像合成能力。然而,直接应用这些模型来编辑真实图像具有挑战性,原因有二:首先,用户很难想出一个完美的文本提示来准确描述输入图像中的每个视觉细节。其次,虽然现有模型可以在某些区域引入所需的变化,但它们通常会显着改变输入内容并在不需要的区域引入意外的变化。这项工作提出了 pix2pix-zero,一种图像到图像的翻译方法,可以在没有手动提示的情况下保留原始图像的内容。该方法不需要对这些编辑进行额外的训练,可以直接使用现有的预训练文本到图像扩散模型。它优于真实和合成图像编辑的现有和并行工作。

Subjects: cs.LG、cs.AI、cs.CV

3.On Distillation of Guided Diffusion Models

标题:关于引导扩散模型的蒸馏

作者:Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik P. Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans

文章链接:https://arxiv.org/abs/2210.03142

        最近的研究表明,无分类器引导扩散模型在生成高分辨率图像方面非常成功。然而,这些模型确实存在推理时计算量大的缺点。本文提出了一种将无分类器引导扩散模型提炼为可快速采样的模型的方法:给定一个预训练的无分类器引导模型,作者首先学习一个单一模型来匹配组合条件和无条件的输出模型,然后逐渐将该模型提炼为需要更少采样步骤的扩散模型。在 ImageNet 64x64 和 CIFAR-10 上,本方法能够使用最少 4 个采样步骤生成视觉上与原始模型相当的图像,实现与原始模型相当的 FID/IS 分数,同时高达 256 倍更快地采样。

4.Toolformer: Language Models Can Teach Themselves to Use Tools

标题:Toolformer:语言模型可以自学使用工具

作者:Timo Schick,Jane Dwivedi-Yu,Roberto Dessì,Roberta Raileanu,Maria Lomeli,Luke Zettlemoyer,Nicola Cancedda,Thomas Scialo

文章链接:https://arxiv.org/abs/2302.04761

        语言模型 (LM) 难以实现基本功能,例如算术或事实查找,而在这些功能中,更简单、更小的模型更胜一筹。本文表明 LM 可以通过简单的 API 自学使用外部工具。他们引入了 Toolformer,这是一个经过训练的模型,可以决定调用哪些 API、何时调用它们、传递哪些参数,以及如何最好地将结果纳入未来的代币预测。这是以自我监督的方式完成的,只需要对每个 API 进行少量演示。它们结合了一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。Toolformer 在各种下游任务中实现了显着改进的零样本性能,通常与更大的模型竞争,而不会牺牲其核心语言建模能力。

Notable Papers

5.Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

标题:硬提示变得简单:基于梯度的离散优化,用于快速调整和发现

文章链接:https://arxiv.org/abs/2302.03668

摘要:

        现代生成模型的优势在于它们能够通过基于文本的提示进行控制。典型的“硬”提示由可解释的单词和标记组成,并且必须由人类手工制作。还有“软”提示,由连续的特征向量组成。这些可以使用强大的优化方法发现,但它们不容易解释、跨模型重复使用或插入基于文本的界面。我们描述了一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法。我们的方法自动为文本到图像和文本到文本应用程序生成基于硬文本的提示。在文本到图像的设置中,该方法为扩散模型创建硬提示,允许 API 用户轻松生成、发现和混合匹配图像概念,而无需事先了解如何提示模型。在文本到文本设置中,我们展示了可以自动发现硬提示,这些提示在调整 LM 以进行分类方面非常有效。

6.A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

标题:ChatGPT 在推理、幻觉和交互性方面的多任务、多语言、多模态评估

文章链接:https://arxiv.org/abs/2302.04023

摘要:

        本文提出了一个框架,用于使用公开可用的数据集定量评估交互式 LLM,例如 ChatGPT。我们使用涵盖 8 种不同的常见 NLP 应用任务的 21 个数据集对 ChatGPT 进行了广泛的技术评估。我们基于这些数据集和新设计的多模式数据集评估了 ChatGPT 的多任务、多语言和多模式方面。我们发现 ChatGPT 在大多数任务上的零样本学习性能优于 LLM,甚至在某些任务上优于微调模型。我们发现它更擅长理解非拉丁脚本语言而不是生成它们。它能够通过中间代码生成步骤从文本提示生成多模式内容。此外,我们发现 ChatGPT 在逻辑推理、非文本推理和常识推理下的 10 个不同推理类别中的平均准确率为 64.33%,因此使其成为不可靠的推理机。例如,它比归纳推理更擅长演绎推理。ChatGPT 与其他 LLM 一样存在幻觉问题,并且由于无法访问外部知识库,它会从参数内存中产生更多的外部幻觉。最后,ChatGPT 的交互功能使人类能够与底层 LLM 协作以提高其性能,即 8% ROUGE-1 用于摘要,2% ChrF++ 用于机器翻译,采用多轮“提示工程”方式。

7.The unreasonable effectiveness of few-shot learning for machine translation

标题:小样本学习对机器翻译的不合理有效性

文章链接:https://arxiv.org/abs/2302.01398

摘要:

        我们展示了少样本翻译系统的潜力,该系统使用未配对的语言数据进行训练,适用于高资源和低资源语言对。我们表明,在推理时仅显示 5 个高质量翻译数据的示例,仅使用自监督学习训练的 transformer decoder-only 模型能够与专业的监督最先进模型以及更通用的模型相匹配商业翻译系统。特别是,我们在 WMT'21 英汉新闻翻译任务中仅使用五个英汉并行数据示例就在推理中表现优于最佳系统。此外,我们构建这些模型的方法不需要联合多语言训练或反向翻译,在概念上很简单,并且显示出扩展到多语言环境的潜力。此外,生成的模型比最先进的语言模型小两个数量级。然后,我们分析了影响小样本翻译系统性能的因素,并强调小样本演示的质量在很大程度上决定了我们模型生成的翻译质量。最后,我们展示了少镜头范式也提供了一种控制翻译某些属性的方法——我们展示了我们能够在推理时仅使用五个示例来控制区域多样性和形式,为可控机器铺平道路翻译系统。

期待下周与你相见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20671.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ChatGPT用AI实现自然对话

1.概述 ChatGPT是当前自然语言处理领域的重要进展之一,通过预训练和微调的方式,ChatGPT可以生成高质量的文本,可应用于多种场景,如智能客服、聊天机器人、语音助手等。本文将详细介绍ChatGPT的原理、实战演练和流程图&#xff0c…

怎样用一周时间研究 ChatGPT

我是怎样用一周时间研究 ChatGPT 的? 上周大概开了 20 多个会,其中有一些是见了觉得今年可能会比较活跃出手的机构,其余见的绝大多数是和 ChatGPT 相关。 我后面就以 ChatGPT 为例,讲下我是如何快速一周 cover 一个赛道的&#x…

走进机器学习

作者简介:本人是一名大二学生,就读于人工智能专业,学习过c,c,java,python,Mysql等编程知识,现在致力于学习人工智能方面的知识,感谢CSDN让我们相遇,我也会致力…

Spring 20年:缔造Java领域神话,近90% Java程序员形影不离

题图 | Image by Freepik 摘要:在编程世界,代码耦合性高、复杂性大的问题一直折磨着所有开发人员。为了解决这个问题,程序员前仆后继开发出了各种框架。但是没有一个特别能打、且让大部分程序员拍手称快的框架诞生。直到有一位年轻但经验丰富…

程序员的三大优点:懒惰、急躁和傲慢

1987 年的今天,Perl 1.0 发布。 今天是 Perl 语言诞生 35 周年。 忽略一下这张图的时间 Perl 语言发明人 Larry Wall 是一位传奇的黑客、一个风趣幽默的人。他的传世名言—— 程序员的三大优点是:懒惰、急躁和傲慢。 在编程圈子的普及程度大概仅次于——…

Qt6教程之三(19) Git版本管理工具

一 Git简介 Git的由来 是一个开源的分布式版本控制系统 ,用于有效、高速的处理从很小到非常大的项目版本管理。 Git 最初是由Linus Torvalds设计开发的,用于管理Linux内核开发。 GitHub是一个基于Git的远程文件托管平台(同GitCafe、BitBucket和GitLab等…

Android中如何使用GPS

Android中如何使用GPS获取位置信息?一个小Demo如下 GPS简介 Gobal Positioning System,全球定位系统,是美国在20世纪70年代研制的一种以人造地球卫星为基础的高精度无线电导航的定位系统,它在全球任何地方以及近地空间都能够提供…

【万字长文】深度解析 Transformer 和注意力机制(含完整代码实现)

深度解析 Transformer 和注意力机制 在《图解NLP模型发展:从RNN到Transformer》一文中,我介绍了 NLP 模型的发展演化历程,并用直观图解的方式为大家展现了各技术的架构和不足。有读者反馈图解方式虽然直观,但深度不足。考虑到 Tra…

全球首位 AI 律师出庭,花 100 万美元找“传话筒”!网友:头脑正常的人谁会同意?...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在 ChatGPT 的热潮下,近来在国内外科技网站上,各类 AI 话题几乎成为了“热搜常驻户”,其中不乏一些看起来极具噱头的新闻: 本周,AI 公司 Do…

Edge浏览器的美化

用了扩展软件后的Edged的界面为 非常方便 ,同时它还可以添加一些你需要用用到的app,无需下载。 它侧栏还有程序员选择,我们在这里可以直接进入CSDN。 废话不多说直接上教程: 1.打开Edge找到扩展选项,点击管理扩展。 …

这才是我想要是游览器——打造最强Microsoft edge+ChatGPT

这也许是你的Microsoft edge界面: 而这时我的edge游览器界面: 对比一下,第一个是默认的游览器界面,第二个是升级后的游览器界面。 是不是感觉第一个比较土呢第二个更高大上一些呢 其实相差巨大的主页,其实只是一个插…

TR外汇黑平台资金盘深度揭秘,谨防上当受骗,迟早会跑路

本人是有着13年外汇经验的外汇人,行业的大小事情,各级的产业链也基本都接触过,算是一个很资深的行业人士了,这么多年可以说是从刀光剑影中走过来,想想也很不容易了。本人vx:yunshao886 本篇所讲内容&#…

玩转 ChatGPT,看这条就够了,Prompt 最全中文合集

Prompt 最全中文合集 玩转 ChatGPT,看这条就够了! 🚀 简化流程:ChatGPT Shortcut 提供了快捷指令表,可以快速筛选和搜索适用于不同场景的提示词,帮助用户简化使用流程。 💻 提高生产力&#…

美国探亲签证面签时一定要用英语吗?

签证问题:美国探亲签证面签时一定要用英语吗? 知识人网:申请美国探亲签证,面签时不会说英语也没有关系的。面签时不一定要说英语,您可以用中文面谈。美国签证官都精通英语和中文,您在面签时可以选择用中文…

中外互免签证协定一览表(普通护照与公务普通护照)

普通护照:由公安部出入境管理机构或者公安部委托的县级以上地方人民政府公安机关出入境管理机构以及中华人民共和国驻外使馆、领馆和外交部委托的其他驻外机构签发,主要颁发给出国定居、探亲、访友、继承财产、留学、就业、旅游等因私事出国的中国公民。…

我与 InsCODE AI 创作助手的一次对话

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 我与INDCODE AI 创作助手的一次对话 🧊摘要🧊前言🧊对话内容🧊结束语 🧊摘要 本文介绍了 CSDN 嵌入式INSCODE AI 创作助手…

我与 INDCODE AI 创作助手的一次对话

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 我与INDCODE AI 创作助手的一次对话 🧊摘要🧊前言🧊对话内容🧊结束语 🧊摘要 本文介绍了 CSDN 嵌入式INSCODE AI 创作助手…

聊聊微服务架构中的用户认证方案!

更多内容关注微信公众号:fullstack888 聊聊微服务中一个重要的话题:如何设计微服务架构下的用户认证方案。今天主要涉及三个方面的内容: 传统的用户认证方案;JWT 与 JJWT;基于网关的统一用户认证。 一、传统的用户认证…

chatgpt赋能python:用Python来炒股——更高效、更智能的投资方式

用Python来炒股——更高效、更智能的投资方式 随着科技的发展,越来越多的投资者开始采用自动化投资方式来管理并优化自己的投资组合,Python作为一种高效、可扩展性强的编程语言,逐渐成为了自动化投资的重要工具。本文将介绍如何利用Python来…

chatgpt赋能python:有人用Python炒股吗?探究Python在炒股领域的应用

有人用Python炒股吗?探究Python在炒股领域的应用 Python作为一种高级编程语言,已经被广泛应用于各个领域,包括自然语言处理、数据分析、人工智能等等。那么在炒股领域,Python是否同样有广泛的应用呢?本文将探究Python…