增强语言模型导读

以ChatGPT为主的大语言模型出现已有半年时间,研究逐渐从针对模型本身的进化和功能,延展到如何更为有效地利用大模型,将它与其它工具结合,落地,以解决实际领域中的问题。

这里的增强主要指让大语言模型(LM)与外部扩展模块相结合,从而获得超越单纯的自然语言建模的能力。具体能力包含:推理、使用工具、行动。它不仅能解决更多类型的问题,在连接外部模块后,其处理自然语言处理能力也得到突破性进展。

本文介绍一篇增强语言模型综述,以及几篇最近发表的具体应用方法和框架的文章。

增强语言模型综述

英文题目: Augmented Language Models: a Survey
中文题目: 增强语言模型综述
论文地址: http://arxiv.org/abs/2302.07842
解读:https://blog.csdn.net/xieyan0811/article/details/130910473?spm=1001.2014.3001.5501
(将近5000字,太长就不贴了)

一篇综述性文章,来Meta,发布时间为2023-02-15。
文章从方法论的角论进入阐释。内容分为六部分:介绍,推理,使用工具和行动,学习方法,讨论,结论,正文22页。
对于比较关注 LM 领域的读者,这篇文章中并没有提到让人意外的特殊方法。然而,文章对现有方法进行了全面细致的整理,提供了全景视角的概览,详细引用了相关文献和软件示例。是对知识很好的概览和梳理,可作为入门读物。

Chameleon:使用大型语言模型进行即插即用的组合推理

本篇来自加州大学&微软,发布时间为2023-04-19。

英文题目: Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models
中文题目: Chameleon:使用大型语言模型进行即插即用的组合推理
论文地址: http://arxiv.org/abs/2304.09842

解读:

  • 目标:使用LLM与其它工具结合,解决具体领域的问题。在不同类型的数据和各种模型工具之间建立起了桥梁,利用LLM实现了之前需要人工设计的调用顺序和方法。
  • 当前问题:自然语言大模型LLM由于其自身的限制,无法访问最新信息、无法使用外部工具,无法进行精确的数学推理。
  • 效果:结合GPT-4,在ScienceQA(86.54%)和TabMWP(98.78)任务中,得到了显著的提升。
  • 方法:
    提出chameleon(变色龙),即插即用的组合推理框架,该框架可以组合多种工具,其中可包含LLM模型、现成的视觉模型、网络搜索引擎、Python 函数和根据用户兴趣定制的基于规则的模块,并将LLM 作为自然语言规划器,将问题拆解成多种工具组合的链条(设计工作流程),然后调用工具协同解决问题,最后通过答案生成器生成回答。
    图-1展示了看图回答问题的三个示例,针对第二个问题,展示了从文本识别,信息检索,生成解决方法,最终生成答案的过程。

其中可使用的工具包含:

SuperICL:小型模型作为大型语言模型的插件

本篇来自加州大学&微软,发布时间为2023-05-15。

英文题目: Small Models are Valuable Plug-ins for Large Language Models
中文题目: 小型模型作为大型语言模型的插件
论文地址: http://arxiv.org/abs/2305.08848

解读

  • 目标:利用自然语言大模型(LLM),提升对大规模的有监督数据的预测效果。
  • 当前问题:由于上下文长度的限制,只能在对话中给LLM提供有限的上下文提示(In-Context Learning)。
  • 效果:在效果评测,稳定性,多语言和可解释性方面均表现出其优越性。
  • 方法
    文中提出了SuperICL,将LLM视为黑盒,与本地经过调优的小模型相结合,以提升有监督任务的能力。
    之前只是将有监督的示例和待预测的测试数据传递给LLM来获得答案。文中提出的方法,首先针对训练集和测试集数据训练了本地模型,预测标签和置信度。然后将这些结果和测试数据一起传递给LLM,从而使LLM不仅学习了推理结果,还学习了决策过程,从而实现了更好的推理和解释能力。

图-1(a)部分展示了ICL的工作过程(之前),它从训练集的上下文中采样,再结合测试集数据一起传给LLM,得到输出;
图-1(b)展示了SuperICL的工作过程,分为三步:

  • 通过从训练数据中随机抽样并结合本地模型的预测构建上下文,包括预测标签及其相应的置信度分数。
  • 测试输入连接在上下文之后,并附加了本地模型对测试数据的预测。
  • 语言模型生成最终预测以及解释。

PKG:参数化知识指导的增强大语言模型

本篇来自香港大学&微软,发布时间为2023-05-18。

英文题目: Augmented Large Language Models with Parametric Knowledge Guiding
中文题目: 参数化知识指导的增强大语言模型
论文地址: http://arxiv.org/abs/2305.04757
解读:

  • 目标:促进大模型LLM在领域知识密集型任务中的应用
  • 当前问题:在解决具体问题时,涉及更多领域相关的知识,最新的知识,以及私有数据。
  • 效果:提升了模型在一系列领域知识密集型任务上的性能,包括事实 (+7.9%)、表格 (+11.9%)、医学 (+3.0%) 和多模态 (+8.1%) 知识。
  • 方法:
    提出PKG(Parametric Knowledge Guiding)参数化知识引导框架,结合本地模型和LLM模型,本地模型基于开源的自然语言模型(Llama),它可以存储离线的领域知识,将领域知识转化成参数输出,作为background和问题一起传入大模型。
    文中的图-1展示了PKG的工作过程:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29716.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT 系列论文泛读

目录 1. GPT-1 1.1 无监督预训练 1.2 有监督的微调 2. GPT-2 3. GPT-3 4. InstructGPT 1. Supervised Fine-Tuning (SFT) 2. Reward Modeling (RM) 3. Reinforcement Learning (RL) 这篇写给自己的总结会相对比较简短,因为 GPT 系列的每篇论文都很长&#…

chatGPT-4论文导读:百年未有之大变局-(2)(转载)

声明:本文已征得原作者:荔枝海豹,同意后转载。 原文链接:chatGPT-4论文导读:百年未有之大变局-(2) - 知乎 在开始讲解之前,我们先说个梗, open AI,从这个名…

吴恩达联手OpenAI上线免费课程:一个半小时学会ChatGPT Prompt工程

点击上方“Python与机器智能”,选择“星标”公众号 第一时间获取价值内容 编辑:张倩 吴恩达亲自授课。 ChatGPT 来了,一切变化都快了起来,一些科技公司开始招募「prompt 工程师」。与写代码的传统计算机工程师不同,Pro…

0基础转行网络安全,选择pwn还是web?

随着5G、工业互联网、人工智能等新兴领域技术的兴起,从而快速推动了各国从人人互联迈向万物互联的时代。 奇安信董事长齐向东曾说过:“如果说5G带来了物联网和人工智能的风口,那么网络安全行业就是风口的平方——风口的风口。" 因此&…

网络安全从业人员2023年后真的会被AI取代吗?

随着ChatGPT的火爆,很多人开始担心网络安全从业人员会被AI取代。如果说网络安全挖洞的话,AI可能真的能取代。但是网络安全不仅仅只是挖洞,所以AI只是能缓解网络安全人员不足的情况,但是是不会取代人类的作用的。 就拿最近很火的C…

Proxy Authentication Required解决

症状 <script type"text/javascript">loadTOCNode(1, symptoms);</script> 如果 Internet Security and Acceleration (ISA) Server 2000 是链接到上游 Web 代理服务器, Web 浏览器中可能会收到完整 HTML 页和随机身份验证提示。 如果下游 ISAServer 计算…

chatgpt赋能Python-python_keyring

Python Keyring: 快速&#xff0c;安全&#xff0c;便捷地管理你的密码 如果你是一个 Python 应用程序开发者&#xff0c;你必须面对有关密码管理的问题。当然&#xff0c;你可以将密码明文硬编码到你的代码中&#xff0c;但是这会很快变得混乱和难以维护。更好的方法是使用 P…

一次疑似 JVM native 内存泄漏的排查实录

最近开发同学反馈&#xff0c;某定时任务服务疑似有内存泄漏&#xff0c;整个进程的内存占用比 Xmx 内存大不少&#xff0c;而且看起来是缓慢上升的&#xff0c;做了下面这次分析&#xff0c;包括下面的内容&#xff1a; 分析 JVM native 内存的一些常见思路内存增长了&#x…

【618期间】超过200小时的课程全都有优惠,全年最好的加入有三AI学习的时间来了~...

正值2023年618期间&#xff0c;既然是全民购物节&#xff0c;有三AI所有付费的视频课程开启优惠活动&#xff0c;即日起至节日结束&#xff08;6月18日晚23:59&#xff09;。 当前已有课程包括数据使用/模型分析/图像分类/图像分割/目标检测/图像生成/图像翻译/图像增强/视频分…

虚假新闻检测概述

几个概念 社交网络的新闻往往包括新闻内容&#xff0c;社交上下文内容&#xff0c;以及外部知识。其中新闻内容指的是文章中所包含的文本信息以及图片视频等多模态信息。社交上下文信息指的是新闻的发布者&#xff0c;新闻的传播网络&#xff0c;以及其他用户对新闻的评论和转发…

认识ChatGPT

ai是由dutuai训练的一种大型自然语言处理模型&#xff0c;能够进行自然语言对话。它基于预训练的语言模型gpt&#xff08;generative pre-trained transformer&#xff09;&#xff0c;具有强大的自然语言理解和生成能力。ai可以通过了解上下文并推断回应来与用户进行交互。它被…

ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」

来自&#xff1a;新智元 【导读】语言模型该怎么增强&#xff1f; ChatGPT算是点燃了语言模型的一把火&#xff0c;NLP的从业者都在反思与总结未来的研究方向。 最近图灵奖得主Yann LeCun参与撰写了一篇关于「增强语言模型」的综述&#xff0c;回顾了语言模型与推理技能和使用工…

数据库mysql

目录 数据库的实用性 操作网上商城数据库系统 维护数据库的完整性&#xff08;过&#xff09; 维护数据库的完整性是确保数据库数据的正确性和一致性的关键。以下是一些常见的方法来维护数据库的完整性&#xff1a; 添加修改和删除数据 查询网上商城系统数据 选择列 排…

reggie

分页 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width, initia…

Chat GPT是什么?初学怎么使用Chat GPT?

1.Chat GPT介绍 ChatGPT的全称是"Chat Generative Pre-training Transformer"&#xff0c;中文意思是“对话生成预训练变形器”。它是一种基于预训练的自然语言处理模型&#xff0c;旨在实现智能对话生成和理解。通过在大量文本数据上进行预训练&#xff0c;ChatGPT可…

AIGC for code(AIGC/AI生成代码/生成式AI之代码生成/AI编程工具/自动编程/自动生成代码/智能编程工具/智能编程系统)

AIGC&#xff0c;Artificial Intelligence Generated Content&#xff0c;人工智能生成内容 AIGC for code&#xff0c;AI生成代码 1 Github Copilot 1.1 简介 Copilot是由微软的子公司Github与openAI共同开发的人工智能&#xff08;AI&#xff09;驱动的编程助手。它能够直…

Windows下搭建局域网内简易git服务器

这里写自定义目录标题 概述配置步骤1.任意位置创建git 仓库2.启动Git Daemon3.其他电脑克隆工程4.开机自动启动5.其他配置注意事项 概述 由于和朋友小规模制作项目&#xff0c;又使用了UE5这样的庞然大物&#xff0c;准备整一个本地轻量化一些git版本管理。 查阅资料是发现git…

在Oracle Linux上部署Yunzai Bot v3保姆式教程/甲骨文云/云崽Bot/原神

去我的博客查看本文&#xff1a;在Oracle Linux上部署Yunzai Bot v3保姆式教程 – 肚 (iocky.com) 本文也在Github与gitee可用。 初始配置 直接注册最低配置的就ok了&#xff0c;这里不再赘述如何注册Oracle Cloud以及开设Compute Instance。 先点进目标实例&#xff0c;然后点…

保姆级教程:Linux和Windows下本地化部署Vicuna模型

目录 文章摘要一、Vicuna简介1. Vicuna模型定义2. Vicuna模型的应用场景3. Vicuna模型的训练数据4. Vicuna模型的版本5. 性能评估 二、linux 操作系统下部署1. 环境介绍2. 安装Python3.10.72.1 下载Python3.10.7安装包2.2 安装gcc编译器2.3 安装依赖包2.4 升级openssl版本2.4.1…

LLMs 诸神之战:LangChain ,以【奥德赛】之名

LLMs 一出&#xff0c;谁与争锋&#xff1f; 毫无疑问&#xff0c;大语言模型&#xff08;LLM&#xff09;掀起了新一轮的技术浪潮&#xff0c;成为全球各科技公司争相布局的领域。诚然&#xff0c;技术浪潮源起于 ChatGPT&#xff0c;不过要提及 LLMs 的技术发展的高潮&#x…