前沿重器[34] | Prompt设计——LLMs落地的版本答案

前沿重器

栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经是20年的事了!)

2022年的文章合集,累积起来有60w字,在这:CS的陋室60w字原创算法经验分享-2022版。

往期回顾

  • 前沿重器[29] | ERNIE-Search:向交互式学习的表征式语义匹配代表作

  • 前沿重器[30] | 聊综述-预训练模型在信息检索中的应用

  • 前沿重器[31] | 理性聊聊ChatGPT

  • 前沿重器[32] | 域外意图检测——解决“没见过”的问题

  • 前沿重器[33] | 试了试简单的prompt

熟悉我的朋友都知道,我有混很多NLP相关的技术群,我现在的视角看挺多人现在想把自己的LLMs大模型用在自己的场景里,常用的调优方式都是考虑各种方式搞数据,然后根据自己的资源情况选择不同的训练策略去对模型进行微调,资源足够的可能就是整体微调了,资源不够的就是用LoRa之类轻量化微调(说起来我还有些前瞻性:前沿重器[27] | 从遗忘问题到预训练轻量化微调)

然而我自己其实觉得还是比较麻烦的,最近也跟几个朋友聊过,总结下来,在现阶段模型的生成和推理能力已经比较优秀的情况下,与其还去让模型学习,通过参数更新的方式倒腾,不如把精力集中在prompt上,通过多种方式的引导,来让模型输出我们想要的东西。

这篇文章讲的其实就是prompt的使用和思路,对很多人来说可能都不是难的东西了,然而我还想写的原因是,希望大家在这个环境下能适当减轻对“finetuning”的执念,因为很多问题,我们其实并不需要花时间和精力在微调上了,另外,也不要把设计prompt当做很low的东西,这背后其实是对模型特性的理解,而且我们还需要很多精力花在筛选、整合资源形成合理的prompt,而这,也不是随便找个人就能知道的。

这里叠个甲,不是说LLMs不需要研究了,只是,做应用搞业务,LLMs的训练可能没那么重要了,而Prompt就很有用。这个就跟bert时代,我们不需要很多预训练bert的人,做应用搞业务,只需要finetuning就够了,用大量的数据做MLM、NSP之类的任务其实没那么重要。

从WebCPM到知识输入

论文:WebCPM: Interactive Web Search for Chinese Long-form Question Answering,是来自清华、人大、腾讯、面壁智能联合完成的一个中文领域首个基于交互式网页搜索的问答开源模型框架,最近的新鲜出炉,文章里面其实提供了很多信息,大家可以多去看看。

  • 论文:WebCPM: Interactive Web Search for Chinese Long-form Question Answering

  • github:https://github.com/thunlp/WebCPM

  • 公众号:https://mp.weixin.qq.com/s/nIRSWHGN6TNAwhtQE8T-dA

文章本身首先聊到一个概念:长文本开放问答(Long-form Question Answering, LFQA),提到一种场景,就是人们在获取知识的时候,主要是通过搜索等多渠道获取,然后进行整合、提取,从而来解决比较复杂的问题,LFQA就是为了解决这种问题存在的,而其主要的框架主要分为两块——“检索-整合”(文章中说的综合,我更愿意理解为整合)。检索是为了从库里面快速找到可能有答案的内容,这些内容会被整理成为prompt,配合query就能够放入LLM里面进行提取并得到回复了,后面这个过程就是整合。

这个“检索-整合”,就是今天想说的使用LLM的快捷方式,无论是现在的WebCPM,还是早一些的langchain,其实本质都是使用了这个思路。

检索-整合模式的讨论

LLM往往是在开放域数据环境下训练的,那么势必他所擅长的,就是常见的、开放的、普适的问题,然而到了我们实际的场景,我们面对的问题往往是细小的、精准的、专业的,定制的甚至即时的,但凡经过专业的评测就会发现,LLMs在这些问题下并没有想象的那么好,而这个最本质的原因,我想把他分成两点:

  • 知识的覆盖率问题。专业领域或者是即时性要求比较高的领域,模型没见过的知识,很难会自己突然就知道,这跟文学专业同学不了解数学系知识,数学系同学不了解文学系知识是一样的。

  • 业务的定制性问题。在特定领域下,我们对答案的要求是定制的,和业务问题强相关的,例如transformer可以是变形金刚、变压器甚至是我们所熟知的模型,具体要翻译成哪个要看场景,再例如有些我们需要的特定格式的答案,需要告知模型。

按照上一个版本,即以Bert为代表的预训练模型时代,我们熟知的方案就是带着知识点,去微调模型,让模型去具备我们需要的能力。然而到了新版本,LLMs其实我们也应该去学习一下新版本的方案了。

从检索-整合到问题设计的推广

为什么“检索-整合”机制会生效,这个就要从prompt开始说起,现在毋庸置疑,prompt肯定是一个非常有效的方案了,通过给出一定的提示,能让模型输出更为准确的结果,生成能力并不强大的bert的无监督尚且能达到一个不错的效果(前沿重器[33] | 试了试简单的prompt),那么对于生成能力更强的GPT甚至他们的升级版,还有现在LLMs下的多个基座模型,更不必多说。再者,检索-整合的这种模式,分离了业务需求和模型生成推理能力,业务需求是可以定制的,也需要具备定制能力的,而模型生成可以是固定通用的,毕竟模型在这个阶段下已经具备了推理能力了。换个角度看,其实在这个思路下,模型更像是在做机器阅读理解MRC任务,模型能够根据提供的文档,给出问题的答案,大大降低了模型的压力,也能把问题进行拆解,方便我们后续进行调优。

而进一步的推广,检索可能并非必须,只是某些问题场景下我们需要检索罢了,但是也有些时候,我们是可以通过必要的提示来让模型来模仿,一方面是模仿回复的形式,另一方面还可以模仿推理逻辑,甚至可以解决fewshot的问题。有关这块的理论基础,其实就是in-context learning,模型具有比较强的即时模仿和推理能力,有些知识或者需求不需要学到模型里面去,而是通过在输入端教他们,他们就会模仿着去做起来,这点,也是我们这种“检索-整合”可行的最关键的基础。

来几个例子

下面,我会通过几个例子,让大家感受一下这个模式的一些优势。下面都是我用chatglm-6b-int4得到的结果。

第一个例子,是天气,天气作为即时性要求很高的任务,模型肯定很难应对,但是如果我们能给模型提供到这个信息,那模型就能够回答,而这里的信息来源,就来源于我们的搜索,这个搜索的结果能为模型回复带来很关键的支持。

Q:深圳今天的天气。 

A:抱歉,作为一个人工智能语言模型,我没有实时的天气信息。建议您查看当地天气预报或使用天气应用程序来获取最新的深圳天气信息。

Q:今天深圳晴,27-32摄氏度;北京阴,16-22摄氏度;上海多云,22-26摄氏度。请问深圳今天的天气 

A:根据提供的信息,深圳今天的天气是晴,温度在27-32摄氏度之间。

第二个例子,利用了模型的信息提取。很多人可能会问,我搜都能搜到结果出来,为什么还要你再跑一遍模型?我想说的是,模型的生成和抽取能力很强,能帮助你快速获取里面的关键信息,毕竟检索后,我们都需要花费很多时间来筛选、整合这些资源。而且,某些问题的提问下可能会隐含一些背景信息,这些背景知识模型不知道,而可以通过给出检索的结果,为模型更有力的回复支持。

Q:五月天演唱会在什么时候在哪举办? 

A:五月天演唱会通常在每年的4、5月份举办,地点包括台湾、香港、新加坡、马来西亚等地。

Q:新闻:鸟巢五月天演唱会将于5月26日开始在国家体育场举行。北京市公安局治安管理总队负责本次演唱会安全监管工作。为了使前来鸟巢的歌迷朋友们顺利观看演出,北京警方向观看演唱会的歌迷朋友们发布了微提示:一是本次演出实名制入场,请务必带好身份证原件及门票并妥善保管,自觉接受安检和验票。二是禁止携带摄像机、照相机、激光手电筒、自拍杆、超大荧光棒(长度50cm直径3cm以上)、超大灯牌(35cmX35cm以上)、长柄雨伞以及管制刀具等违禁品入场。三是观众入场时间为16时30分,正式演出于18时30分开始,请尽量提前入场(鸟巢南侧、西侧、北侧均有验票入口)、所持门票对号入座,不得串区,不得聚集,不得跨越隔离带。四是请妥善保管好自己随身携带的贵重物品,以防遗失和被盗。现场DK、JK两入口处设置有存包处,可供观众存放物品。五是演出过程中如遇意外情况发生,不要惊慌、不要相互拥挤,请在现场工作人员的指引下有序疏散,确保安全。六是演出结束后(预计22时结束),请大家带好随身物品,听从现场工作人员指挥有序退场。七是请关注天气情况,根据天气预报携带合适的衣物,如遇下雨情况,建议穿防雨外套。八是警方将会同文化、市场监管等部门,开展专项整治工作,持续保持对黄牛零容忍打击态度,加强对文化市场的治理。九是演出当天人流、车流较大,请大家尽量选择公共交通工具前往观看演出。公交地铁出行。提问:五月天演唱会在什么时候在哪举办?

A:五月天演唱会将于5月26日开始在国家体育场举行。

第三个例子,模型具有很强的模仿能力。模型甚至能够按照我们给的例子,约束回复格式,这个其实就是in context learning的标注模式了。

Q:兼爱非攻是春秋战国百家争鸣中哪一家的主张?A:儒家;B:法家;C:道家;D:墨家。答案:

A:兼爱非攻是墨家的主张。在春秋战国时期,墨家是一个思想流派,其创始人是墨子。墨子主张兼爱、非攻,反对战争,认为战争只会破坏和平,而不会促进和平。这一主张得到了广泛认同,成为了墨家的主张,并被后来的各种流派所继承和发扬。

Q:问题:北京是中国的首都吗?A:是;B:不是。答案:A。问题:静夜思的作者是谁?A:杜甫;B:王安石;C:李白;D:张三丰。答案:C。问题:兼爱非攻是春秋战国百家争鸣中哪一家的主张?A:儒家;B:法家;C:道家;D:墨家。答案:A:D。

更多例子就不多说了,大家多少能够感受到,其实通过设计良好的提示,模型就能得到我们想要的结果了。

优劣势分析

好了,下面来进行一些优劣势分析吧,避免过度吹,我们还是要权衡着看的。

首先是优势:

  • prompt不需要对模型进行修改,因此类似模型遗忘、对话能力丧失、学不到等不可控因素都不会出现,也省了很多资源。

  • 解决知识输入的问题,很多模型不知道的东西,我们可以直接通过prompt的方式输入给模型。

  • prompt能够一定程度约束模型的输出格式,一定程度解决模型生成的过于自由的问题。

  • 比一般的检索,能给出更精准简洁的话语型回复。

劣势:

  • 偶发性,模型在回复的时候可能会出现杂糅信息,例如做多物品对比分析的时候,模型的回复内可能会出现多个物品特点杂糅,张冠李戴的情况。

  • 经常还要额外配合检索模块,开发成本提升,而且准确情况也依赖这个检索模块。

  • 文本输入会变长,增加识别压力。

后记

其实不久前有个朋友问过我一个问题,LLMs出来后,搜索系统会有什么革新,有什么应用场景,我最后的回答是,不是LLMs能帮助搜索什么,而是搜索能一定程度成就LLMs,因为模型需要信息整合,而这个整合,就是搜索系统所做的东西,借助搜索的比较精准的结果,给到LLMs,LLMs就能够输出足够可靠而又精准的内容。

cea34d38cb706fd6142f76d19450d007.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53991.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT 一招教你安装Mysql

MySQL是一种开源的关系型数据库管理系统(RDBMS),它使用SQL语言进行数据的管理和查询。MySQL最初由瑞典MySQL AB公司开发,现在由Oracle公司负责维护。 MySQL具有以下特点: 1. 开源免费:MySQL是一个开源软件,可以免费使用和分发。 2. 高性能:MySQL使用了一些高效的技术,如…

APP下载域名链接在微信被封,被拦截该如何处理

身在网站要想在微信端被使用,多多少少都会有预防被拦截,是专门为运营网站和公众号的运营者一个研究的工具几十你是正常网站, 也是公司企业备案,照样也会被拦截。这个被拦截一般来说就是你的这个域名已经在微信中打不开了,意思就是被封了。 就是这个会出现“已停止访问该网…

网站域名被微信/QQ红了(被封锁、被屏蔽、被和谐)后最好的解决方法

关于域名总被微信封杀、屏蔽、拦截,等问题。简单说下自己的经验。有不少用户私信我。累死了,统一说下: 域名被微信封杀,显示的是链接无法访问; 域名被微信拦截,是跟淘宝一样 - 如需浏览,请长按…

数字人的生死疲劳

你看好数字人吗? 这个问题在今天似乎颇难回答。如果从宏观趋势上看,数字人的利好要素似乎已经达到了一个空前的高度。比如有市场分析机构预测,到2026年中国AI数字人的市场规模将突破100亿人民币,整体市场呈现高速增长态势。又比如…

Docker获9500万美元D轮融资,估值或高达10亿美元

Docker此轮融资由Insight Venture Partners领投,高盛、 Coatue Management、Northern Trust跟投。C轮投资方红杉资本等也跟进了投资。 Docker CEO Benjamin Golub在宣布这一消息时,拒绝透露公司的估值,不过消息称Docker的估值很可能已经高达…

L1-064 估值一亿的AI核心代码 (20 分) Java

难受的一批的一道题 以上图片来自新浪微博。 本题要求你实现一个稍微更值钱一点的 AI 英文问答程序,规则是: 无论用户说什么,首先把对方说的话在一行中原样打印出来;消除原文中多余空格:把相邻单词间的多个空格换成 …

不足半年,估值到10亿美元的跨链新秀Axelar,实力还是噱头?

区块链跨链网络 Axelar 完成 3500 万美元的 B 轮融资,将这家初创公司的估值提高到 10 亿美元。 项目简介 Axelar 是通用覆盖网络,安全地连接所有区块链生态系统、应用程序、资产和用户,以提供 Web3 互操作性。 开发人员使 Web3 成为一个多…

商品期货的估值与驱动

商品期货很有意思,这个体系反馈比股票市场迅速,毕竟到了交割期现价格需要收敛。而且,毕竟期货背后是实物,是一个最终可以看得见摸得着的东西,价格不会跌到地底下也不会涨到九天之上。虽然股票背后是上市公司&#xff0…

字节跳动要上市?估值4000亿美元

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇 来源丨BAT https://mp.weixin.qq.com/s/UO7trvkRc5yRhPlJk-_k4g 近日有媒体爆料,字节跳动(香港)有限公司更名为抖音集团&#xff…

估值方法

1、股票估值方法 1.1、市盈率估值法(PE) 市盈率 股价 每股收益,其中,每股收益=利润/总股数,PE是指企业以目前的盈利水平,多少年能完全回本?计算公司为PE每股股价/每股收益&#…

13 Python总结之估值

未定权益的估值 蒙特卡洛模拟的最重要应用之一是未定权益(期权,衍生品,混合型工具等)的估值。简单地说,在风险中立的世界中,未定权益的价值是风险中立(鞅)测度下的折现后预期收益。…

2023微信手机号筛选器,快速检测出开通微信的号码,检测国外号码过滤微信状态,判断qq是否开通微信软件

筛选开通微信的号码后,提升加粉效率, | 微信筛选器可以快速检测出哪些开通微信的号码,和未开通的,分开保存,微信筛选过滤,手机号检测是否开通微信,QQ开通微信检测, #微信筛选器# #微…

战地服务器名字不显示号码的电话软件,打电话显示虚拟号码的软件,教你打电话隐藏号码...

打电话不显示号码(iPhone打电话怎么设置不显示号码)我们经常会收到一些莫名其妙的号码,来自法国、美国、巴西……各个地方的陌生电话。不知道的还以为朋友去了国外给自己一个惊喜。 打电话不显示号码(iPhone打电话怎么设置不显示号码) 接到了该怎么处理?…

虚拟号码怎么开通?

虚拟码号的开通方式基本一样 一、首先是企业实名,上传企业的证明文件,法人证件。 二、然后是提出开号需求,号码数量,号码区域 三、然后缴纳费用 四、等待3-8个工作日开号 通过API或者SDK接口接入自己的系统,要不就…

chatgpt赋能python:如何关闭Python中的Figure?

如何关闭Python中的Figure? 简介 在Python中使用Matplotlib生成图形时,我们会使用到Figure对象,它是图形的容器。在一些情况下,我们可能需要手动关闭这个Figure,例如多次运行程序导致Figure叠加、或者让程序周期性的…

用户登录·验证码测试登录

实现用户界面进行验证码测试登录 具体要求是: 实现一个网页中需要两次的判断,一个判断验证码是否正确,一个登录学号与密码是否正确; 代码如下: 1.LoginController的代码 1.这里的判断语句中,如果验证码…

利用kaptcha生成登录验证码

利用kaptcha生成登录验证码 导入包 <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version></dependency>由于spring没有整合kaptcha&#xff0c;自定义一个katcha的…

登录的验证码

登录的验证码样板如下&#xff1a; 代码如下&#xff1a; 前端&#xff1a; * 获取验证码 *<div class"form-group row" style"margin-right:-65px;"><div class"col-sm-9 col-xl-10 pr-0"><div class"input-group"&…

登入验证码的识别

放在前面 无深度学习无机器学习 在以前的博客中,教务系统一键查询成绩我在登入这一步,使用的腾讯文字识别的api虽然说免费用3000次,但总觉得受限于人,今天捣鼓了一天,终于用自己的方法实现了验证码识别,虽然很简陋,但是终归是实现了,哈哈. 在昨天刚了解完支持向量机,当时就想…

kaptcha 验证码技术的应用

一.背景 图形验证码的生成与使用&#xff08;防止机器恶意攻击&#xff09; 二.代码&#xff08;使用&#xff09; 1.添加Maven依赖 <!--验证码 --> <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId&…