情感分析与LLMs角色扮演

29b278df352e277ddc8f3c94c38ba826.png

深度学习自然语言处理 原创
作者:wkk

就像人类在做一件事情的时候,可能需要尝试多次。LLM也是如此!这对于情感分析任务尤其如此,在情感分析任务中,LLM需要深入推理来处理输入中的复杂语言现象(例如,从句组成、反讽等),单个LLM生成的单回合输出可能无法提供完美的决策。

今天介绍的论文工作就上面提到的单一LLM框架在进行情感分析时的缺陷展开。

cb0533f0ad37f5c243bcb640f9172f3b.png

论文:Sentiment Analysis through LLM Negotiations
地址:https://arxiv.org/pdf/2311.01876.pdf

在博士毕业就有10篇ACL一作的师兄指导下是种什么体验

简介

LLM的发展为情感分析任务带来的新的解决方案。有研究人员使用LLM,在上下文学习(in-context learning, ICL)的范式下,仅使用少量的训练示例就能够实现与监督学习策略旗鼓相当的性能表现。

缺点:但是单个LLM产生的单轮输出可能无法提供完美的决策。针对情感分析任务,LLM通常需要阐明推理过程,以解决输入句子中的复杂语言现象。

创新:为了解决这个问题,本文提出了一种用于情感分析的多LLM协商策略。所提出的策略的核心是生成器-鉴别器框架,其中一个LLM充当生成器做出情感决策,而另一个充当鉴别器,任务是评估第一个LLM生成的输出的可信度。如下图所示。

f45580dd75c8436e9c3d935e8a8db584.png

具体步骤

  1. 推理生成器:一种LLM,它遵循结构化的推理链,增强生成器的ICL,同时为鉴别器提供评估其有效性的证据和见解;

  2. 推导鉴别器的解释;其他LLM,旨在为其判断提供评估后的理由;

  3. 协商:两个LLM充当生成器和鉴别器的角色,执行协商直到达成共识。

在情感分析基准上的实验表明,在所有基准中,所提出的算法始终比ICL基准产生更好的性能,甚至比Twitter和电影评论数据集上的监督基线更出色的性能。

相关工作

情感分析

情感分析是自然语言处理的热门研究方向之一。其研究方法和思路由早期的“序列模型+分类器”演化到ICL,并逐渐成为一种新的NLP任务范式。研究人员发现在二分类的情感分析中,ICL取得了出色的性能。然而在一些更加复杂的任务(如方面级情感分析)中,ICL的表现不如监督基线模型。

LLM and In-context Learning

LLM训练来自大规模的未标注语料库。LLM可以划分为三类:only Encoder,only Decoder and Encoder-Decoder模型。从GPT3.0开始,LLM通过ICL在许多自然语言处理任务中展现出了出色的性能。

LLM协作

LLM协作涉及多个LLM协同工作以解决给定任务。具体来说,任务被分解为几个中间任务,每个LLM被分配独立完成一个中间任务。给定的任务是在对这些中间结果进行集成或汇总后解决的。LLM协作方法可以利用LLM的能力,提高复杂任务的性能,并能够构建复杂的系统。

LLM情感分析协商

使用两个LLM充当答案生成器和鉴别器。将生成器和鉴别器之间的交互称为协商。协商将重复进行,直到达成共识或超过最大协商次数。图示如下图所示。

685de713376c1db644366f11b543c735.png

生成器

生成器由一个LLM扮演。通过提示询问基于ICL范式的答案生成器,旨在生成一个循序渐进的推理链,并对测试输入的情绪极性做出决定。提示由三个元素组成:任务描述演示测试输入。任务描述是用自然语言对任务的描述(如,“请确定测试输入的整体情感倾向。”);测试输入是测试集中的文本输入(例如,“天空是蓝色的”);演示是从训练中完成的任务。每一个都包含三个元素:输入、推理链和情感决策。对于每个测试输入,首先从训练集中检索K nearest邻居作为演示。然后,我们通过提示生成器生成推理链,将演示转换为(输入、推理过程、情绪决策)三元组。在连接任务描述、演示和测试输入后,将提示转发给生成器,生成器将以逐步推理链和情感决策作为响应。

鉴别器

鉴别器则是由另一个LLM扮演。在完成答案生成过程后,使用答案鉴别器来判断生成器所做的决定是否正确,并提供合理的解释。为了实现这个目标,首先为答案鉴别器构造提示。提示由四个元素组成:任务描述演示测试输入来自答案生成器的响应。任务描述是一段用自然语言描述任务的文本(例如,“请确定决策是否正确。“)。每个演示由六个元素组成:(输入文本、推理链、情感决策、鉴别者态度、鉴别器解释、鉴别器决策)并且通过提示回答鉴别器提供为什么情绪决定对于输入文本是正确的解释来构造。然后使用构造提示询问鉴别器。答案鉴别器将用文本字符串进行响应,该文本字符串包含表示鉴别器是否同意生成器的态度(即,是,否)、解释鉴别器为什么同意/不同意生成器的解释,以及确定测试输入情绪的鉴别器决定。

Why Two LLMs but Not One?

本文工作为何使用两个不同的LLM分别扮演生成器和鉴别器的原因:

  1. 如果LLM由于错误的推理而作为生成器出错,它更有可能也会犯与鉴别器相同的错误,因为来自同一模型的生成器和鉴别器很可能会犯类似的理由;

  2. 通过使用两个独立的模型,能够利用这两个模型的互补能力。

角色转换

在两个LLM以协商结束后,要求它们转换角色并启动新的协商,其中第二个LLM充当生成器,第一个LLM用作鉴别器。同样,角色转换协商也会结束,直到达成共识或超过最大协商次数。当两次协商达成协议,并且他们的决定相同时,选择其中一个决定作为最终决定,因为它们是相同的。如果一个协商未能达成共识,而另一个协商达成决定,将从达成共识的协商中选择一个决定作为最终决定。然而,如果双方协商达成共识,但双方的决定不一致,将需要额外的LLM帮助。

引入第三个LLM

如果两次协商的决定不一致,将引入第三个LLM,并与上述两个LLM中的每一个进行协商和角色转换协商。随后,将得到6个协商结果,并对这些结果进行投票:将最频繁出现的决策作为输入测试的情感极性。

实验

实验选择GPT3.5和GPT4.0作为骨干,并且使用以下三种不同的ICL方法。

  1. Vanilla ICL

  2. Self-Negotiation

  3. Negotiation with two LLMs

Dataset and methods

本文在六个数据集上进行实验,分别为:SST-2Movie ReviewTwitterYelp-BinaryAmazon-BinaryIMDB数据集。并选择了以下Baselines。

  1. supervised methods:DRNN, RoBERTa, XLNet, UDA, BERTweetEFL

  2. ICL methods:FLan-UL2, T5, ChatGPT, InstructGPT-3.5, IDS, GPT-4Self-negotiation

实验结果与分析

本文实验结果如下表所示:

68f5cadfcd8a5065944652a57fbaf3d7.png

从表中可以看出,与普通ICL相比,使用一个LLM(Self-negotiation)遵循generate-discriminate范式在六个情绪分析数据集上获得了性能增益:GPT-3.5增益平均+0.9;GPT-4增益平均+1.0 acc。这种现象表明,LLM作为答案鉴别器,可以校正由任务生成器引起的一部分错误。

此外,与仅使用一个模型相比,使用两个不同的LLM作为任务生成器和鉴别器反过来又带来了显著的性能改进。在MR、Twitter和IMDB数据集上,使用两个LLM的协商在准确性方面分别优于Self-negotiation方法+1.7、+2.1和+2.3。出现这种现象的原因是,使用两个不同的LLM通过协商完成情感分析任务,可以利用对给定输入的不同理解,释放两个LLM的力量,从而做出更准确的决策。

还发现,当引入第三个LLM来解决转换角色协商之间的分歧时,可以获得额外的性能提升。这表明第三个LLM可以通过多次协商解决两个LLM之间的冲突,并提高情绪分析任务的性能。值得注意的是,多模型协商方法在MR数据集上比监督方法RoBERTa Large高出+0.9,并弥合了普通ICL与监督方法之间的差距:在SST-2上实现94.1(+1.4)的准确度;Twitter上92.1(+2.7);对Yelp-Binary为96.3(+2.5);Amazon-Binary的87.2(+3.7);在IMDB数据集上为94.5(+6.0)。

本文在Twitter数据集上的消融实验结果如下表所示:

6453f754e18b993cb35421914defdaa3.png 9217d1edfebe7702736cc7c89a2be065.png

842fe6fb74b3336079200b0d3bd9951b.png结果表明:

  1. 利用异构LLM扮演不同的角色可以优化协商的性能。

  2. GPT-4的推理过程比3.5更明智,使前者的决策更有可能达成一致。

  3. 在协商过程中,LLM被要求阐明其推理原因过程具有重大的意义。

总结

在本文中,分析了基于单一LLM的情感分析方法的局限性,并引入了一种新的角色转换的多LLM协商方法,以提高情感分类的准确性和可解释性。在多个基准上的实验表明,与传统的ICL和许多监督方法相比,本文提出的方法具有优势。未来的工作可以探索优化速度和资源消耗的框架,使基本原则适应其他NLP任务,并设计明确的协商模块,以识别和减轻单个LLM中存在的偏见和解码错误的影响。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

4926a0c571b0dfe692287f801cbb152c.png

id:DLNLPer,记得备注呦

7afc4fcfdab9e6f58dc6835600e24f7f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/184875.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「Qt Widget中文示例指南」如何模拟一个时钟?

Qt 是目前最先进、最完整的跨平台C开发工具。它不仅完全实现了一次编写,所有平台无差别运行,更提供了几乎所有开发过程中需要用到的工具。如今,Qt已被运用于超过70个行业、数千家企业,支持数百万设备及应用。 点击获取Qt Widget组…

康耐视深度学习ViDi-ViDi四大工具之一蓝色定位工具/Locate

目录 工具介绍使用步骤说明调整工具ROI添加特征标签生成定位姿态训练并审核模型编辑器参数说明蓝色定位工具/Locate工具 工具介绍 蓝色定位工具用于识别和定位图像中的特定特征或特征组。该工具的输出可用于为其他ViDi 工具提供位置数据。使用该工具时,您提供图像训练集,然后…

Apache Doris (五十二): Doris Join类型 - Broadcast Join

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录 1. Broadcast Join原理

Vue+OpenLayers 创建地图并显示鼠标所在经纬度

1、效果 2、创建地图 本文用的是高德地图 页面 <div class"map" id"map"></div><div id"mouse-position" class"position_coordinate"></div>初始化地图 var gaodeLayer new TileLayer({title: "高德地…

python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

python数据分析的实战篇&#xff0c;围绕实例的数据展开分析&#xff0c;通过数据操作案例来了解数据分析中的频繁用到的知识内容。 抖音用户数据分析 1.理解数据 数据字段含义 了解数据内容&#xff0c;确保数据来源是正常的&#xff0c;安全合法的。理解一下每一个字段的…

C站你好,和你相遇的第1825天

文章目录 机缘收获日常成就憧憬 机缘 ①. 你好,C站 ②. 初识JAVA编程,遇到问题,粘贴问题百度搜索,大都数出来的解决方案都能在C站得到解决,对C站有一定的好感 ③. 起初在CSDN写博客,主要用来记录日常学习过程中的笔记、不断调整自己的笔记,如JAVA基础、框架、虚拟机等,为后…

java传base64返回给数据报404踩坑

一、问题复现 1.可能因为base64字符太长&#xff0c;导致后端处理时出错&#xff0c;表现为前端请求报400错误&#xff1b; 这一步debug进去发现base64数据是正常传值的 所以排除掉不是后端问题,但是看了下前端请求,猜测可能是转换base64时间太长数据过大导致的404 2.前端传…

聚观早报 |GPT-4周活用户数达1亿;长城汽车10月销量增加

【聚观365】11月8日消息 GPT-4周活用户数达1亿 长城汽车10月销量增加 xAI宣布推出PromptIDE工具 aigo爱国者连发5款儿童手表 SpaceX预计今年营收90亿美元 GPT-4周活用户数达1亿 在OpenAI首届开发者大会上&#xff0c;该公司首席执行官萨姆奥特曼&#xff08;Sam Altman&a…

删除word最后一页之后的空白页

最近编辑word比较多&#xff0c;有时最后一页&#xff08;最后一页内容还有可能是表格&#xff09;之后&#xff0c;还有一页空白页&#xff0c;单独按下backspace、del都删不掉&#xff0c;很让人着急。 经过查询有几种方法&#xff1a; &#xff08;1&#xff09;点击选中空…

C#中基于.NET6的动态编译技术

前几天要解决动态计算问题&#xff0c;尝试着使用了不同的方法。问题是给定一个包含计算的字符串&#xff0c;在程序运行中得到计算结果&#xff0c;当时考虑了动态编译&#xff0c;在网上查了一些资料完成了这项功能&#xff0c;可是基于不同的.NET平台使用的编程代码相差比较…

Spring Data JPA 项目配置与QueryDSL集成

一、说明 Spring Data JPA通过Spring Initializer创建时勾选相关依赖即可引入&#xff0c;QueryDSL需要单独引入。Spring JPA针对QueryDSL有比较好的兼容性&#xff0c;可以实现优雅的SQL构建。 二、设置JPA默认配置&#xff08;yaml格式&#xff09; spring:jpa:hibernate:…

【Linux】:使用git命令行 || 在github创建项目 || Linux第一个小程序——进度条(进阶版本)

在本章开始之前还是先给大家分享一张图片 这是C的笔试题 感兴趣的同学可以去试一试 有难度的哟 也可以直接在牛客网直接搜索这几道题目哈 好了今天我们正式进入我们的正题部分 &#x1f556;1.使用git命令行 安装git yum install git&#x1f560;2.在github创建项目 使用…

各省市90米分辨率DEM数据,多图可下载

之前给大家推了30米分辨率dem数据&#xff0c;有些小伙伴反应也需要90米的&#xff0c;于是今天就给大家推荐一个新数据 —— 各省市90米分辨率DEM数据&#xff01; 各省市90米分辨率DEM数据广泛应用于国土资源调查、水利水电工程、地质灾害预警、城市规划等领域&#xff0c;对…

10道高频Vuex面试题快问快答

※其他的快问快答&#xff0c;看这里&#xff01; 10道高频Qiankun微前端面试题快问快答 10道高频webpack面试题快问快答 20道高频CSS面试题快问快答 20道高频JavaScript面试题快问快答 30道高频Vue面试题快问快答 面试中的快问快答 快问快答的情景在面试中非常常见。 在面试过…

公开IP属地信息如何保护用户的隐私?

公开IP属地信息通常涉及与用户或组织的隐私有关&#xff0c;因此在公开此类信息时需要非常小心&#xff0c;以避免侵犯他人的隐私权。以下是触碰底线的几种情况以及如何保护网络安全和用户隐私&#xff1a; 个人隐私保护&#xff1a; 公开IP属地信息可能泄露用户的物理位置&…

响应式编程-Project Reactor Mono 介绍

响应式编程-Project Reactor Mono 介绍 本文以Mono的角度来介绍Reactor编程&#xff0c;Flux的使用同理。 初体验 Web应用 controller 方法在Spring webmvc 和 Spring webFlux下Controller方法实现示例如下&#xff1a; Spring webmvc: GetMapping("/test1") …

最新Cocos Creator 3.x 如何动态修改3D物体的透明度

Cocos Creator 3.x 的2D UI有个组件UIOpacity组件可以动态修改UI的透明度,非常方便。很多同学想3D物体上也有一个这样的组件来动态的控制与修改3D物体的透明度。今天基于Cocos Creator 3.8 来实现一个可以动态修改3D物体透明度的组件Opacity3D。 对啦&#xff01;这里有个游戏…

【深度神经网络(DNN)】实现车牌识别

文章目录 前言一、数据集介绍二、步骤1.导包2.参数配置3.数据处理4.模型定义5.模型训练6.模型预测 总结 前言 课内实践作业 车牌识别 一、数据集介绍 1.车牌识别数据集&#xff1a;VehicleLicense车牌识别数据集包含16151张单字符数据&#xff0c;所有的单字符均为严格切割且…

PTL仓储亮灯拣选系统优化仓库作业流程实现物料快速定位

随着现代企业的发展和生产模式的不断演进&#xff0c;仓库管理作为生产供应链中的重要环节&#xff0c;也在不断追求效率和精益化。为了实现企业的现代化仓库管理&#xff0c;实现仓库条码化、自动化、无纸化&#xff0c;做到物料和成品从入库、出库、退库、移库、盘点整个过程…

【UE4】UE编辑器乱码问题

环境&#xff1a;UE4.27、vs2019 如何解决 问题原因&#xff0c;UE的编码默认是UTF-8&#xff0c;VS的默认编码是GBK 通过"高级保存选项" 直接修改VS的 .h头文件 的 编码 为 UTF-8 步骤1. 步骤2. 修改编码后&#xff0c;从新编译&#xff0c;然后就可以解决编辑器…