ChatGPT时代情感分析还存在吗?一份真实调查

34a7020a0a095fdee4c75d5001ae6853.jpeg

深度学习自然语言处理 原创
作者:qazw

引言

最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是在zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子,但是哪种LLM适用于SA任务依然是不清晰的。

36b92662df88cdcaa0ed99bbeb57f186.png

论文:Sentiment Analysis in the Era of Large Language Models: A Reality Check
地址:https://arxiv.org/pdf/2305.15005.pdf
代码:https://github.com/DAMO-NLP-SG/LLM-Sentiment

这篇工作调查了LLM时代情感分析的研究现状,旨在帮助SA研究者们解决以下困惑:

  • LLM在各种情感分析任务中的表现如何?

  • 与在特定数据集上训练的小模型(SLM)相比,LLM在zero-shot和few-shot方面的表现如何?

  • 在LLM时代,当前的SA评估实践是否仍然适用?

实验

实验设置

1、调查任务和数据集

该工作对多种的SA任务进行了广泛调查,包括以下三种类型任务:情感分类(SC)、基于方面的情感分析(ABSA)和主观文本的多面分析(MAST)。c6d8431468035e7e77ac42d76c291f47.png

2、基线模型

Large Language Models (LLMs)  LLM将直接用于SA任务的推理而没有特定的训练,本文从Flan模型家族中选取了两个模型,分别是Flan-T5(XXL版本,13B)和Flan-UL2(20B)。同时,采用了GPT-3.5家族两个模型,包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003,175B)。为了正确性预测,这些模型的温度设置为0。

Small Language Models (SLMs)  本文采用T5(large版本,770M)作为SLM。模型训练包括全训练集的方式和采样部分数据的few-shot方式,前者训练epoch为3而后者为100。采用Adam优化器并设置学习率为1e-4,所有任务的batch大小设置为4。为了稳定对比,为SLM构造3轮不同随机seed的训练,并采用其平均值作为结果。

3、Prompting策略

b66eace49ca8e20c9e9030d9e0cffa72.png
SC,ABSA,和MAST的提示实例。虚线框为few-shot设置,在zero-shot设置时删除。

为了评估LLM的通用能力,本文为不同模型采用相对一致的的propmts,这些propmts满足简单清晰直接的特性。对于zero-shot学习,propmt只包含任务名、任务定义和输出格式三个必要组件,而对于few-shot学习,将为每个类增加k个实例。

实验结果

1、Zero-shot结果
7e51adc356928d1b8901de5d94b4f581.png对于LLM,直接将其用于测试集上进行结果推理。对于SLM,先将其在完整训练集上fine-tuned然后再用于测试,从上图结果中可以观测到:

LLM在简单SA任务上表现出强大的zero-shot性能  从表中结果可以看到LLM的强大性能在SC和MAST任务上,而不需要任何的前置训练。同时也能观察到任务稍微困难一点,比如Yelp-5(类目增多)和,LLM就比fine-tuned模型落后很多。

更大的模型不一定导致更好的性能  从表中结果可以看到LLM对于SC和MAST任务表现较好,而且不需要任何的前置训练。但是也能观察到任务稍微困难一点,比如Yelp-5(类目增多),LLM就比fine-tuned模型落后很多。

LLM难以提取细粒度的结构化情感和观点信息  从表中中间部分可以看出,Flan-T5和Flan-UL2在ABSA任务根本就不适用,而text-003和ChatGPT虽然取得了更好的结果,但是对于fine-tuned的SLM来说,依然是非常弱的。

RLHF可能导致意外现象  从表中可以观察到一个有趣现象,ChatGPT在检测仇恨、讽刺和攻击性语言方面表现不佳。即使与在许多其他任务上表现相似的text-003相比,ChatGPT在这三项任务上的表现仍然差得多。对此一个可能的解释是在ChatGPT的RLHF过程与人的偏好“过度一致”。这一发现强调了在这些领域进一步研究和改进的必要性。

2、Few-shot结果
5cbc0a3a6c6e9588d9fa079efa7bf826.png本文采用了手中K-shot的设置:1-shot, 5-shot, 和10-shot。这些采样的实例分别作为LLM上下文学习实例以及SLM的训练数据。可以有如下发现:

在不同的few-shot设置下,LLM超越SLM  在三种few-shot设置中,LLM几乎在所有情况下都始终优于SLM。这一优势在ABSA任务中尤为明显,因为ABSA任务需要输出结构化的情感信息,SLM明显落后于LLM,这可能是由于在数据有限的情况下学习这种模式会变得更加困难。

SLM通过增加shot在多数任务性能得到持续提升  随着shot数目的增加,SLM在各种SA任务中表现出实质性的提升。这表明SLM能有效利用更多的示例实现更好的性能。任务复杂性也可以从图中观察到,T5模型用于情感分类任务性能逐渐趋于平稳,然而对于ABSA和MAST任务,性能继续增长,这表明需要更多的数据来捕捉其基本模式。

LLM shots的增加对不同任务产生不同结果  增加shot数目对LLM的影响因任务而异。对于像SC这种相对简单的任务,增加shot收益并不明显。此外,如MR和Twitter等数据集以及立场和比较任务,甚至随着shot的增加,性能受到阻碍,这可能是由于处理过长的上下文误导LLM的结果。然而,对于需要更深入、更精确的输出格式的ABSA任务,增加few数目大大提高了LLM的性能。这表明更多示例并不是所有任务的灵丹妙药,需要依赖任务的复杂性。

SA能力评估再思考

呼吁更全面的评估  目前大多数评估往往只关注特定的SA任务或数据集,虽然这些评估可以为LLM的情感分析能力的某些方面提供有用见解,但它们本身并没有捕捉到模型能力的全部广度和深度。这种限制不仅降低了评估结果的总体可靠性,而且限制了模型对不同SA场景的适应性。因此,本文试图在这项工作中对广泛的SA任务进行全面评估,并呼吁在未来对更广泛的SA工作进行更全面的评估。

呼吁更自然的模型交互方式  常规情感分析任务通常为一个句子配对相应的情感标签。这种格式有助于学习文本与其情感之间的映射关系,但可能不适合LLM,因为LLM通常是生成模型。在实践中不同的写作风格产生LLM解决SA任务的不同方式,所以在评估过程中考虑不同的表达以反映更现实的用例是至关重要的。这确保评估结果反映真实世界的互动,进而提供更可靠的见解。

prompt设计的敏感性  如图所示,即使在一些简单的SC任务上,prompt的变化也会对ChatGPT的性能产生实质性影响。当试图公平、稳定地测试LLM的SA能力时,与prompt相关的敏感性也带来了挑战。当各种研究在一系列LLM中对不同的SA任务使用不同的prompt时,挑战被进一步放大。与prompt相关的固有偏见使采用相同prompt的不同模型的公平对比变得复杂,因为单个prompt可能并不适用于所有模型。

64a4f6be9a4869d81eba5e10ae0f8d4c.png

为了缓解上述评估LLM的SA能力时的局限性,本文提出了SENTIEVAL基准,用于在LLM时代进行更好的SA评估,并利用各种LLM模型进行了再评估,结果如图所示。43a5e51e38f5a4ca24d1aa422f5d61fe.png

总结

这项工作使用LLM对各种SA任务进行了系统评估,有助于更好地了解它们在SA问题中的能力。结果表明,虽然LLM在zero-shot下的简单任务中表现很好,但它们在处理更复杂的任务时会遇到困难。在few-shot下,LLM始终优于SLM,这表明它们在标注资源稀缺时的潜力。同时还强调了当前评估实践的局限性,然后引入了SENTIEVAL基准作为一种更全面、更现实的评估工具。

总体而言,大型语言模型为情感分析开辟了新的途径。虽然一些常规SA任务已经达到了接近人类的表现,但要全面理解人类的情感、观点和其他主观感受还有很长的路要走。LLM强大的文本理解能力为LLM时代情感分析探索之路提供了有效的工具和令人兴奋的研究方向。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16730.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【精妙绝伦】写出查询所有用户的第2笔订单sql!!!

叹为观止的sql语句 SELECT user_id, order_id, order_date, amount FROM orders WHERE (SELECT COUNT(*) FROM orders o WHERE o.user_id orders.user_id AND o.order_date < orders.order_date ) 1 ORDER BY user_id, order_date阿里渣渣研发组群主分享

chatgpt赋能python:探索Python:如何找出大于5的数

探索Python&#xff1a;如何找出大于5的数 在Python编程中&#xff0c;我们常常需要对一系列数字进行操作和筛选。例如&#xff0c;我们需要找出一个列表中所有大于5的数字。本文将详细说明如何使用Python找出大于5的数&#xff0c;并讨论在实际应用中可能遇到的问题和解决方案…

利用chatgpt+低代码技术搭建进销存系统

1 前言 在当今数字化时代&#xff0c;企业管理系统已经成为各行各业不可或缺的一部分。而进销存系统更是企业管理中的重要组成部分&#xff0c;它可以帮助企业实现产品库存管理、采购管理、销售管理等多个方面的自动化管理。 然而&#xff0c;搭建一个高质量的进销存系统需要…

吴恩达联手OpenAI的免费课程笔记—面向开发人员的 ChatGPT 提示工程

目录 前言一、大语言模型介绍二、提示指南2-0、导入API key和相关的python库2-1、写清楚的、具体的提示2-1-1、使用分隔符清楚的指示输入的不同部分2-1-2、要求结构化的输出2-1-3、按照指定的条件输出2-1-4、少样本学习 2-2、给模型时间去思考2-2-1、指定完成任务所需要的具体步…

我用ChatGPT 7分钟生成一个Spring Boot博客项目,有点瑟瑟发抖!

我的《用ChatGPT生成一个SpringBoot应用》保姆级教程上线了。教程的核心是&#xff1a;思路和ChatGPT提示语&#xff0c;已经更新到我的知识星球专栏&#xff0c;目前已经累计实战项目60&#xff0c;目标500 看看ChatGPT生成的项目&#xff0c;Maven结构完整&#xff0c;可正常…

ChatGPT快速搞定前后端开发、测试、运维项目实战,一点代码都不用写!

《面向ChatGPT全栈开发实战》专栏上线了&#xff0c;写这个专栏的过程中&#xff0c;我真有点恐慌&#xff0c;感觉我得失业&#xff0c;因为ChatGPT实在太牛逼了。 注意&#xff1a;由于账号越来难注册&#xff0c;仅限前200名送ChatGPT独立账号&#xff0c;没有的抓紧了。 Ch…

使用机器学习预测股价

股票价格预测有助于确定未来几天或几周内股票的走势&#xff0c;或者至少显示趋势。股票价格取决于多种因素&#xff0c;例如&#xff1a; 基本因素&#xff1a;收入&#xff0c;利润&#xff0c;市场份额&#xff0c;业务的潜在增长前景 外部因素&#xff1a;大流行病&#…

[股票预测]股票历史数据获取

目 录 一、编程环境准备 第一步&#xff1a;安装Anaconda3 第二步&#xff1a;安装工具包Pandas、tushare 第三步&#xff1a;查看Pandas、tushare版本 二、股票历史行情数据提取 2.1获取近3年个股日线交易数据 2.1.1 个股交易接口函数get_hist_data() 2.1.2兴蓉环境(…

股票预测数据与真实数据对比图(八)2021/07/16

重点在于echarts的option 经过查阅文档可以知道&#xff0c;对于echarts的使用&#xff0c;对于图表要绘制的内容是填写在option这一选项&#xff0c;并通过 charts.setOption(option,true); 这条命令来达到刷新图表内容的作用&#xff0c;因此在已经监听了绘制图表类型的基础…

解读:通过挖掘股票内在特征预测股票趋势

写在前面 下面这篇文章的内容主要是来自发表于KDD2019的一篇文章《Investment Behaviors Can Tell What Inside: Exploring Stock Intrinsic Properties for Stock Trend Prediction》。这篇文章发现&#xff0c;职业基金经理们对于股票的共同投资行为可以反应股票的内在属性&a…

使用DeepAR实现股价预测

使用DeepAR实现股价预测 文章目录 使用DeepAR实现股价预测获取股票列表从众多股票中采样100支日期处理函数拉取等长度的股票&#xff0c;并保存 各指标解释预测区间长度及上下文选取给这78支股票所在行业进行归类 目标变量处理协变量处理协变量归一化操作 训练、测试数据划分训…

基于tushare的股票评级与预测

本文内容 股票评级思路&#xff08;一&#xff09; 用百度得到的股票评级六大要素进行股票评分&#xff0c;并用后面的数据对其进行正确性检测。股票评级思路&#xff08;二&#xff09; 在思路一的基础上加入大盘历史的涨跌数据&#xff0c;对评分进行了优化&#xff0c;也进…

python采集往期股票数据进行分析预测

前言 嗨喽~大家好呀&#xff0c;这里是魔王呐 ❤ ~! 准备工作 既然要去赚马内&#xff0c;咱们首先要获取往期的数据来进行分析&#xff0c; 通过往期的规律来对当前进行预测&#xff0c;准不准我不知道&#xff0c;反正比人预测的准&#xff0c; 不准也不要喷我&#xff0…

[ChatGPT最强竞品]爆火,不限量不要钱不用魔法免费注册!

1免责声明 本公众号所发布的文章及工具只限交流学习&#xff0c;本公众号不承担任何责任&#xff01;如有侵权&#xff0c;请告知我们立即删除。 原文地址&#xff1a;[ChatGPT最强竞品]爆火&#xff0c;不限量不要钱不用魔法免费注册&#xff01; 2Claude 介绍 Claude 是下一代…

免费可用!ChatGPT最强竞品来了

&#xff08;永久免费&#xff0c;扫码加入&#xff09; 来源&#xff1a;机器之心 此次&#xff0c;Claude 2 除了一大波能力上的升级&#xff0c;更重要的是大家都可以用了。 今日&#xff0c;那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新…

chatgpt-AIGC-从数学开始

向量 向量是由n个实数组成的一个n行1列&#xff08;n*1&#xff09;或一个1行n列&#xff08;1*n&#xff09;的有序数组&#xff1b; 点积 - 向量的点乘,也叫向量的内积、数量积&#xff0c;对两个向量执行点乘运算&#xff0c;就是对这两个向量对应位一一相乘之后求和的操作…

ChatGPT不仅能写代码还能改bug,这届AI全能

工欲善其事必先利其器&#xff0c;我们先来看一下什么是ChatGPT。小试牛刀&#xff0c;让ChatGPT自己来回答一下&#xff1a; 从介绍中可以看出来ChatGPT很擅长处理自然语言&#xff0c;那我们来看看AI处理编程语言的效果如何呢&#xff1f; 第一个挑战&#xff0c;让ChatGP…

如何搭建与使用FTP服务器

文档资料&#xff1a;https://download.csdn.net/download/wangshuxuncom/87845843https://download.csdn.net/download/wangshuxuncom/87845843 视频教程&#xff1a;如何搭建与使用FTP服务器_哔哩哔哩_bilibili如何搭建与使用FTP服务器共计5条视频&#xff0c;包括&#xff…

如何使用Harbor私有镜像仓库

文档资料&#xff1a;https://download.csdn.net/download/wangshuxuncom/87835045https://download.csdn.net/download/wangshuxuncom/87835045 视频教程&#xff1a;服务端_哔哩哔哩_bilibili服务端是如何使用Harbor私有镜像仓库的第1集视频&#xff0c;该合集共计5集&#…

Docker插件一键部署SpringBoot项目

视频&#xff1a; Docker插件一键部署SpringBoot项目_哔哩哔哩_bilibiliDocker插件一键部署SpringBoot项目共计4条视频&#xff0c;包括&#xff1a;环境搭建、集成Docker、创建项目等&#xff0c;UP主更多精彩视频&#xff0c;请关注UP账号。https://www.bilibili.com/video/…