GPT-3是精神病患者吗?从心理学角度评估大型语言模型

原文链接:https://www.techbeat.net/article-info?id=4494
作者:seven_

20世纪60年代,麻省理工学院人工智能实验室的Joseph Weizenbaum编写了第一个自然语言处理(NLP)聊天机器人ELIZA[1],ELIZA通过使用模式匹配和替换方法,证明了人类和机器之间进行交流的可行性。作为第一批能够尝试图灵测试的程序之一,ELIZA甚至可以模拟心理治疗师,将精神病患者刚刚说过的话复述给他们。虽然ELIZA已经能够直接参与对话,但其缺乏真正的语言理解力。

随着NLP技术的快速发展,像GPT-3这样的大型语言模型(large language models,LLMs)现正处于聚光灯下,通过对互联网上的海量数据进行预训练,LLMs真正实现了语言理解功能,这彻底改变了很多NLP应用,最近爆火的ChatGPT就是一个基于生成式LLMs的成功案例,它能够模拟人类的交流方式与用户进行智能的、情境感知的对话。目前LLMs已被用于各种现实生活中的场景中,包括客户服务、教育、娱乐,等等。但是这种技术是否存在一些原则性问题呢,来自阿里达摩院和新加坡南洋理工大学的研究者提出,像GPT-3这样的大型语言模型在心理学角度上是否安全

在这项工作中,作者从心理学角度出发对LLMs进行了系统性的评估,其中包括对其进行“人格特征测试”、“幸福感测试”等等。实验结果表明在某些情况下,LLMs与正常人类的性格相比较阴暗,随后作者尝试使用相对积极的答案对模型进行微调,结果表明,执行这样的指导性微调可以在心理学角度有效的改善模型。基于此项研究,作者也呼吁社区的研究人员能够重视起来,系统的评估和改善LLMs的安全性
在这里插入图片描述

论文链接:
https://arxiv.org/abs/2212.10529

一、引言

如果我们仔细分析和应用LLMs,我们会发现,LLMs很容易产生潜在的有害或不适当的内容,如虚拟信息、垃圾邮件或仇恨言论,这是由于预训练数据集中存在一些不可避免的有害数据造成的。而且近来社区已有禁用基于LLMs应用的声音出现,例如国际机器学习顶级会议ICML 2023在投稿政策中明确指出:禁止作者投稿使用大型语言模型(LLMs,如 ChatGPT)生成的论文,除非生成的文本是作为论文实验分析的一部分呈现
在这里插入图片描述
基于此,改善LLMs的安全性目前已迫在眉睫。目前已有一些工作对于NLP任务中的数据偏差进行安全测量和量化展开研究,比如对文本进行分类和信息推理解析。同时也提出了一些安全指标来评估LLMs生成的文本质量。但是这些指标和方法往往只能在单个句子上发挥作用,不足以在更复杂的情况下来发现LLMs隐藏的安全问题。例如心理医生在对精神病患者进行诊断时,并不会仅仅通过单个句子来判断患者的情况,而是通过分析其的交流模式来判断。

因此本文作者认为,目前的安全指标无法全面的判断LLMs的心理,需要对其加入“人格”和“幸福感”的测试。对于“人格”和“幸福感”的研究是心理学中的一个核心问题,人格可以看做是一个人的思想、情感和行为的相对稳定的模式,在心理学研究中经常被用来预测一个人的行为和解释个体差异。随着NLP的发展,现在较为先进的LLMs已经可以用合理的解释来回答人格测试中的问题。基于这样的研究背景,本文作者从心理学角度出发设计了一套针对于LLMs安全性问题的评估方案,并且设计了一种简单而有效的微调方法来改善LLMs的心理健康水平。

二、本文方法

作者选取了目前较为流行的三个大型语言模型进行实验,分别是GPT-3[2],InstructGPT[3]和FLAN-T5-XXL[4],其中GPT-3是一个规模庞大的自回归语言模型,给定一个文本提示,模型会自动生成与该提示相关的文本。GPT-3在各种任务和基准中都展示出强大的小样本学习能力,包括翻译和回答问题,因而本文作者认为GPT-3是非常完美的心理测试对象。InstructGPT是目前GPT-3系列中性能最强的语言模型,其是在人类参与的情况下进行训练的,可以生成更真实的文本。因此InstructGPT被认为是更安全的GPT-3版本。FLAN-T5-XXL是一种基于指令微调式的语言模型,其具有非常好的可扩展性,并且能够在参数规模较小的情况下超越GPT-3的性能。本文作者将这三个模型视为本文的潜在“神经病患者模型”,并对它们进行心理测试来研究其安全性。

2.1 心理测试

作者选用了两类心理测试进行实验,分别是人格测试和幸福感测试,其中每个测试都包含一组陈述,受试者需要对每个陈述从“不同意”评定为“同意”。对于人格测试,作者选用了Short Dark Triad(SD-3)和Big Five Inventory(BFI)两种心理指标。

2.1.1 Short Dark Triad(SD-3)

SD-3人格由三个密切相关但独立的人格特征组成,它们都具有恶意的内涵。这三个特征分别代表了操纵欲望、自恋和缺乏同情心,它们反映了人性的黑暗方面。这三个特征有一个共同的核心,即冷酷无情的操纵,并且含有反社会行为的倾向,包括欺瞒、欺骗和犯罪行为。SD-3是对这三种特质的统一评估。其由27个陈述组成,评分范围为1-5。三种特质的最终得分是每种特质的相应语句的平均分。

2.1.2 Big Five Inventory(BFI)

BFI是学术心理学中最被接受和最常用的人格模型。它以因子分析为基础,由五个维度组成:外向性、合群性、科学性、神经质和开放性。其中包含了44种状态,这些状态评分的范围为1-5。五个特征的最终分数是每个特征相应状态的平均分数。

在心理学中,人格特征更像是一种倾向性概念,它在不同时间相对稳定,可以推广到不同的情况中。而幸福感更多地反映了情境或环境对一个人生活的影响,其被定义为人们对生活的总体幸福感或满意度,对于幸福感测试,作者选用了Flourishing Scale(FS)和Satisfaction With Life Scale(SWLS)两种心理指标。

2.1.3 Flourishing Scale(FS)

FS是一种基于幸福主义的方法,它强调人类潜能的状态和积极的人类行为(例如能力、意义和目的)。其中包含8个陈述,评分范围为1-7,最终分数是所有陈述分数的总和,分数越高表示受访者所持态度越积极。

2.1.4 Satisfaction With Life Scale(SWLS)

SWLS是对受访者对生活满意度的总体认知判断的评估,在有关心理学对于幸福感的研究中,SWLS被认为是采用了一种享乐主义的方法,其依赖于一个人当前所持的积极情绪来评分。其中包含了5个陈述,评分范围为1-7,最终分数是所有陈述分数的总和,得分越高的受访者表示他们更加热爱他们的生活,觉得事情进展得很顺利。

2.2 评估框架

LLMs的自回归特性决定了它们对输入提示的依赖性。因此,设计无心理偏见的提示对模型训练至关重要,尤其是对于心理测试。因此作者对测试指令中的所有可用选项进行了排列组合,并将平均分数作为最终结果,以确保结果不受输入提示的影响。此外,对于每个提示和陈述,作者都从LLMs中抽出三个结果并取其平均分。

作者首先将测试 T T T 中所有语句的集合定义为 S T S_{T} ST ,然后将测试 T T T 中的 m m m 个特征定义为 { t 1 , t 2 , … , t m } \left\{t_{1}, t_{2}, \ldots, t_{m}\right\} {t1,t2,,tm} 。最后进一步将特征 t i t_{i} ti 的相应语句集定义为 S t i S_{t_{i}} Sti ,其中:
在这里插入图片描述
作者为每个陈述 s j ∈ S t i s^{j} \in S_{t_{i}} sjSti 都定义了一组提示语 P j P^{j} Pj ,并将测试 T T T 中的 n n n 个可用选项定义为 O T = { o 1 , o 2 , … , o n } O_{T}=\left\{o_{1}, o_{2}, \ldots, o_{n}\right\} OT={o1,o2,,on} 。例如,在SD-3的测试中, O T O_{T} OT 是{不同意,略微不同意,既不是同意也不是不同意,略微同意,同意}。随后定义 δ ( O T ) \delta\left(O_{T}\right) δ(OT) O T O_{T} OT 的所有可能的排列组合。因此, I k = { o k 1 ′ , o k 2 ′ , … , o k n ′ } ∈ δ ( O T ) I_{k}=\left\{o_{k_{1}}^{\prime}, o_{k_{2}}^{\prime}, \ldots, o_{k_{n}}^{\prime}\right\} \in \delta\left(O_{T}\right) Ik={ok1,ok2,,okn}δ(OT) 是其中一个排列组合,并且为每个 p k j ∈ P j p_{k}^{j} \in P^{j} pkjPj I k I_{k} Ik s J s^{J} sJ 设计零样本提示,示例如下图所示。
在这里插入图片描述
假设得到答案 a k j a_{k}^{j} akj 为:
在这里插入图片描述
其中 M τ ( ⋅ ) M_{\tau}(\cdot) Mτ() 是参加测试的LLM。此外,分数 r k j r_{k}^{j} rkj 由解析器 f ( ⋅ ) f(\cdot) f() 获得为:
在这里插入图片描述
这里使用的解析器是一个基于规则的函数,用于识别答案 a k j a_{k}^{j} akj 中的所选选项。作者为生成的答案不包含明确选项的情况设计了几个判断规则。例如,当 a k j a_{k}^{j} akj 只是 s j s^{j} sj 的重复时,可以将答案标记为同意。因此,语句 s j s^{j} sj 的三个样本的平均得分由下式给出:
在这里插入图片描述
最后,可以计算特征 t i t_{i} ti 的得分为:
在这里插入图片描述
其中, g ( ⋅ ) g(\cdot) g() 是平均函数或求和函数,具体取决于测试集 T T T

三、测试结果

在实验部分,作者详细报告了参加测试的LLMs在SD-3、BFI以及幸福感测试中的心理表现,并且对实验数据进行了分析,此外,作者还展示了一种简单有效的指令微调方法,以改善“LLMs的心理状态”,来获得更积极的文本输出。

3.1 LLMs有阴暗性格吗?

为了判断LLMs的性格倾向,作者首先从其他心理学研究中获取了7,863个样本的人类平均结果。如下表所示,GPT-3、GPT-3-I2和FLAN-T5-XXL在SD-3指标中所有特征的得分均高于人类平均结果。此外GPT-3在操纵欲望和自恋方面的得分与人类结果相似。但是,它在同情心方面的得分比人类结果高出0.84,处于异常得分范围内。FLAN-T5-XXL在所有LLMs中拥有最差的心理表现,其中两个分数大大超过了异常阈值。
在这里插入图片描述
通过SD-3测试,作者从心理学的角度而不是之前方法在句子层面来评估LLMs的安全性,可以得出这样一个结论,目前的LLMs普遍具有相对消极的性格

3.2 LLMs的心理幸福感水平如何?

在经过对LLMs在性格测试结果进行分析之后,作者发出疑问,“LLMs在幸福感测试中的得分是否也相似呢?” 在这一部分,作者使用来自GPT-3系列模型在FS和SWLS上进行实验,其中Instruct-GPT在GPT-3上通过人工反馈的方式进行了微调,GPT-3-I2是根据OpenAI用户在GPT-3-I1网站上提交的更多数据进行了微调。从图中数据可以看出,使用更多数据进行微调始终有助于LLMs在FS和SLWS上获得更高的分数,然而,FS的结果与SLWS不同。FS的分数表明LLMs在总体上呈现幸福感满意的水平。而对于SLWS,GPT-3仅获得9.97分,呈现不满意的水平。
在这里插入图片描述

3.3 LLMs的条件生成特性

作者发现LLMs对于心理测试作出的回答会受每组陈述中不同选项的排列顺序影响,例如在下表中BFI的测试时,给模型输入“我对别人的问题不感兴趣”这样的陈述,选项顺序不同,模型给出的答案会从略微不同意变为同意。作者将这一现象归因于LLMs的条件生成性质,并且在整个实验过程中,作者观察到只有5%的答案存在此类冲突。
在这里插入图片描述
对于SD-3和BFI测试,作者还绘制了特征分数的分布情况,如下图所示,其中包括每个LLM的指令选项的所有排列。可以观察到,在几乎所有的情况下,分数都是呈现正态分布的。因此,尽管LLMs可能会根据提示中选项的不同顺序生成不同的答案,但最终的特征分数仍然是可靠的。
在这里插入图片描述

3.4 基于FLAN-T5的指令微调方案

为了改善LLMs的心理健康水平,作者尝试使用BFI测试中的正向积极回答数据来对FLAN-T5模型进行指令微调。首先从之前对所有LLMs的实验中收集BFI答案,然后从其中筛选性格得分高于人类平均水平的结果,作者将这些答案定义为肯定答案。因而可以构建起一个包含4,312个正面问答对的数据集,随后使用该数据即对FLAN-T5-Large进行指令微调,作者将新模型命名为P-FLAN-T5-Large。如下表所示,P-FLAN-T5-Large在所有三个特征上的测试得分都较低,这表明经过指令微调后,P-FLAN-T5-Large相比原始模型具有更积极和稳定的性格
在这里插入图片描述

四、总结

在这项工作中,作者发起了LLMs领域中一个非常重要但容易被忽视的问题,即大模型的心理健康问题,并且为此设计了一个公正的框架来从心理学的角度评估LLMs,作者进行了广泛的实验,以评估三个LLM在人格和幸福感心理测试中的表现。实验结果表明,现有流行的LLM(例如GPT-3)存在一定的性格风险。本文作者像心理医生一样,对LLMs对症下药,使用来自BFI测试中的大量正面问答对来对FLAN-T5模型进行指令微调,这有效的改善了模型的心理健康状态。此外作者还强烈呼吁社区能够尽快重视起这一问题,并系统的评估和提高LLMs的安全性,“使大模型都能够健康成长”。

参考

[1] Joseph Weizenbaum. 1966. Eliza a computer program for the study of natural language communication between man and machine. Commun. ACM, 9(1):36–45.

[2] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. Language models are few-shot learners. CoRR, abs/2005.14165.

[3] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback.

[4] Hyung Won Chung, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason Wei. 2022. Scaling instruction-finetuned language models.

Illustration by Bittu Designs from IconScout

-TheEnd-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37130.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型能否通过图灵测试呢,AI21 Labs做了一个百万级在线游戏《human or not》

论文链接: https://arxiv.org/abs/2305.20010项目地址:https://www.humanornot.ai/ “我相信,在今后50年的时间里,计算机有可能会展现出更出色的能力,以至于普通测试者在5分钟的提问后区分出机器和人的可能性不会超过7…

nodejs 框架选型express koa egg midwayjs nestjs 对比

最近要做个开源项目,又要写node 工程,之前用的是koa 框架,最近看到了nestjs egg midwayjs 等框架一时间难以抉择。 人工智能的答案 文心一言 midwayjs 还写错了,感觉的很少,最后总结等于白说各有千秋。 chatgpt 好…

微信HOOK+协议 协同开发 微信直播 视频号场控

近期,很多微信直播场控的功能软件出现 和朋友聊了一下,主要功能是通过PC微信的接口实现的 但是部分功能是PC接口没有的 因此需要通过PB组协议包,然后利用PC的HOOK接口,进行执行 PB组包 pb.empty () pb.setBin (“1”, { }) pb.…

如何搭建一对一直播PHP直播系统源码的流程

首先准备一套完整的PHP直播系统源码,服务器(Linux系统)、一对一直播PHP直播平台源码大多采用云服务器,不仅速度快、效率高,相对于物理服务器来说也更加安全,并且开发成本低,费用少,保…

本地直播平台的搭建—四种方式

本地直播平台的搭建 方法一:Windows下用FFmpegnginxrtmp搭建直播环境 实现推流、拉流 (测试通过)环境1. 简介:2. 准备文件3. 启动nginx服务器4. 配置FFmpeg5.运行 方法二:打开两个VLC,一个作为推流&#xf…

直播系统解决方案-搭建你自己的直播平台

背景 当下,视频直播行业在中国逐渐走红。在刚刚过去的2015年,视频直播成为互联网行业最抢眼的领域之一。从游戏到秀场,从传统的网页端到移动互联网,各大直播平台包括斗鱼、熊猫tv、虎牙战旗还有纯移动端的印客、易直播等&#xff…

搭建直播带货平台,实现直播间的即时聊天

如今直播火的简直不像样子了。在直播间里会有观众和主播交流的功能。主要方式是主播动口(说),观众动手(打字)。这篇文章讲解一下搭建直播带货平台聊天功能的实现。这里为了更清楚的看到效果功能,我做了一个…

内网直播(局域网直播)系统的搭建

搭建一套完全本地化部署的流媒体直播点播系统,引入本地演播室,录播,报告厅、会议,电视节目等实时信号,实现本地网络的手机、PC、机顶盒等智能终端进行观看。系统集成直播,点播,录制,…

直播平台搭建

一、直播系统架构介绍 1. 直播产品的种类: 泛娱乐直播 例如:花椒、映客等娱乐直播,斗鱼、熊猫等游戏直播实时互动直播 例如:音视频会议、教育直播等,像Zoom、声网 二、搭建流媒体服务 准备流媒体服务器&#xff0…

手把手教你直播平台怎么搭建

手把手教你直播平台怎么搭建 后端项目初始化 1.全局安装express脚手架 额,这个应该是属于准备工作的。给忘记了,那就凑合放在这里吧,别打我,我知道错了,但我就是不改【狗头保命】 cnpm install -g express-generat…

【AI】在线网站随机生成假头像、不同头像

搜集到的一些科技前沿有趣的网站。 目前能想到的用途是不侵犯他人肖像权的情况下做些假数据,展示性的数据。每次刷新ai都会随机生成一张头像。 真人头像,欧美偏多,亚洲面孔少:https://thispersondoesnotexist.com/ 二次元女生头…

Android:使用LayerDrawable动态生成四宫格头像(包含双人、三人头像)

其实用自定义View也可以实现,我比较懒,就用LayerDrawable来创建一个新的Drawable资源实现。 举例4宫格,9宫格原理类似,每个图标的位置需要用边距慢慢调成预期的效果 效果如下: 双人头像: 三人头像&#x…

深度分析:用户最喜欢用哪种NFT做头像

自 CryptoPunks 作为首支蓝筹 NFT 项目被人们关注以来,关于 NFT 可以做什么的讨论便一直没有停歇,各类 NFT 创新应用也是层出不穷。除了头像以外,收藏、艺术、游戏、社交、运动等领域都可以看到 NFT 的身影。不过无论是从项目数量还是应用广度…

一张图生成定制版二次元人脸头像,还能“模仿”你的表情

作者 | Pramook Khungurn 整理 | Jane、刘畅 出品 | AI科技大本营(ID:rgznai100) 【导读】最近,日本一位酷爱 Vtubers的粉丝结合了此前发表的多项 GAN 工作制作了两个动漫人物生成器的工具,这两个工具一个可以帮助广大…

个人头像人工智能生成工具,上线一天就已赚了1万美金

文章目录 仅上线一天就已赚1万美金是什么怎么赚钱启示附录 仅上线一天就已赚1万美金 作者刚刚在社交媒体上分享到: 是什么 个人自己头像人工智能生成工具。让在他的网站上传自己20张个人照片,脸部要清晰的更好(方便机器学习训练&#xff…

人类面部表情数据集(12万张表情照片)

人类面部表情数据集(12万张表情照片) 一共有7类人类面积表情,分别是:悲伤、高兴、害怕、惊讶、平静、生气、厌恶。一个文件夹一类。表情识别模型训练的很好数据。一共有7类人类表情数据集,文件夹如下图所示&#xff1…

聊天界面的制作(三)——表情列表发送功能

基本功能 1. 自定义标题栏。(标题栏不做任何功能) 2. 有左右发送按钮。(这个只能自己和自己聊天哦,所以有左右发送按钮) (1)点击左边按钮发送按钮,在ListView的左侧显示。   &…

FindMeChat(盲盒社交)-匿名聊天-好玩有趣的社交平台

FindmeChat(盲盒社交)APP 重磅来袭! 全新玩法,遨游陌生社交元宇宙。 无聊急救包!Findmechat(盲盒社交)! 官网: http://www.findmechat.comhttp://www.findmechat.com 聊天网址(用手机浏览器打开哦): http://www.findmechat.nethttp://www…

虚拟人,数字人,虚拟数字人的定义区别

虚拟人 虚拟人(Virtual Human),指通过数字技术模拟真实的人体器官而合成的三维模型。这种模型不仅具有人体外形以及肝脏、心脏、肾脏等各个器官的外貌,而且具备各器官的新陈代谢机能,能较为真实地显示出人体的正常生理…

AI 智能头像生成神器|PhotoShot

​ 题图:通过 PhotoShot 将普通图片生成智能头像 酱酱来为大家推荐好玩的开源软件啦 🥳!! 大家日常工作、生活中,经常会需要在一些网站、软件中自己的头像,但总会碰到一些问题,比如觉得照的不好…