研究大语言模型在心理保健智能顾问的有效性和挑战

概述

心理保健是现代社会一个日益严重的问题。例如,在日本,自杀是 10-39 岁人群的首要死因。此外,根据世界卫生组织(WHO)的数据,自杀是全球年轻人的首要死因。在此背景下,通过短信应用程序提供心理支持的短信咨询正备受关注。

与电话或电子邮件咨询相比,文本咨询的优点是更容易获得,尤其是对年轻一代而言,心理障碍较少。然而,目前缺乏有经验的辅导员。即使是那些有面对面、电话或电子邮件咨询经验的人,如果没有适当的指导和培训,也很难提供文本咨询。此外,能够提供这种适当指导的人员也很缺乏。

在此背景下,人们正在研究利用自然语言处理技术为心理健康提供支持的方法。其中,自动检测心理健康问题和障碍是一个备受关注的研究领域。在对话系统领域,已经开发出一些旨在改善心理健康的系统。另一方面,尽管最近在大规模语言建模方面的发展显示了对各种任务和领域的适应性,但使用大规模语言建模的咨询对话系统的性能尚未得到全面评估。

本文使用 GPT-4 构建了一个咨询对话系统,并由专业咨询师对生成的回复进行评估。为了生成适当的回复,我们通过与专业辅导员的角色扮演情景收集了辅导对话数据,并在语句中标注了辅导员的意图。为了评估在真实咨询情境中使用对话系统的可行性,第三方咨询师正在评估人类咨询师和 GPT-4 在角色扮演对话数据的相同情境中生成的回复是否恰当。

收集角色扮演对话并生成辅导员的回应

两名辅导员参与了角色扮演对话的收集工作,其中一人扮演求助者,另一人扮演辅导员,对话使用消息应用程序LINE 以日语进行。共收集了六次对话数据,下表所列的六个主题各一次。

为了测试大规模语言模型在咨询对话中的有效性,我们使用收集到的角色扮演对话数据,以咨询者的身份在 GPT-4 上生成语句。如下表所示,为了获得高质量的回复,收集到的辅导员话语都标注了回复要点(Key point)和意图(Intent)。

用于提示 GPT-4 生成回复的提示也显示在下表中。该提示指示 GPT-4 以辅导员的身份作出回应,同时还增加了由专业辅导员监督的指导原则。该提示还包括辅导员与客户之间正在进行的对话。

对话包含从开始到前一位客户发言的所有文本,辅导员在发言之前会对回答的要点和意图进行注释,如下表所示。

GPT-4使用OpenAI APIGPT-4-0613,温度为 0.0,其他参数保持默认设置。生成语篇的统计数据如下表所示。

人类辅导员的发言次数之所以高于 GPT-4 的发言次数,是因为 GPT-4 一次只生成一个发言,而在角色扮演情景中,人类发言人可以发送一系列信息。

分析

专家辅导员对角色扮演对话和 GPT-4 生成的话语进行评分。评分采用 0(差)至 2(好)的三点李克特量表,每段对话有三名辅导员参与。评分原因也被记录在案,共有七位辅导员参与评分。下表显示了生成的对话样本以及每位辅导员的平均得分。

请注意,计算克里彭多夫阿尔法系数的目的是衡量主题 1 至 3 对话(辅导员话语:157,GPT-4 话语:124)评分的一致程度,阿尔法系数为 0.24,表明评分者之间的相关性较弱。

辅导员和 GPT-4 语篇的平均评分分别为 0.99(方差:0.49)和 0.94(方差:0.61)。我们还在 0.05 的显著性水平上进行了曼-惠特尼 U 检验,结果没有发现显著差异。这表明辅导员和 GPT-4 在答复质量方面没有明显差异。

下图显示了辅导员和 GPT-4 对话语的评分百分比,表明 GPT-4 的话语比辅导员的话语更常被评为 0 分和 2 分。

半数以上辅导员的话语被评为 1 分,这是因为 "我明白了 "和 "是的 "等简短话语被评为 1 分。

评估结果表明,评分者的评分倾向存在个体差异。因此,我们分析了同一评分者在同一情境下如何对心理咨询师的话语和 GPT-4 的话语进行评分。如果辅导员在求助者做出反应之前说了一系列话语,那么所有话语的平均评分将作为辅导员话语的评分。结果如下表所示。

比较辅导员与 GPT-4 评为优秀的发言百分比,34.8% 对 30.5%,虽然高于GPT-4,但差距较小,34.7% 的发言被评为等同(Tie) GPT-4 反应的质量与辅导员的反应非常接近非常接近辅导员的答复。鉴于大规模语言模型生成的回复即使在提示语没有完全解释清楚的情况下也能与人类的回复相媲美,GPT-4 的性能还可以进一步提高,预计基于大规模语言模型的系统可用于实际提供咨询。

案例研究

在真实对话系统中提供咨询时,必须尽量减少不恰当的反应。本文分析了这一被低估的 GPT-4 反应。

评分较低的回答被认为是语言或措辞不当或不自然所致。例如,使用 "有趣 "一词可能会冒犯求助者。辅导员可能会认为这个词把求助者的问题当作好奇的对象(有趣)。

他们还指出,GPT-4 的回答可能会把客户的问题当成别人的问题。例如,评估员指出,"这听起来很困难 "这句话被认为是不真诚的,应避免使用。

避免有风险的回答在咨询中尤为重要:GPT-4 生成的语句不包含攻击性或歧视性言论,但也发现了少量有风险的语句。例如,"仁慈会让你受苦 "这一回答可能会灌输错误的价值观,即人不应该仁慈。

虽然在本次验证中发现的高危反应数量很少,但如果输入提示包含攻击性内容,GPT-4 就会倾向于生成攻击性语句作为反应。虽然在本文的角色扮演对话中没有产生攻击性内容,但在真实的咨询情境中,客户有可能会包含攻击性内容。未来的研究应分析此类情况,开发更安全、更有效的咨询对话系统。

总结

本文收集了角色扮演咨询对话数据,并对其进行了注释,由专业咨询师对 GPT-4 生成的回答是否恰当进行了评估。结果表明,GPT-4 的回复质量与人类辅导员的回复质量相当。他们还报告说,被评为低分的回答不包括攻击性、歧视性或高风险的回答。

这篇论文是探索人工智能在实际咨询工作中的作用的重要的第一步:GPT-4 几乎与人类咨询师一样出色的发现表明,人工智能未来可以在咨询领域发挥重要作用。

不过,他们也指出,要实现完全自动化的咨询服务,还需要进一步的验证和改进。我们的目标是开发一个能够理解人类情绪和细微差别并做出适当反应的人工智能系统,这需要在各种场景中进行测试并不断改进。

通过这些论文,我们希望人工智能技术的发展和进一步的研究能使人们更容易获得咨询。这可以创造一种环境,让有严重问题的人能够得到及时的支持。

注:
论文地址:https://arxiv.org/pdf/2402.12738
原文地址:https://ai-scholar.tech/articles/large-language-models/gpt4-counselling

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/465540.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海外媒体发稿:国外媒体通稿PR发布-提升品牌影响力的绝佳选择

大舍传媒 在当今全球化的商业环境中,海外媒体发稿已经成为企业拓展国际市场、提升品牌知名度的重要手段。特别是在沙特这样的中东地区,通过在当地知名的汽车垂直媒体上发布新闻通稿PR,能够为您的品牌带来前所未有的曝光和机遇。 今天&#…

ctfshow(162)--文件上传漏洞--远程文件包含

Web162 进入界面: 思路 先传个文件测试一下过滤: 过滤了特别多符号,注意过滤了点. 我们的思路还是要先上传.user.ini文件: //修改前 GIF89a auto_prepend_fileshell.png//由于过滤了点,所以修改为 GIF89a auto_prepend_file…

学习threejs,导入COLLADA(.DAE)格式的模型

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.ColladaLoader DAE模…

HTB:PermX[WriteUP]

目录 连接至HTB服务器并启动靶机 1.How many TCP ports are listening on PermX? 使用nmap对靶机TCP端口进行开放扫描 2.What is the default domain name used by the web server on the box? 使用curl访问靶机80端口 3.On what subdomain of permx.htb is there an o…

Imperva 数据库与安全解决方案

Imperva是网络安全解决方案的专业提供商,能够在云端和本地对业务关键数据和应用程序提供保护。公司成立于 2002 年,拥有稳定的发展和成功历史并于 2014 年实现产值1.64亿美元,公司的3700多位客户及300个合作伙伴分布于全球各地的90多个国家。…

python验证码滑块图像识别

文章目录 1、案例图片1、需求说明2、代码实现总结 1、案例图片 1、需求说明 python 3.10,写一个滑块验证码的自动化程序。需要一个opencv的函数,能准确的计算,在这同一张图片上,滑块形状和缺口形状的坐标位置及两个形状之间在X轴上的距离。请…

「Mac畅玩鸿蒙与硬件16」鸿蒙UI组件篇6 - List 和 Grid 组件展示数据列表

List 和 Grid 是鸿蒙开发中的核心组件,用于展示动态数据。List 适合展示垂直或水平排列的数据列表,而 Grid 则适用于展示商品或图片的网格布局。本篇将展示如何封装组件,并通过按钮实现布局切换,提升界面的灵活性和用户体验。 关键…

「Mac畅玩鸿蒙与硬件25」UI互动应用篇2 - 计时器应用实现

本篇将带领你实现一个实用的计时器应用,用户可以启动、暂停或重置计时器。该项目将涉及时间控制、状态管理以及按钮交互,是掌握鸿蒙应用开发的重要步骤。 关键词 UI互动应用时间控制状态管理用户交互 一、功能说明 在这个计时器应用中,用户…

群控系统服务端开发模式-应用开发-上传工厂开发

现在的文件、图片等上传基本都在使用oss存储。而现在常用的oss存储有阿里云、腾讯云、七牛云、华为云等,但是用的最多的还是前三种。而我主要封装的是本地存储、阿里云存储、腾讯云存储、七牛云存储。废话不多说,直接上传设计图及说明,就一目…

Hadoop生态圈框架部署(五)- Zookeeper完全分布式部署

文章目录 前言一、Zookeeper完全分布式部署(手动部署)1. 下载Zookeeper2. 上传安装包2. 解压zookeeper安装包3. 配置zookeeper配置文件3.1 创建 zoo.cfg 配置文件3.2 修改 zoo.cfg 配置文件3.3 创建数据持久化目录并创建myid文件 4. 虚拟机hadoop2安装并…

UI设计师们,AI留给你们的窗口期没多少了得亏生成的模型不能编辑

对于 UI 设计师们来说,AI 的发展确实带来了一定的挑战。 虽然目前生成的模型不能编辑,但谁也无法确定未来的发展走向。 然而,设计师们也不必过分担忧。人类的创造力、审美能力和对用户需求的深刻理解是无法被轻易取代的。 设计师可以利用这…

Gerrit 2.12.2 window版本部署

背景:原有gerritgit服务器一套(以下称老gerrit),现在需要在备份机器上面也搭建一套gerrit(以下称新gerrit)。 目前老gerrit服务器信息为:centos gerrit 2.12.2jdk1.8mysql5.1.73nginx 新gerrit服务器信息为&#xf…

一文搞懂Linux kernel编译步骤

一、前言 什么是Linux的内核编译呢?简单来说,Linux内核编译是一个将内核源代码转换成可在特定的硬件架构上运行的二进制文件的过程。通过编译内核,我们可以根据自己的需求和兴趣对内核进行定制和优化,以满足特定的应用场景。下文…

CST汽车天线仿真(双向混合求解)

CST从2018版本开始具有双向混合求解,到2019版已经通用微波工作室的各个求解器之间的双向混合。具体的混合对象如下图: 对天线的安装和耦合仿真,意味着对复杂结构(天线)和电大尺寸环境(安装平台,…

leetcode-5-最长回文子串

题解: 回文串:如果一个字符串正着读和反着读都是一样的那这个字符串就是回文串。 对于一个子串而言,如果它是回文串,并且长度大于 2,那么将它首尾的两个字母去除之后,它仍然是个回文串。 1、初始化字典d…

Python反射API:面向对象编程的“魔法镜”

在Python的世界里,面向对象编程(OOP)就像是一场盛大的化妆舞会,每个对象都穿着华丽的外衣,隐藏着自己的真实面目。而Python的反射API,就像是一面“魔法镜”,能够让我们窥探这些对象的真实身份和…

Python练习8

Python日常练习 题目: 编写函数,接收两个正整数作为参数,返回一个元组, 其中第一个元数为最大公约数,第二个元素为最小公倍数。 例如: 若输入12,8,则输出如下 【请输入一个…

推荐程序员好用的浏览器插件

推荐程序员好用的浏览器插件 1. 网页颜色控制:Dark Reader安装效果 2. 前端助手:FeHelper安装效果 3. markdown可视化:Markdown Reader安装效果 4. ES插件:Multi Elasticsearch Heads安装效果 1. 网页颜色控制:Dark Re…

希尔排序算法

1、基本思想 希尔排序也称缩小增量排序,是插入排序的一种更高效的改进版本。它的基本思想是先将待排序的数组元素按照一定的间隔(称为增量)分成若干个子序列,分别对这些子序列进行插入排序,随着迭代的进行,…

太速科技-634-基于3U PXIe的VU3P FMC+数据接口板

基于3U PXIe的VU3P FMC数据接口板 一、产品概述 板卡是一款基于 3U PXIE 总线架构的高性能数据预处理FMC 载板,具有 1 个 FMC(HPC)接口,1 个 X8 GTH 背板互联接口,可以实现 1 路 PCIe x8。板卡主控芯片采用Xilin…