探索大型语言模型(LLM)在人类性格个性评估(MBTI)中的前景与应用

1.概述

大型语言模型(LLM)如ChatGPT在各个领域的应用确实越来越广泛,它们利用庞大的数据集进行训练,以模拟人类的语言理解和生成能力。这些模型在提供信息、解答问题、辅助决策等方面表现出了强大的能力,但它们并不具备真正的自我意识、情感或个性。LLM的“理解”仅限于其训练数据中的统计规律,并不涉及真正的认知过程。

对于法律硕士能否评估人的个性,这是一个有趣的研究领域。法学硕士通常是指在法律领域深造的专业人士,他们对人的行为、动机和决策过程有着深入的理解。然而,个性评估通常涉及到心理学和人格理论,这可能超出了传统法学硕士的研究范畴。不过,随着跨学科研究的兴起,法学与心理学的结合可能会产生新的视角和方法来评估人的个性。

迈尔斯-布里格斯类型指标(MBTI)是一种广泛使用的工具,用于评估和描述人们在不同维度上的偏好,从而推断出不同的个性类型。将MBTI应用于法学硕士的评估中,可能意味着开发一种新的框架,让法律专业人士能够更好地理解个体在法律环境中的行为模式和决策倾向。

迈尔斯布里格斯类型指标(Myers-Briggs Type Indicator,简称MBTI)是一种广泛使用的性格评估工具,它基于瑞士心理学家卡尔·荣格(Carl Jung)的心理类型理论。MBTI旨在通过一系列问题来评估个体在四个维度上的偏好,从而将人们分为16种不同的性格类型。

这四个维度包括:

  1. 外向(E)与内向(I):这个维度描述了个体倾向于从外部世界还是内部世界获取能量。外向型的人喜欢社交和活动,而内向型的人则倾向于独处和反思。

  2. 感觉(S)与直觉(N):这个维度涉及个体倾向于依赖直接的感官信息还是依赖直觉和想象。感觉型的人注重现实和具体细节,而直觉型的人则更注重可能性和抽象概念。

  3. 思考(T)与情感(F):这个维度描述了个体在做决定时倾向于依赖逻辑和客观标准还是个人价值和情感。思考型的人依据逻辑和客观性做决策,而情感型的人则更注重人际关系和个人价值。

  4. 判断(J)与知觉(P):这个维度涉及个体倾向于计划和组织生活还是更灵活和自发。判断型的人喜欢有序和计划,而知觉型的人则更倾向于适应和探索。

每个维度上的偏好组合起来,形成一个人的性格类型,如“INTJ”或“ENFP”。MBTI被广泛应用于职业规划、团队建设、个人发展等领域,尽管它的科学性和有效性在学术界存在争议。

MBTI的16种性格类型分别是:

类型职业
ISTJ检查员
ISFJ保护者
INFJ导师
INTJ策略家
ISTP技艺者
ISFP艺术家
INFP治愈者
INTP思考者
ESTP推广者
ESFP表演者
ENFP激励者
ENTP发明家
ESTJ管理者
ESFJ支持者
ENFJ教育者
ENTJ领导者

论文地址:https://arxiv.org/abs/2303.01248
源码地址:https://github.com/Kali-Hac/ChatGPT-MBTI.git

2. 算法架构

本文提出的总体框架如下图所示。

如图所示,该框架由以下三个要素组成

(a) 无偏提示设计

(b) 主题替换查询

© 正确性评价教学

(a) 无偏提示设计

这个策略旨在减少由于问题表述方式引起的偏差。通过保持问卷文本不变,并对选项进行随机排序,可以减少由于选项呈现顺序造成的潜在影响。此外,通过计算多个独立问题的平均结果,可以提高评估的稳定性和可靠性。这种方法有助于确保LLM提供的回答不是由于问题的特定表述方式而产生偏差,而是更加基于问题的实质内容。

(b) 主题替换查询

这个策略涉及将问题中的主语替换为特定的对象,从而使得问题更加具体和针对性。例如,如果评估的是“男性”的一般特征,那么将问题中的“您”替换为“男性”,相应的代词也作相应的变化。这种方法有助于LLM更准确地聚焦于被评估的特定群体或对象,而不是泛泛地回答问题。

© 正确性评价教学

由于LLM如ChatGPT在训练过程中不涉及个人情感或信仰,直接询问关于个性的问题可能并不合适。因此,提出的“正确性评估指令”允许LLM评估问题文本的正确性,而不是直接回答关于个性的问题。这可能涉及到对问题本身的逻辑、一致性和合理性进行评价,而不是评价与问题相关的个性特征。

在这种方法中,原来的备选方案**{不同意、同意、一般不同意…},如图所示。改为{错误、正确、一般错误**…}。来组成一个无偏见的提示,让 ChatGPT 对问题给出更明确而非中立的答案。

3.评估指数

本文提出了三个评估指标**–一致性得分、稳健性得分和公平性得分–**来系统研究法律硕士评估人的个性的能力。

一致性得分

由于通过 LLM 进行人格评估的相同受试者的结果应该是一致的,因此本文提出了一致性得分,它代表了所有 MBTI 测试结果与最终结果(即平均分)之间的相似性。

一致性得分按以下公式计算

其中,Xi是第 i 次测试的 MBTI 测试得分,所有 MBTI 测试结果与平均得分的差值越小,一致性得分就越高。

稳健性得分

在理想情况下,无论 MBTI 测试中的选项顺序如何,同一受试者都能被归类为相同的人格特质,本文将这一标准定义为鲁棒性(Robustness)。为了衡量 LLM 的鲁棒性,本文提出了 “鲁棒性得分”(Robustness Score)来衡量 LLM 的鲁棒性,计算固定顺序和随机选择顺序时的平均得分结果之间的相似度。

稳健性得分按以下公式计算

其中,X’和 X 分别代表备选方案顺序固定和随机时的平均得分结果,X’和 X 的相似度越高,鲁棒性得分就越高。

公平性得分

法律硕士对不同人群的评估应与一般社会价值观保持一致,不应对不同性别、种族或宗教的人抱有陈规定型的偏见。

另一方面,种族和宗教是极具争议性的话题,鉴于缺乏通用的评估标准,本文仅关注法律硕士评估对不同性别的公平性。

在此背景下,本文提出了 “公平性评分”(Fairness Score)这一衡量不同性别受试者评分相似度的指标,以衡量与性别相关的评分的公平性。

公平性得分按以下公式计算

这里,XM和 XF分别代表男性和女性受试者的平均得分结果,公平性得分越大,说明不同性别的评分越一致、越公平。

实验结果

本文使用 ChatGPT、GPT-4 和 InstructGPT 模型以及提议的框架进行了实验,以确认以下两个研究问题。

  1. 法律硕士能否评估人的品格?
  2. 法学硕士的人格评估是否一致、公平?

我们将逐一进行解释。

法律硕士能否评估人的品格?

为了证实这一研究问题,本文使用每个模型和建议的框架对不同类型主体的个性进行了评估。

结果如下表所示。

本实验最有趣的结果是**,尽管可能存在不同的反应分布,但所有四个受试者都被所有法律硕士评为具有相同的人格特质**。

这表明,LLMs 评估人格特质的能力基本相似,这些结果表明,LLMs 可能有助于诊断人类人格。

法学硕士的人格评估是否一致、公平?

为了证实这一研究问题,本文比较了每个模型的一致性得分和稳健性得分。

结果如下表所示。

如表所示,在大多数情况下,ChatGPT 和 GPT-4 的一致性得分都高于 InstructGPT。

这表明,ChatGPT 和 GPT-4 可以在评估人类人格的任务中提供更加一致的评估结果

另一方面,ChatGPT 和 GPT-4 的稳健性得分略低于 InstructGPT,这也可以理解为更容易受到提示偏差的影响。

4.项目安装

  1. 菜单概览(需要API密钥)

    • 需要输入一个ChatGPT API密钥:
      在这里插入图片描述
  2. 查询不同主题(65个主题)

    • 该功能允许用户查询不同的主题或领域。在心理学测试的背景下,这可能指的是评估不同的人格维度或心理特质。
      在这里插入图片描述
  3. 进行单问题查询

    • 用户可以使用这个功能来针对一个具体问题进行查询。在个性评估框架中,这可能涉及提出一个具体问题,以评估个体在某个特定维度上的偏好。
      在这里插入图片描述4. 查询所有问题
    • 这个选项允许用户对一组问题中的所有问题进行查询。这可能用于进行一个全面的评估,以收集关于个体个性的广泛信息。
      在这里插入图片描述
  4. 获取个性结果

    • 在完成一系列问题的回答之后,这个功能可能用于获取和展示个性评估的结果。这些结果将基于用户对先前问题的回答进行分析和总结。
      在这里插入图片描述

5.总结

  1. 模型的可扩展性与局限性

    • 可扩展性:框架设计时考虑到了可扩展性,意味着它不仅限于ChatGPT模型,而是可以应用于多种不同的大型语言模型(LLM)。这种设计允许框架在不同的模型上进行测试和应用,从而提高其广泛性和适用性。
    • 局限性:尽管框架设计具有可扩展性,但实验测试目前仅限于ChatGPT模型。这意味着框架在其他模型上的表现和效果尚未得到验证。为了全面评估框架的有效性,需要在其他LLM上进行额外的测试和比较分析。
  2. 量表的选择与验证

    • MBTI的使用:本研究选择MBTI作为人格评估工具,MBTI因其广泛的知名度和应用历史,成为本研究中用于法学硕士对人进行定量评估的代表性量表。
    • 其他量表的必要性:为了增强研究结果的可靠性和普遍性,需要使用其他人格量表,如大五人格量表(BFI)进行验证。BFI是心理学界广泛认可的人格研究工具,它提供了与MBTI不同的人格维度,可以用来对比和验证MBTI的结果。

在进行科学研究时,使用单一的评估工具或模型可能会受到特定的限制和偏差。因此,采用多种工具和模型进行交叉验证是提高研究质量的重要步骤。这不仅可以帮助确认结果的一致性,还可以揭示不同工具之间的潜在差异和互补性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/313605.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[集群聊天项目] muduo网络库

目录 网络服务器编程常用模型什么是muduo网络库什么是epoll muduo网络库服务器编程 网络服务器编程常用模型 【方案1】 : accept read/write 不是并发服务器 【方案2】 : accept fork - process-pre-connection 适合并发连接数不大,计算任…

Yolov5 export.py实现onnx模型的导出

查了很多资料,很多用python代码写的,只需要这个库那个库的,最后都没成功。 不如直接使用Yolov5里面的 export.py实现模型的转换。 一:安装依赖 因为yolov5里面的requirments.txt是将这些转换模型的都注释掉了 所以需要解除注释…

人工智能论文GPT-3(2):2020.5 Language Models are Few-Shot Learners;微调;少样本Few-Shot (FS)

2 方法Approach 我们的基本预训练方法,包括模型、数据和训练,与GPT-2中描述的过程相似,只是模型规模、数据集规模和多样性,以及训练时长有所扩大,相对简单直接。 我们使用的上下文学习也与GPT-2相似,但在…

Kafka 3.x.x 入门到精通(03)——对标尚硅谷Kafka教程

Kafka 3.x.x 入门到精通(03)——对标尚硅谷Kafka教程 2. Kafka基础2.1 集群部署2.2 集群启动2.3 创建主题2.4 生产消息2.4.1 生产消息的基本步骤2.4.2 生产消息的基本代码2.4.3 发送消息2.4.3.1 拦截器2.4.3.1.1 增加拦截器类2.4.3.1.2 配置拦截器 2.4.3…

.NET 邮件发送 SMTP邮件发送

SMTP(Simple Mail Transfer Protocol)是用于电子邮件传输的规则集,可以从邮件客户端向接收电子邮件服务器发送、中继或转发邮件。发件人可使用SMTP 服务器来执行发送电子邮件的过程。SMTP服务器则是按照这些规则中转电子邮件的服务器。 IMAP…

【Qt QML】TabBar的用法

Qt Quick中的TabBar提供了一个基于选项卡的导航模型。TabBar由TabButton控件填充,并且可以与任何提供currentIndex属性的布局或容器控件一起使用,例如StackLayout或SwipeView。 import QtQuick import QtQuick.Controls import QtQuick.LayoutsWindow …

企业微信hook接口协议,ipad协议http,发送大视频文件

发送大视频文件 参数名必选类型说明uuid是String每个实例的唯一标识,根据uuid操作具体企业微信send_userid是long要发送的人或群idisRoom是bool是否是群消息 请求示例 {"uuid":"1688853790xxx", //uuid 默认随机生成如果初始化传了id则用初始…

潜藏10年的恶意软件被发现;利用漏洞在K8S上挖矿;AWS、Google和Azure 出现信息泄露危机 | 安全周报0419

关键词:OfflRouter、恶意软件、VBA宏病毒、机密文件、可执行文件、iOS间谍软件、LightSpy、F_Warehouse、Azure CLI、AWS CLI、Google Cloud CLI 1. 近十年来,OfflRouter恶意软件在乌克兰一直未被发现 自2015年以来,部分乌克兰政府网络一直…

【学习】如何高效地进行集成测试

在软件开发的过程中,测试环节至关重要。而在这其中,集成测试更是保证软件质量的关键步骤之一。本文将探讨如何高效地进行集成测试,以确保软件的稳定性和可靠性。 一、什么是集成测试 集成测试是指在单元测试的基础上,将模块按照设…

力扣刷题学习(跟随视频学着刷)

使用入门 视频链接 【手把手带你刷Leetcode力扣|各个击破数据结构和算法|大厂面试必备技能【已完结】-哔哩哔哩】 https://b23.tv/vIcRT61 时空复杂度 时间: 空间:主要有O(1)和O(n)两种,只用计算开辟的内存&#xff…

cdp集群Hbase组件HRegionServer服务停止原因以及排查

前言:重启集群后某一节点HRegionServer服务停止,重启前所有服务均正常 去查看日志: 日志报错 ERROR HRegionServer Master rejected startup because clock is out of sync org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.h…

【Python】异常、模块与包

目录 捕获异常 异常的传递 Python中的模块 模块的导入方式 as定义别名 自定义模块 Python包 第三方包 综合案例 当我们的程序遇到了BUG, 那么接下来有两种情况: ① 整个程序因为一个BUG停止运行 ② 对BUG进行提醒, 整个程序继续运行 但是在真实工作中, 我们肯定不能…

第十五届蓝桥杯省赛第二场C/C++B组D题【前缀总分】题解(AC)

暴力解法 O ( 26 n 5 ) O(26n^5) O(26n5) 枚举将第 i i i 个字符串的第 j j j 个字符改为 c c c 的所有方案,时间复杂度 O ( 26 n 2 ) O(26n^2) O(26n2),修改并计算总分, O ( n 3 ) O(n^3) O(n3)。 暴力优化 O ( 26 n 3 log ⁡ n ) O…

【Pytorch】(十四)C++ 加载TorchScript 模型

文章目录 (十四)C 加载TorchScript 模型Step 1: 将PyTorch模型转换为TorchScriptStep 2: 将TorchScript序列化为文件Step 3: C程序中加载TorchScript模型Step 4: C程序中运行TorchScript模型 【Pytorch】(十三)PyTorch模型部署: T…

什么是langchain

概念 LangChain 是一个用于开发由语言模型驱动的应用程序的框架。他主要拥有 2 个能力: -可以将 LLM 模型(大规模语言模型)与外部数据源进行连接 -允许与 LLM 模型进行交互基础功能 支持多种模型接口,比如 OpenAI、Hugging Fac…

Delta模拟器:iOS上的复古游戏天堂

Delta模拟器:iOS上的复古游戏天堂 在数字时代,我们有时会怀念起那些早期的电子游戏,它们简单、纯粹,带给我们无尽的乐趣。虽然现在的游戏在画质和玩法上都有了巨大的提升,但那种复古的感觉却始终无法替代。幸运的是&a…

Ceph 分布式文件系统 搭建及使用

一、Ceph 介绍 在当今数据爆炸式增长的时代,企业对于可靠、可扩展的存储解决方案的需求日益迫切。Ceph 作为一种开源的、可伸缩的分布式存储解决方案,正逐渐成为企业级存储领域的热门选择。Ceph是一种由Radicalbit公司开发的开源分布式存储系统&#xf…

公网IP地址如何申请SSL证书?有免费的IP ssl吗?

如果用户没有域名或只有公网IP地址或者不方便使用域名,IP地址ssl证书这一特殊的证书可以为IP地址实现HTTPS的安全保护,提高网站数据传输的安全性。 IP地址申请SSL证书的基本步骤 IP ssl证书下载---注册填写230916https://www.joyssl.com/certificate/sel…

MySQL——运维

日志 错误日志 错误日志是 MySQL 中最重要的日志之一,它记录了当 mysqld 启动和停止时,以及服务器在运行过程中发生任何严重错误时的相关信息。当数据库出现任何故障导致无法正常使用时,建议首先查看此日志。 查看日志位置: sho…

信息系统项目管理师0070:数据开发利用(5信息系统工程—5.2数据工程—5.2.4数据开发利用)

点击查看专栏目录 文章目录 5.2.4数据开发利用1.数据集成2.数据挖掘3.数据服务4.数据可视化5.信息检索5.2.4数据开发利用 数据只有得到充分的开发利用才能发挥出它的作用。通过数据集成、数据挖掘和数据服务(目录服务、查询服务、浏览和下载服务、数据分发服务)、数据可视化、信…