探索大型语言模型在文化常识方面的理解能力与局限性

介绍

论文地址:https://arxiv.org/pdf/2405.04655v1

近年来,大型语言模型(LLM)不仅被广泛应用于各个领域,而且通过大量的基准评估,证明它们能够理解人类所拥有的常识(=Commonsense)。这里的常识指的是世界上大多数人所共有的关于世界的广泛而基本的常识,包括关于日常事件、现象和关系的一般知识。LLM群体在过去投入了大量精力,除了公共常识外,还建立了更为专业的知识库,如物理常识和社会常识。

另一方面,常识,如 “红色是婚纱的常见颜色”,在中国、印度和越南是共同的文化规范但在意大利或法国却不是。常识在中国、印度和越南是共同的文化规范,但在意大利和法国却不是。

然而,也存在一些问题:以往的研究很少考察LLM对这种文化常识(=Cultural Commonsense)的理解。在此背景下,本文介绍了一篇论文,该论文通过使用多种文化常识****基准进行比较实验,研究了不同文化背景下LLM表现的差异和局限性,并指出了LLM对文化理解的固有偏差

概述

常识往往是隐性的、不成文的,因此与事实知识的不同之处在于,它具有通过文化学习长期习得的特性。部分由于这种性质的分析困难,现有的文化常识研究非常有限,而且这些研究也主要集中在建立包含相对较少的文化事实和信息的数据集上。而本文则侧重于语言文本作为文化背景的功能,即一个文化群体的先学语料库中的文本是用该文化群体所使用的语言写成的

如下图所示。

例如,**"人们在道路的哪一边行走?**如果用日语或斯瓦希里语(肯尼亚的官方语言)来回答,用户很可能是会说这两种语言的日本人或肯尼亚人,因此更有可能回答 “左边”。鉴于这些特点,本文研究了LLM在文化常识方面的能力和局限性,这是以前从未做过的。

实验装置

本文根据以下两个标准对 LLM 进行评估

  1. 了解特定文化和一般常识
  2. 了解特定文化背景下的一般常识

根据这些评估标准,本文使用中国、****印度、伊朗、肯尼亚和美国五个国家的文化和五种官方语言(中文、印地语、波斯语、苏马瓦里语和英语)进行了多任务实验。

创建多语言提示

在本实验中,我们制作了多语言提示,以研究语言在本地语言学习者的表现中所起的作用,以及不同语言在多大程度上可以提高(或降低)本地语言学习者识别文化常识的能力。

具体来说,对于以中文、印地语、波斯语、苏马瓦里语和英语书写的提示,Azure 的翻译 API 可用于将其翻译为目标语言。

此外,还通过使用不同的翻译工具重新翻译部分翻译结果来验证翻译质量。

测试LLM

为了全面测试 LLMs 在与文化常识相关的任务中的能力,本文在不同尺度上对 LLMs 进行了实验,包括

使用的开源模型有:LLAMA2(用于各种任务);Vicuna(由 ShareGPT 对 LLAMA2 进行微调);Falcon(具有开放的商业用途和干净的语料库 RefinedWeb)。

此外,闭源模型还有GPT-3.5-turbo 和****GPT-4,它们是托管在 Azure 上的 OpenAI 模型。

通过对这些模型执行下述任务,对每个模型进行了比较验证。

实验结果

本实验进行了两项任务的对比实验:问题解答(QUESTION ANSWERING)国家预测(COUNTRY PREDICTION)

下图显示了这些任务中使用的提示和正确答案示例,每种提示都指示 LLM 填入句子的屏蔽部分。

让我们逐一看看。

回答问题

这项任务涉及的问题在不同的文化中会有不同的答案,对于特定文化背景的人来说,这些问题被认为是常识性的,它向LLM们展示了每种相关文化的常识性论据,这些论据显示了他们的民族背景和可供选择的选项,并要求他们填写遮盖的区域。

问题和答案选项被翻译成多种语言,每个模型被指示用与输入相同的语言作答。

实验结果如下表所示。

值得注意的是**,在伊朗(Iran)和肯尼亚(Kenya)的问题上,所有模型的性能都有所下降,尤其是在伊朗,平均准确率下降了 20%**。

从这一结果可以推断出,LLM 无法应对来自先前学习语料库中代表性不强的国家的文化常识

国家预测

为了进一步了解情况,本文随后利用国家预测进行了比较验证。

这项任务是为了测试 “在给定一个包含特定文化常识的句子时,语言学LLM能否识别出句子中提到的是哪个国家”,在句子中屏蔽了国家名称,然后让语言学LLM做出回答。

实验结果如下表所示。

与问答任务一样,在比较不同文化背景下的表现时,该模型在伊朗或肯尼亚的表现始终最差�

此外,在印度、伊朗和肯尼亚,我们发现当使用开放源码模型以该国语言进行查询时,性能比英语低(但在封闭源码模型中则没有)。

这一现象可能表明,在开放源码模式中,用于输入 LLM 的语言可能会影响性能,而且对 LLM 文化的理解存在固有偏差

总结

结果如何?在这篇文章中,我们介绍了一篇论文,该论文通过使用多种文化规范的基准进行比较实验,研究了不同文化背景下LLM成绩的差异和局限性,并指出了LLM对文化理解的固有偏差。

虽然本文在实验中提出了各种建议,但也存在一些挑战**,例如****本文使用的数据集只有英文版**,而且研究中使用的 LLM 模型也不是最新的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/440085.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pdf怎么编辑修改内容?详细介绍6款pdf编辑器功能

■ pdf怎么编辑修改内容? PDF(Portable Document Format)作为一种广泛使用的文件格式,具有特点包括兼容性强、易于传输、文件安全性高、跨平台性、可读性强、完整性、可搜索性、安全性、可压缩性。 PDF文件本身是不可以直接进行编…

深度学习--------------------------------门控循环单元GRU

目录 门候选隐状态隐状态门控循环单元GRU从零开始实现代码初始化模型参数定义隐藏状态的初始化函数定义门控循环单元模型训练该部分总代码简洁代码实现 做RNN的时候处理不了太长的序列,这是因为把整个序列信息全部放在隐藏状态里面,当时间很长的话&#…

jmeter操作数据库

jmeter操作数据库 一、打开数据库 二、jmeter下载驱动,安装jdbc驱动 1、下载好的驱动包 2、将驱动包复制粘贴 存放在包的路径下 (1)jdk下面 a、路径:jdk1\jre\lib b、jdk1\jre\lib\ext (2)jmeter下 a、…

SpringIoC容器的初识

一、SpringIoC容器的介绍 Spring IoC 容器,负责实例化、配置和组装 bean(组件)。容器通过读取配置元数据来获取有关要实例化、配置和组装组件的指令。配置元数据以 XML、Java 注解或 Java 代码形式表现。它允许表达组成应用程序的组件以及这…

基于依赖注入技术的.net core WebApi框架创建实例

依赖注入(Dependency Injection, DI)是一种软件设计模式,用于实现控制反转(Inversion of Control, IoC)。在ASP.NET Core中,依赖注入是内置的核心功能之一。它允许你将应用程序的组件解耦和配置&#xff0c…

Linux:进程入门(进程与程序的区别,进程的标识符,fork函数创建多进程)

往期文章:《Linux:深入了解冯诺依曼结构与操作系统》 Linux:深入理解冯诺依曼结构与操作系统-CSDN博客 目录 1. 概念 2. 描述进程 3. 深入理解进程的本质 4. 进程PID 4.1 指令获取PID 4.2 geipid函数获取PID 4.3 kill指令终止进程 …

Linux驱动开发(速记版)--GPIO子系统

第105章 GPIO 入门 105.1 GPIO 引脚分布 RK3568 有 5 组 GPIO:GPIO0 到 GPIO4。 每组 GPIO 又以 A0 到 A7,B0 到 B7,C0 到C7,D0 到 D7,作为区分的编号。 所以 RK3568 上的 GPIO 是不是应该有 5*4*8160 个呢&#xff1…

MySQL高阶2004-职员招聘人数

目录 题目 准备数据 分析数据 实现 题目 一家公司想雇佣新员工。公司的工资预算是 70000 美元。公司的招聘标准是: 雇佣最多的高级员工。在雇佣最多的高级员工后,使用剩余预算雇佣最多的初级员工。 编写一个SQL查询,查找根据上述标准雇…

男单新老对决:林诗栋VS马龙,巅峰之战

听闻了那场激动人心的新老对决,不禁让人热血沸腾。在这场乒乓球的巅峰之战中,林诗栋与马龙的对决无疑是一场视觉与技术的盛宴。 3:3的决胜局,两位选手的每一次挥拍都充满了策略与智慧,他们的每一次得分都让人心跳加速。 林诗栋&am…

Linux自动化构建工具Make/Makefile

make是一个命令 makefile是一个文件 touch 创建并用vim打开makefile 写入依赖对象和依赖方法 mycode是目标文件 第二行数依赖方法 以tab键开头 make makefile原理 makefile中写的是依赖关系和依赖方法 clean英语清理文件 后不用加源文件。.PHONY定义clean是伪目标。 make只…

动态SLAM总结二

文章目录 Mapping the Static Parts of Dynamic Scenes from 3D LiDAR Point Clouds Exploiting Ground Segmentation:(2021)RF-LIO:(2022)RH-Map:(2023)Mapless Online …

[C++]使用纯opencv部署yolov11-pose姿态估计onnx模型

【算法介绍】 使用纯OpenCV部署YOLOv11-Pose姿态估计ONNX模型是一项具有挑战性的任务,因为YOLOv11通常是用PyTorch等深度学习框架实现的,而OpenCV本身并不直接支持加载和运行PyTorch模型。然而,可以通过一些间接的方法来实现这一目标&#x…

POLYGON Nature - Low Poly 3D Art by Synty 树木植物

一个低多边形资源包,包含可以添加到现有多边形风格游戏中的树木、植物、地形、岩石、道具和特效 FX 资源。 为 POLYGON 系列提供混合样式树这一新增功能。弥合 POLYGON 与更传统的层级资源之间的差距。还提供了一组经典的 POLYGON 风格的树木和植被以满足你的需求。 该包还附带…

系统安全 - Linux /Docker 安全模型及实践

文章目录 导图Linux安全Linux 安全模型用户层权限管理的细节多用户环境中的权限管理文件权限与目录权限 最小权限原则的应用Linux 系统中的认证、授权和审计机制认证机制授权机制审计机制 小结 内网安全Docker安全1. Docker 服务隔离机制Namespace 机制Capabilities 机制CGroup…

JavaWeb - 8 - 请求响应 分层解耦

请求响应 请求(HttpServletRequest):获取请求数据 响应(HttpServletResponse):设置响应数据 BS架构:Browser/Server,浏览器/服务器架构模式。客户端只需要浏览器,应用程…

Oracle中MONTHS_BETWEEN()函数详解

文章目录 前言一、MONTHS_BETWEEN()的语法二、主要用途三、测试用例总结 前言 在Oracle数据库中,MONTHS_BETWEEN()函数可以用来计算两个日期之间的月份差。它返回一个浮点数,表示两个日期之间的整月数。 一、MONTHS_BETWEEN()的语法 MONTHS_BETWEEN(dat…

水下声呐数据集,带标注

水下声呐数据集,带标注 水下声呐数据集 数据集名称 水下声呐数据集 (Underwater Sonar Dataset) 数据集概述 本数据集是一个专门用于训练和评估水下目标检测与分类模型的数据集。数据集包含大量的水下声呐图像,每张图像都经过专业标注,标明…

vSAN05:vSAN延伸集群简介与创建、资源要求与计算、高级功能配置、维护、故障处理

目录 vSAN延伸集群延伸集群创建延伸集群的建议网络配置vSAN延伸集群的端口见证主机的资源要求vSAN延伸集群中见证节点带宽占用vSAN延伸集群的允许故障数vSAN延伸集群不同配置下的空间占用 vSAN延伸集群的HA配置vSAN延伸集群的DRS配置vSAN存储策略以及虚拟机/主机策略的互操作vS…

华为最新业绩出炉!上半年营收4175亿元,同比增长34%!

华为2024年上半年经营业绩分析:稳健发展,符合预期 [中国,深圳,2024年8月29日] 今日,华为发布了其2024年上半年的经营业绩,整体表现稳健,结果符合预期。在复杂多变的全球市场环境下,华为凭借强大的创新能力和市场洞察力,实现了销售收入和净利润的显著增长。 上半年,华…

C语言:预编译过程的剖析

目录 一.预定义符号和#define定义常量 二.#define定义宏 三.宏和函数的对比 四、#和##运算符 五、条件编译 在之前,我们已经介绍了.c文件在运行的过程图解,大的方面要经过两个方面。 一、翻译环境 1.预处理(预编译) 2.编译 3…