【论文阅读】大语言模型中的文化道德规范知识

🚀Write In Front🚀
📝个人主页：令夏二十三
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏：论文阅读
💬总结：希望你看完之后，能对你有所帮助，不足请指正！共同学习交流 🖊

这篇论文实际上分为摘要、正文和附录，我们主要讲的是摘要和正文，考虑到正文部分又分为介绍、相关工作、研究方法、数据集、评价与结果、模型的微调和结论这些部分，所以接下来我将从摘要开始，对这八个部分分别进行介绍。

Abstract 摘要

1. 研究背景

这篇论文主要是讨论大模型的文化道德规范问题。

我们知道，在不同的文化里，道德规范也不同，就像耶这个手势，在英国代表胜利和喜悦，但在德国就有挑衅的意思了；

在大模型里，有研究发现现在最流行的英语语言模型中，包含了类似人的道德偏见，但是从来没有人去研究语言模型里对不同文化道德规范的差异。所以这是一个新领域，咱们就可以来研究一下。

但在研究之前呢，我们还是得对研究的对象有一个基本的了解。

我们知道这篇论文是关于大语言模型的，那么什么是大语言模型呢？

其实很简单，这就是一种机器学习中的语言模型，我们用大规模的文本数据对它进行预训练，大把大把的训练集喂给它，它就能深入地理解语言，也有能力生成语言了，像你问chatgpt一个问题，它就生成一个回答给你。

我们在这篇论文里研究的大语言模型，投喂的就是一些关于文化道德规范的文本数据，这里的文化道德规范也好理解，其实就是评价人或事或物的一个道德标准，前面提到的比耶其实就是一个比较小的道德规范问题，这篇论文里举的例子比较大，像是离婚呐，同性恋这些也属于道德规范问题，这种问题一般都是我们人给予道德不道德的评价，但是现在有了大模型，就可以让大模型来评价了。

2. 研究方法

我们研究所采用的方法，其实就是分析语言模型中包含不同国家文化道德规范的程度，其实可以算是对各个国家文化中道德规范的理解程度，我们关注的重点就是它对道德规范理解的广度。

这个分析主要针对两个方面：

首先是看语言模型有没有捕捉到不同国家文化对一些主题的细粒度道德差异；
其次是看它有没有关注到文化多样性，以及不同国家的人们对一些话题表现出普遍上分歧或普遍上一致的共同倾向。

这是我们用到的两个评价层次，它们都是通过研究大模型对道德规范的推断来评判的。

在这里，我们注意到一个陌生的词，叫做细粒度，这个词用在道德评价上挺抽象的，我们举一个简单的例子。还记得之前学过的深度学习吗？里面有一个猫狗分类的问题，给模型一张图片，他就会分辨出图上是猫还是狗：

因为猫和狗的差别算是蛮大的，所以这个识别是粗粒度识别，如果你要让模型识别出这是什么品种的猫和狗，这就有难度了，因为不同品种的猫或狗有些差别并不大，这就叫做细粒度识别。

用在道德评价上也类似，一个行为它道德不道德其实不是很绝对的，有可能你在A国做一件事是有点不道德的，但是在B国做就是很不道德的，这里要区分有点不道德和很不道德，就是一种细粒度的识别。

3. 研究结论

论文研究发现，现在的英语单语种预训练语言模型对非英语文化的道德规范推断有偏差，通过微调模型，虽然减小了这个偏差，但又影响了对英语文化道德规范的推断，所以说还是有代价的。

此外，论文还讨论了将文化道德规范知识纳入语言模型自动推理的相关性和挑战。

这里我们注意到一个操作，对模型进行微调，那什么是微调呢？ 微调（fine-tuning）就是在已经训练好的预训练模型的基础上，使用特定的数据集进行进一步训练，以适应特定的任务或领域，这里的特定数据集是由prompt提示组成的，用这些提示对模型进行有监督训练，就可以提升模型的生成内容对特定任务的适应性和准确性。

Introduction 介绍

下面进入第二个部分，论文的介绍，。这个部分一般介绍这个领域前人所做的工作，以及我们做出的新探索和做出新探索的目的和意义，还有我们是如何做出新探索的，给出大致的方法。

1. 研究意义

首先我们得知道为什么要研究这个领域，也就是研究这个课题的意义。

论文中说，理解不同文化中的道德规范对机器智能的发展有着至关重要的作用。

确实，发展人工智能，肯定要关注伦理道德方面，因为AI技术的应用中不可避免地会面临需要机器做出道德判断的场景。文中就提到了自动驾驶的道德窘境，其实就是自动驾驶的汽车遇上电车难题，前面有两条车道，左边捆着五个人，右边捆着一个人，这时候要让自动驾驶的车自己选择要怎么开，这就是一个道德判断的问题，怎样让它的选择在所有文化中都符合道德规范，这就值得我们去思考和研究了。

2. 研究对比

我们知道了研究的重要性，那我们是怎么研究的呢？下面论文将两个已有研究和我们的创新点进行对比。

第一点，已有的研究表明，无监督学习的EPLM，也就是英语预训练语言模型，可以捕捉到人们的道德偏见，区分道德上正确和错误的行为，但是但是并没有研究发现EPLM是怎么实现的；

我们的创新在于调查了EPLM是否编码了不同文化的道德规范知识，这里的重点是不同文化，就是看看是否有针对不同文化的道德规范区别。

第二点是，已有的研究表明，多语种预训练语言模型（MPLM）能够在有限的环境中识别文化道德规范和道德偏见，比如少数的多语言国家的道德规范，然后先前的研究只使用EPLM来评估它对不同社会群体的不良偏见的编码情况，这里的社会群体就比如穆斯林、跨性别者、黑人等在西方国家容易引起偏见的群体；

我们则对此做出了扩展，因为前者使用的是多语种预训练语言模型嘛，所以我们研究了单语种的英语预训练语言模型能不能推断出不同文化的道德规范。

3. 使用EPLM进行研究的动机

具备了宏观的研究意义和具体的研究动机，我们就可以开始着手研究了，下面就先简要地介绍一下研究方法，之后我们会再展开其中的细节。

我们的研究分成两步走，第一步是看EPLM是不是真的有道德规范知识上的缺陷，如果真的有，那第二步就是针对这个缺陷提出我们的改进方法。

首先，要基于一些数据集，对EPLM做道德调查分析。我们使用的数据集是大型的跨文化数据集，这比之前的小范围研究要高大上了不少；

在我们的研究里使用了不同国家官方的道德规范来代表不同文化的道德规范，这里有点局限性了，论文里面作者自己说的，因为一个国家里并不只有一种文化；。

现在数据集有了，那直接把它喂给模型吗？先等等，在操作之前，还需要想好要怎么分析结果，我们使用了两个层次的分析：

是EPLM编码的道德规范知识是否反映了不同国家的道德规范？这里实际上是通过分析EPLM中的文化道德知识的细粒度差异来得到结论的；
EPLM是否能够推断出对不同主题的道德判断的文化多样性和共同倾向，这里举个例子，对于X行为，不同国家的人都觉得是符合道德的，但是对于Y行为，不同国家的人有不同的看法，这里就体现了不同文化的共同倾向和文化道德的多样性。

第一步研究结束了，得到的结论自然是EPLM需要改进，所以第二步就来研究看要如何改进。我们是通过微调EPLM来提高其在多元文化环境里对道德规范的推断能力，还研究了为什么这种方法会降低对英语文化中道德规范的推断能力。

好，论文的introduction到此结束！

通过这部分的介绍，我们对这篇论文的研究情况有了较摘要更详细的了解，接下来就是对introduction的各个部分进行更详细地扩展了，我们会介绍这个领域前人做出的具体工作，我们在这个研究里使用的具体方法，对结果的多维度评价，大语言模型的微调和最后的结论。

我们先来看看前人所做的相关工作吧，其实这些工作都有待改进，这里就是用前人研究的不足来衬托我们研究的先进。

第一个是自然语言处理中的自动道德推理。有研究已经发现，EPLM可以用于预测道德规范，不论有没有经过微调，EPLM都可以实现和人相似的道德判断，但是这种方法只用了一套单一的道德规范，没有检测模型中道德规范的文化多样性，也就是没有考虑不同文化道德规范的差异；

第二个是语言模型预测，已有了研究使用了一种方法来识别被多语种预训练语言模型捕获的有害信息和偏见，比如调查职场中的性别偏见等，但是它们的结论是这些偏见和不同的文化道德规范无关，我们的研究则评估了更具细粒度的差异，另外，最近的研究还发现，模型的输出和人类的判断存在相关性，但是这项研究还是只使用了代表英语文化环境的单一道德评价体系。

可以看出这两项相关工作都有待改进，下面就是我们改进所用到的具体方法。

Methodology 方法

1. 推断文化道德规范的方法

我们发明了一种跨文化的细粒度道德规范推理方法，这个方法是在基线法的基础上进行改进的。

基线法就是先设置一个基线组，实验中的其他组的结果就要和基线比较，其实和控制变量法的空白组差不多。在我们的这个研究里，先在不考虑文化差别的情况下得到EPLM对某一主题的道德规范知识，看看它的评价怎么样，用这个评价作为基线，再通过基于SBERT的大均值标记句子转换模型，使用主题-国家对作为提示，得到各个EPLM对不同国家的道德规范推理结果。

这里的SBERT（sentence BERT）是一种用于句子级别语义表示的预训练语言模型，可以将句子转换为向量来表示；

而 bert-large-nli-mean-tokens 叫做均值标记转换的大语言模型，bert表示基于transformer的预训练模语言模型，large好理解，表示训练集的规模很大，nli是natural language inference的缩写，表示自然语言推理，最后的mean-tokens就表示使用平均池化的方法将输入文本中的所有单词或标记的嵌入向量求平均，得到一个句子级别的表示向量。

所以从这里我们能发现，我们用的模型主要是看句子的意思，评价一个句子的表达是否符合道德规范。

2. 实验模型

前面我们改进的SBERT就是一个EPLM英语预训练语言模型，这就是我们的实验模型之一了。

为了使得实验结论更有说服力，我们还加入了同为EPLM的GPT系列作为实验对象，GPT其实是一种自回归的语言模型，自回归意味着这些模型可以生成连续的文本序列，每个词的生成都依赖于前面已生成的词。

对SBERT和GPT系列中的大部分，我们输入数据会直接得到道德分数，而对于具有对话能力的GPT-3，我们使用了问卷调查，以答案的级别来作为评分的标准。

现在实验需要的模型都有了，接下来就介绍一下输入和输出，以及输出结果的处理。

3. 输入输出与计算方法

我们的输入是主题-国家对，比如 getting a divorce in [Country]，在某个国家离婚，这个句子只是对一件事的客观描述，把这个主题-国家对记作s。

接下来我们对s附加一对相反的道德判断，书面表示就是（s+，s-），s+表示在这个国家，离婚时合理的，s-则表示在这个国家离婚是不合理的。

为了使我们的实验根据鲁棒性，容错率大一点，我们使用了五组附加提示对，其实就是几对道德和不道德的近义词。

每个主题-国家对需要输入五次，每次使用其中的一组附加提示对，每次输入会得到一对道德分数，也就是s+和s-分别得到的分数，取两种道德分数的出现概率取对数再相减，就得到了这种提示对的道德分数：

我们要通过输入计算出五种提示对分别的道德分数，最后取平均值，才是这个主题-国家对最终的道德分数：

如果最终的道德分数为正，则说明在这个国家做这件事是符合道德的，如果分数是负数的话则说明这么做是不符合道德规范的。最后的道德分数就是我们要进行分析的数据。

Datasets 数据集

在计算之前，需要有输入才行，我们的输入数据就来源于所采用的数据集。

我们的数据集有三个，分别是世界价值调查、PEW2013年全球态度调查和同质道德规范。

其中前两个是不同国家的道德规范问题和回答，第三个是同质道德规范信息，不是跨文化的，可以理解为英语国家文化中的道德规范信息。使用不同的数据集会得到不同的评价结果。

Evaluation and Result 评价与结果

经过实验后，我们得到了对三个数据集的计算结果，对这些结果进行四个维度的评价，最后得到了四个评价结论。

其中第一个是对同质性道德规范的推理，第二个和第三个是不同文化道德规范的细粒度差异，最后是文化多样性与文化对不同主题道德评价的共同趋势。

1. 对同质性道德规范的推理

首先是对同质性道德规范的推理，看看EPLM的道德推断是不是和英语文化的更切合。

我们计算了基于几个EPLM得到的道德分数与三个数据集中的道德分数之间的皮尔逊相关系数，在这张图里面，横坐标表示不同的EPLM，纵坐标表示皮尔逊相关系数：

可以看出，EPLM对同质道德规范的输入数据得到的道德分数和英语的道德规范相关性较大，与另外两个相关性较小，甚至还会呈现出负相关。

2. 道德规范对不同主题的细粒度文化差异

其次，是道德规范对不同主题的细粒度文化差异。

我们使用前面提到的细粒度检测方法计算了由EPLM得到道德分数和真实道德分数之间的皮尔逊相关系数：

从图中的结果可以知道，EPLM对不同文化道德规范知识的推断虽然具备一定的准确度，但还是比推断英语文化道德规范知识的准确度低，此外，GPT-3的结果相关性较高，其实是因为它的预训练数据中包括了一些跨文化知识。

3. 通过细粒度道德推理进行文化聚类

我们还通过细粒度道德推理进行了文化聚类，其实就是通过道德分数来划分不同的国家。

很显然地得到了发达国家和发展中国家、西方国家和非西方国家以及不同大陆国家的聚类。

我们的研究结果表明，EPLM对发达的西方国家的道德推理更准确，对其余国家的推理的准确性较小。

我们还发现有些不合理的道德偏见会被EPLM编码，这可能会刺激一些少数群体从而造成不良影响。

虽然我们的聚类方法过于简单，忽略了宗教因素，但是这仍有价值，可以作为研究EPLM对更细分的宗教和民族偏见的研究的起点。

4. 文化多样性和共同倾向

最后是评价EPLM中道德推理的文化多样性和各个文化对不同道德主题的共同倾向。

文化多样性是怎么看到呢？我们取不同国家的实证道德评级的标准差（其实就是标准道德规范的量化），和EPLM推断的不同国家的细粒度道德分数的标准差来衡量，最后使用皮尔逊相关系数来量化。

从图中就能看到，代表文化多样性的点并没有呈现出规律分布，所以我们得出在所有基于EPLM的模型中，两者的相关性都不显著。

Fine-tuning the Model 微调模型

从以上的评价结果中可以知道，现在的EPLM对多元文化道德规范的推断存在缺陷，所以接下来需要通过微调模型来改进。

我们使用了一些提示对EPLM进行微调，这些提示是不同的主题国家对，再加上不同国家对该主题的道德评分，其中一些提示作为训练集，另一小部分作为测试集。

最终得到的结果是，经过微调后的GPT-2对两个多文化的数据集的识别上有了显著的进步，但在同质道德规范推理中的的性能有所下降，而且还带来了额外的社会偏见。

经过不断的尝试，我们得到了最佳的微调模型，虽然它对西方国家道德规范推理的准确性依然比非西方国家要好，但是我们依然可以得出结论，经过微调后的EPLM可以有效反映出不同文化中的道德规范细粒度差异以及文化多样性和共同趋势。

Discussion and Conclusion 结论

最后的最后，我们得出整篇论文的结论：

现有的EPLM对不同文化道德规范的推断准确度不高，经过微调EPLM，可以提高其对不同文化道德规范推断的准确性，但代价是降低了它对英语文化道德规范推断的准确度，并且引入了一些新的道德偏见。

我们的数据来源存在局限性和不准确性，我们的探究也可能带来一定的负面影响，比如通过微调模型造成对某种文化的刻板印象或歧视，我们不能用语言模型来规定道德规范等。这都需要后来者进一步完善。

从某种意义来说，这篇论文的研究开启了一条大语言模型应用的新道路，有很多地方可供后来者深入研究。

后记

这是我第一次阅读AI领域的顶会文章，也是第一次做了如此详细的笔记，我想，这算是为我的科研开了一个不错的头吧，希望可以坚持下去，继续读论文！