计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

1. Enriching Datasets with Demographics through Large Language Models: What’s in a Name?

K AlNuaimi, G Marti, M Ravaut, A AlKetbi, A Henschel… - arXiv preprint arXiv …, 2024

通过大型语言模型丰富数据集的人口统计学信息：名字里有什么？

摘要
本文探讨了如何利用大型语言模型（LLMs）从名字中预测性别、种族、年龄等人口统计信息，这对于医疗保健、公共政策和社会科学等领域至关重要。尽管以往的研究采用了隐马尔可夫模型和循环神经网络来预测名字中的人口统计信息，但存在显著的局限性，包括缺乏大规模、良好策划、无偏见、公开可用的数据集，以及缺乏跨数据集稳健的方法。本文展示了大型语言模型的零样本能力，其表现与专门训练的模型一样好，甚至更好。作者将这些LLMs应用于多个数据集，包括香港金融专业人士的真实未标记数据集，并批判性地评估了这些模型中固有的人口统计偏见。

创新点

零样本学习能力： 展示了现代零样本LLMs在从名字生成人口统计数据方面，性能优于或至少与以前的监督学习方法相当。
人口统计偏见的揭示： 特别是它们倾向于低估个体年龄，通常超过十年，这对于年龄敏感的应用（如医疗保健和市场营销）具有重要意义。
新数据集的分析和丰富： 分析、丰富并发布了一个专注于香港金融专业人士姓名的新数据集，填补了非西方人口统计数据集的空白。

算法模型

大型语言模型（LLMs）： 包括GPT-3、ChatGPT等，这些模型在零样本学习方面表现出色，无需监督调整即可生成类似人类的文本。
传统监督学习方法： 包括隐马尔可夫模型和循环神经网络。

实验效果

性别预测： 在佛罗里达选民注册数据集上，所有12个LLMs的准确率在0.96到0.99之间。
出生日期预测： LLMs表现不佳，无法一致地提高简单基线。
种族预测： 大多数LLMs的零样本准确率在0.75到0.85之间，与之前报道的随机森林或LSTM等机器学习模型相当。
国籍预测： 在维基百科数据集上，准确率低于种族预测，但封闭源LLMs（特别是Claude和GPT系列）表现更好。

结论
LLMs能够仅基于人名准确预测性别、种族甚至国籍。尽管预测年龄或出生日期更具挑战性，但LLMs在人口统计学注释生成方面开创了新纪元，这可能会显著简化医学等领域的许多人口层面的干预措施。

推荐阅读指数：

★★☆☆☆

推荐理由：

文章不仅展示了LLMs在人口统计学丰富化方面的潜力，还为未来研究提供了重要的资源，特别是在解决偏见和改进人口统计预测方面。

2. The Factuality of Large Language Models in the Legal Domain

RE Hamdani, T Bonald, F Malliaros, N Holzenberger…
来源: https://arxiv.org/pdf/2409.11798
在这里插入图片描述
大型语言模型在法律领域的事实性

摘要
本文研究了大型语言模型（LLMs）在法律领域作为知识库的事实性，允许模型在不确定时选择不回答，并接受答案的可接受变体。研究者设计了一个包含不同法律事实问题的数据集，并使用该数据集评估了几个LLMs。结果显示，使用别名匹配和模糊匹配方法时性能显著提高。此外，研究表明，额外的法律文件预训练，如SaulLM模型，可以将事实精确度从63%提高到81%。

创新点

允许模型不回答： 在不确定性情况下，模型可以决定不回答，减少了错误回答的可能性。
别名和模糊匹配： 引入了别名匹配和模糊匹配来评估LLMs的答案，以更准确地反映模型的性能。
法律文件预训练： 展示了通过对法律文件的额外预训练可以显著提高LLMs在法律领域的事实准确性。

算法模型

LLMs： 论文在多个开源模型上进行测试，包括如Gemma-2B、Gemma-7B、Llama-2-7B等，以及SaulLM（在法律语料上进一步训练的Mistral-7B）。
评估方法： 包括精确匹配（Exact matching）、别名匹配（Alias matching）和模糊匹配（Fuzzy matching）。

实验效果

性能提升： 使用别名匹配和模糊匹配方法相比于精确匹配显著提高了性能。
法律文件预训练： SaulLM在法律文件上的预训练使其在事实准确性上显著优于其他模型，精确度达到81%。
实验数据： 在不同的评估方法下，模型的排名和性能有显著变化。

核心结论
LLMs在法律领域作为知识库时，通过使用别名匹配和模糊匹配以及允许模型不回答可以显著提高其事实准确性。此外，对法律文件的额外预训练可以进一步提高LLMs的事实准确性。

推荐阅读指数：
★★★☆☆

推荐理由：

对于法律技术领域的研究人员和实践者，本文提供了LLMs在法律领域应用的实践。

3. Large Language Models for Cross-lingual Emotion Detection

RMR Kadiyala - Proceedings of the 14th Workshop of on Computational …, 2024， ACL

大型语言模型用于跨语言情感检测

摘要
本文详细介绍了参加WASSA 2024任务2的冠军系统，该任务专注于跨语言情感检测。作者利用大型语言模型（LLMs）及其集成，有效地理解和分类不同语言中的情感。该方法不仅大幅超越其他参赛作品，还展示了通过集成多个模型来提升性能的优势。此外，作者还对每个使用的模型的优缺点进行了彻底的比较，并包含了错误分析和未来改进的建议领域。
在这里插入图片描述

创新点

多模型集成： 通过集成多个LLMs来提升情感检测的性能。
跨语言情感检测： 在多种语言（荷兰语、英语、法语、俄语和西班牙语）上进行情感分类。
不同精度的测试： 在4位和16位精度上测试模型的鲁棒性和效率，以理解计算效率和模型性能之间的权衡。

算法模型

LLMs： 包括GPT-4、Claude-Opus等开源和专有的大型语言模型。
模型微调： 对非专有的LLMs进行了微调，使用了5个epoch、学习率为0.0002、权重衰减为0.01。
集成方法： 包括多数投票、基于宏观/微观/加权F1得分的模型选择。

实验效果

性能比较： 在开发集上，通过微调3个epoch的模型与以前年度最佳参赛作品进行了比较。
错误分析： 展示了每种模型在每种语言上的性能，并发现某些模型在某些语言上表现更好。
实验数据： 集成模型在测试集上达到了0.6295的F1得分，比其他方法平均高出3%。

数据
在这里插入图片描述

结论
集成模型在跨语言情感检测任务上取得了显著的性能提升。通过选择合适的模型和集成策略，可以进一步提高性能。此外，增加训练数据和使用更高版本的模型可能会进一步提升结果。

推荐阅读指数：
★★★★☆

推荐理由：

文章详细介绍了多种LLMs的集成策略，对提升模型性能有帮助。同时是跨语言情感检测的应用，属于LLM应用创新。

4. Using Large Language Models to Generate Clinical Trial Tables and Figures

Y Yang, P Krusche, K Pantoja, C Shi, E Ludmir… ， 2024
https://arxiv.org/pdf/2409.12046

使用大型语言模型生成临床试验表格和图形
在这里插入图片描述

摘要
本文探讨了如何利用大型语言模型（LLMs）通过提示工程和少量样本迁移学习自动化生成临床试验数据的表格、图形和列表（TFLs）。研究结果表明，LLMs能够根据提示指令高效生成TFLs，展示了其在该领域的潜力。此外，研究者还开发了一个名为“Clinical Trial TFL Generation Agent”的对话代理应用程序，该程序将用户查询与预定义的提示相匹配，以生成定制化的程序来生成特定的预定义TFLs。

创新点

自动化TFLs生成： 使用LLMs自动化生成临床试验报告中的TFLs，以提高效率。
对话代理应用程序： 开发了“Clinical Trial TFL Generation Agent”，通过预定义的提示简化用户与模型的交互。
标准化的提示库： 通过标准化的提示库，确保生成的TFLs的一致性和准确性。

算法模型

LLMs： 使用了大型语言模型（如GPT-4）来理解表格结构和分析表格数据。
提示工程： 设计了系统提示、用户提示和少量样本编码示例，以引导模型执行特定的数据分析任务。
两阶段架构： 应用程序采用两阶段架构，先理解用户请求，再激活详细的提示生成表格。

实验效果

100%的准确性： 在生成的代码和手动编码结果的比较中，预设计的提示在重现结果方面达到了100%的准确性。
跨疾病领域的泛化能力： 在不同的疾病领域的临床试验数据集上测试预定义的提示，也显示出良好的泛化能力。
用户界面友好： 开发的应用程序允许用户通过自然语言交互来生成特定的临床试验表格。

结论
LLMs在自动化生成临床试验TFLs方面具有潜力，并且可以通过标准化的提示库和对话代理应用程序与现有的药物开发流程无缝集成。LLMs能够保留程序代码和自然语言/纯文本规范之间的联系，从而自然地融入并增强设计和制作TFLs的现有流程。

推荐阅读指数：
★★★☆☆

推荐理由：

对于医疗数据分析、临床试验报告自动化生成以及LLMs应用领域的研究人员和实践者有一定参考意义。

5. Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

A Akkus, M Li, J Chu, M Backes, Y Zhang, S Sav - arXiv preprint arXiv:2409.11423, 2024

在这里插入图片描述
在生成数据上微调大型语言模型：假隐私的隐藏风险

摘要
本文探讨了使用大型语言模型（LLMs）在生成的数据上进行微调可能带来的隐私风险。尽管LLMs在特定领域任务上表现出色，但使用真实世界数据进行微调通常会导致隐私风险。为了避免使用真实数据的缺点，开发者经常使用自动生成的合成数据进行微调。然而，鉴于LLMs的高级能力，真实数据和LLM生成的数据之间的区别变得微不足道，这也可能带来像真实数据一样的隐私风险。

创新点

隐私风险分析： 对LLMs在生成数据上微调的隐私风险进行了实证分析。
两种微调方法： 研究了无结构生成数据的监督微调和自指导微调两种方法。
实际应用场景： 将研究应用于电子邮件和法律聊天机器人等实际场景，评估了微调后模型的隐私风险。

算法模型

LLMs： 使用了Pythia和Llama-3等模型进行实验。
微调方法： 包括无结构数据的监督微调和自指导微调。
攻击技术： 使用了个人身份信息（PII）提取和基于分数的成员推断攻击（MIA）技术来评估隐私风险。

实验效果

PII提取成功率提高： 在微调生成的数据后，Pythia模型在PII提取任务上的成功率提高了20%以上。
MIA攻击ROC-AUC得分提高： 自指导微调后的Pythia-6.9b模型在MIA攻击上的ROC-AUC得分比基模型提高了40%以上。
数据和模型质量： 分析了生成数据的模板和质量对PII提取成功率的影响。

结论
研究表明，使用LLMs生成的数据进行微调可能会增加与预训练数据集相关的隐私风险。通过精心设计的提示和测试，可以可靠地产生正确的输出。

推荐阅读指数：
★★★★☆

推荐理由：

对于关注LLMs隐私保护和数据安全的研究人员有参考价值。

6. Jailbreaking Large Language Models with Symbolic Mathematics

E Bethany, M Bethany, JAN Flores, SK Jha, P Najafirad - arXiv preprint arXiv …, 2024
在这里插入图片描述
利用符号数学破解大型语言模型

摘要
本文介绍了一种名为MathPrompt的新型破解技术，该技术利用大型语言模型（LLMs）在符号数学方面的高级能力来绕过它们的安全机制。通过将有害的自然语言提示编码成数学问题，研究表明当前AI安全措施的关键漏洞。在13个最先进的LLMs上的实验显示，平均攻击成功率为73.6%，突出了现有安全训练机制无法泛化到数学编码输入的问题。

创新点