计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

1. Enriching Datasets with Demographics through Large Language Models: What’s in a Name?

K AlNuaimi, G Marti, M Ravaut, A AlKetbi, A Henschel… - arXiv preprint arXiv …, 2024

通过大型语言模型丰富数据集的人口统计学信息:名字里有什么?

摘要
本文探讨了如何利用大型语言模型(LLMs)从名字中预测性别、种族、年龄等人口统计信息,这对于医疗保健、公共政策和社会科学等领域至关重要。尽管以往的研究采用了隐马尔可夫模型和循环神经网络来预测名字中的人口统计信息,但存在显著的局限性,包括缺乏大规模、良好策划、无偏见、公开可用的数据集,以及缺乏跨数据集稳健的方法。本文展示了大型语言模型的零样本能力,其表现与专门训练的模型一样好,甚至更好。作者将这些LLMs应用于多个数据集,包括香港金融专业人士的真实未标记数据集,并批判性地评估了这些模型中固有的人口统计偏见。

创新点

  1. 零样本学习能力: 展示了现代零样本LLMs在从名字生成人口统计数据方面,性能优于或至少与以前的监督学习方法相当。
  2. 人口统计偏见的揭示: 特别是它们倾向于低估个体年龄,通常超过十年,这对于年龄敏感的应用(如医疗保健和市场营销)具有重要意义。
  3. 新数据集的分析和丰富: 分析、丰富并发布了一个专注于香港金融专业人士姓名的新数据集,填补了非西方人口统计数据集的空白。

算法模型

  • 大型语言模型(LLMs): 包括GPT-3、ChatGPT等,这些模型在零样本学习方面表现出色,无需监督调整即可生成类似人类的文本。
  • 传统监督学习方法: 包括隐马尔可夫模型和循环神经网络。

实验效果

  • 性别预测: 在佛罗里达选民注册数据集上,所有12个LLMs的准确率在0.96到0.99之间。
  • 出生日期预测: LLMs表现不佳,无法一致地提高简单基线。
  • 种族预测: 大多数LLMs的零样本准确率在0.75到0.85之间,与之前报道的随机森林或LSTM等机器学习模型相当。
  • 国籍预测: 在维基百科数据集上,准确率低于种族预测,但封闭源LLMs(特别是Claude和GPT系列)表现更好。
    在这里插入图片描述

结论
LLMs能够仅基于人名准确预测性别、种族甚至国籍。尽管预测年龄或出生日期更具挑战性,但LLMs在人口统计学注释生成方面开创了新纪元,这可能会显著简化医学等领域的许多人口层面的干预措施。

推荐阅读指数

★★☆☆☆

推荐理由:

  • 文章不仅展示了LLMs在人口统计学丰富化方面的潜力,还为未来研究提供了重要的资源,特别是在解决偏见和改进人口统计预测方面。

2. The Factuality of Large Language Models in the Legal Domain

RE Hamdani, T Bonald, F Malliaros, N Holzenberger…
来源: https://arxiv.org/pdf/2409.11798
在这里插入图片描述
大型语言模型在法律领域的事实性

摘要
本文研究了大型语言模型(LLMs)在法律领域作为知识库的事实性,允许模型在不确定时选择不回答,并接受答案的可接受变体。研究者设计了一个包含不同法律事实问题的数据集,并使用该数据集评估了几个LLMs。结果显示,使用别名匹配和模糊匹配方法时性能显著提高。此外,研究表明,额外的法律文件预训练,如SaulLM模型,可以将事实精确度从63%提高到81%。

创新点

  1. 允许模型不回答: 在不确定性情况下,模型可以决定不回答,减少了错误回答的可能性。
  2. 别名和模糊匹配: 引入了别名匹配和模糊匹配来评估LLMs的答案,以更准确地反映模型的性能。
  3. 法律文件预训练: 展示了通过对法律文件的额外预训练可以显著提高LLMs在法律领域的事实准确性。

算法模型

  • LLMs: 论文在多个开源模型上进行测试,包括如Gemma-2B、Gemma-7B、Llama-2-7B等,以及SaulLM(在法律语料上进一步训练的Mistral-7B)。
  • 评估方法: 包括精确匹配(Exact matching)、别名匹配(Alias matching)和模糊匹配(Fuzzy matching)。

实验效果

  • 性能提升: 使用别名匹配和模糊匹配方法相比于精确匹配显著提高了性能。
  • 法律文件预训练: SaulLM在法律文件上的预训练使其在事实准确性上显著优于其他模型,精确度达到81%。
  • 实验数据: 在不同的评估方法下,模型的排名和性能有显著变化。

核心结论
LLMs在法律领域作为知识库时,通过使用别名匹配和模糊匹配以及允许模型不回答可以显著提高其事实准确性。此外,对法律文件的额外预训练可以进一步提高LLMs的事实准确性。

推荐阅读指数
★★★☆☆

推荐理由:

  • 对于法律技术领域的研究人员和实践者,本文提供了LLMs在法律领域应用的实践。

3. Large Language Models for Cross-lingual Emotion Detection

RMR Kadiyala - Proceedings of the 14th Workshop of on Computational …, 2024, ACL

大型语言模型用于跨语言情感检测

摘要
本文详细介绍了参加WASSA 2024任务2的冠军系统,该任务专注于跨语言情感检测。作者利用大型语言模型(LLMs)及其集成,有效地理解和分类不同语言中的情感。该方法不仅大幅超越其他参赛作品,还展示了通过集成多个模型来提升性能的优势。此外,作者还对每个使用的模型的优缺点进行了彻底的比较,并包含了错误分析和未来改进的建议领域。
在这里插入图片描述

创新点

  1. 多模型集成: 通过集成多个LLMs来提升情感检测的性能。
  2. 跨语言情感检测: 在多种语言(荷兰语、英语、法语、俄语和西班牙语)上进行情感分类。
  3. 不同精度的测试: 在4位和16位精度上测试模型的鲁棒性和效率,以理解计算效率和模型性能之间的权衡。

算法模型

  • LLMs: 包括GPT-4、Claude-Opus等开源和专有的大型语言模型。
  • 模型微调: 对非专有的LLMs进行了微调,使用了5个epoch、学习率为0.0002、权重衰减为0.01。
  • 集成方法: 包括多数投票、基于宏观/微观/加权F1得分的模型选择。
    在这里插入图片描述

实验效果

  • 性能比较: 在开发集上,通过微调3个epoch的模型与以前年度最佳参赛作品进行了比较。
  • 错误分析: 展示了每种模型在每种语言上的性能,并发现某些模型在某些语言上表现更好。
  • 实验数据: 集成模型在测试集上达到了0.6295的F1得分,比其他方法平均高出3%。

数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论
集成模型在跨语言情感检测任务上取得了显著的性能提升。通过选择合适的模型和集成策略,可以进一步提高性能。此外,增加训练数据和使用更高版本的模型可能会进一步提升结果。

推荐阅读指数
★★★★☆

推荐理由:

  • 文章详细介绍了多种LLMs的集成策略,对提升模型性能有帮助。同时是跨语言情感检测的应用,属于LLM应用创新。

4. Using Large Language Models to Generate Clinical Trial Tables and Figures

Y Yang, P Krusche, K Pantoja, C Shi, E Ludmir… , 2024
https://arxiv.org/pdf/2409.12046

使用大型语言模型生成临床试验表格和图形
在这里插入图片描述

摘要
本文探讨了如何利用大型语言模型(LLMs)通过提示工程和少量样本迁移学习自动化生成临床试验数据的表格、图形和列表(TFLs)。研究结果表明,LLMs能够根据提示指令高效生成TFLs,展示了其在该领域的潜力。此外,研究者还开发了一个名为“Clinical Trial TFL Generation Agent”的对话代理应用程序,该程序将用户查询与预定义的提示相匹配,以生成定制化的程序来生成特定的预定义TFLs。

创新点

  1. 自动化TFLs生成: 使用LLMs自动化生成临床试验报告中的TFLs,以提高效率。
  2. 对话代理应用程序: 开发了“Clinical Trial TFL Generation Agent”,通过预定义的提示简化用户与模型的交互。
  3. 标准化的提示库: 通过标准化的提示库,确保生成的TFLs的一致性和准确性。

算法模型

  • LLMs: 使用了大型语言模型(如GPT-4)来理解表格结构和分析表格数据。
  • 提示工程: 设计了系统提示、用户提示和少量样本编码示例,以引导模型执行特定的数据分析任务。
  • 两阶段架构: 应用程序采用两阶段架构,先理解用户请求,再激活详细的提示生成表格。

实验效果

  • 100%的准确性: 在生成的代码和手动编码结果的比较中,预设计的提示在重现结果方面达到了100%的准确性。
  • 跨疾病领域的泛化能力: 在不同的疾病领域的临床试验数据集上测试预定义的提示,也显示出良好的泛化能力。
  • 用户界面友好: 开发的应用程序允许用户通过自然语言交互来生成特定的临床试验表格。
    在这里插入图片描述

结论
LLMs在自动化生成临床试验TFLs方面具有潜力,并且可以通过标准化的提示库和对话代理应用程序与现有的药物开发流程无缝集成。LLMs能够保留程序代码和自然语言/纯文本规范之间的联系,从而自然地融入并增强设计和制作TFLs的现有流程。

推荐阅读指数
★★★☆☆

推荐理由:

  • 对于医疗数据分析、临床试验报告自动化生成以及LLMs应用领域的研究人员和实践者有一定参考意义。

5. Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

A Akkus, M Li, J Chu, M Backes, Y Zhang, S Sav - arXiv preprint arXiv:2409.11423, 2024

在这里插入图片描述
在生成数据上微调大型语言模型:假隐私的隐藏风险

摘要
本文探讨了使用大型语言模型(LLMs)在生成的数据上进行微调可能带来的隐私风险。尽管LLMs在特定领域任务上表现出色,但使用真实世界数据进行微调通常会导致隐私风险。为了避免使用真实数据的缺点,开发者经常使用自动生成的合成数据进行微调。然而,鉴于LLMs的高级能力,真实数据和LLM生成的数据之间的区别变得微不足道,这也可能带来像真实数据一样的隐私风险。

创新点

  1. 隐私风险分析: 对LLMs在生成数据上微调的隐私风险进行了实证分析。
  2. 两种微调方法: 研究了无结构生成数据的监督微调和自指导微调两种方法。
  3. 实际应用场景: 将研究应用于电子邮件和法律聊天机器人等实际场景,评估了微调后模型的隐私风险。

算法模型

  • LLMs: 使用了Pythia和Llama-3等模型进行实验。
  • 微调方法: 包括无结构数据的监督微调和自指导微调。
  • 攻击技术: 使用了个人身份信息(PII)提取和基于分数的成员推断攻击(MIA)技术来评估隐私风险。

实验效果

  • PII提取成功率提高: 在微调生成的数据后,Pythia模型在PII提取任务上的成功率提高了20%以上。
  • MIA攻击ROC-AUC得分提高: 自指导微调后的Pythia-6.9b模型在MIA攻击上的ROC-AUC得分比基模型提高了40%以上。
  • 数据和模型质量: 分析了生成数据的模板和质量对PII提取成功率的影响。

结论
研究表明,使用LLMs生成的数据进行微调可能会增加与预训练数据集相关的隐私风险。通过精心设计的提示和测试,可以可靠地产生正确的输出。

推荐阅读指数
★★★★☆

推荐理由:

  • 对于关注LLMs隐私保护和数据安全的研究人员有参考价值。

6. Jailbreaking Large Language Models with Symbolic Mathematics

E Bethany, M Bethany, JAN Flores, SK Jha, P Najafirad - arXiv preprint arXiv …, 2024
在这里插入图片描述
利用符号数学破解大型语言模型

摘要
本文介绍了一种名为MathPrompt的新型破解技术,该技术利用大型语言模型(LLMs)在符号数学方面的高级能力来绕过它们的安全机制。通过将有害的自然语言提示编码成数学问题,研究表明当前AI安全措施的关键漏洞。在13个最先进的LLMs上的实验显示,平均攻击成功率为73.6%,突出了现有安全训练机制无法泛化到数学编码输入的问题。

创新点

  1. MathPrompt技术: 提出一种新的破解方法,将有害的自然语言提示转换为符号数学问题。
  2. 跨模型攻击: 在多个不同的最新LLMs上测试了这种攻击方法,显示了跨不同模型的普遍脆弱性。
  3. 语义转换分析: 通过嵌入向量分析,揭示了原始提示和编码提示之间的语义转变。
    在这里插入图片描述
    算法模型
  • MathPrompt: 一种将自然语言提示转换为数学问题的攻击方法。
  • 嵌入向量分析: 使用all-MiniLM-L6-v2模型生成嵌入向量,分析原始和编码提示之间的语义差异。

实验效果

  • 攻击成功率: 在13个不同的LLMs上,MathPrompt的平均攻击成功率为73.6%。
  • 嵌入向量分析: 原始提示和数学编码提示之间的平均余弦相似度为0.2705,表明有明显的语义转变。

结论
研究揭示了当前LLM安全机制的一个关键漏洞,通过MathPrompt技术实现了高平均攻击成功率。嵌入分析进一步阐明了这种方法的有效性,显示出足够的语义转变以绕过安全过滤器。

推荐阅读指数
★★★★★

推荐理由:

  • 对于AI安全、LLMs和自然语言处理领域的研究人员和开发人员,本文提供了重要的见解和潜在的安全风险。
  • 文章详细介绍了MathPrompt技术,对于理解LLMs的安全漏洞和如何绕过现有安全机制具有重要意义。

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/434868.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python获取百度地图路径规划

自制语音助手想做一个查询交通路线的功能,于是就想到了百度地图。在百度地图的服务器端应用中,提供了“轻量级路线规划”API接口,正好可以满足需求。要用这个接口,需要注册百度地图账号并创建一个服务器端的应用。有关开通百度地图…

Docekrfile和docker compose编写指南及注意事项

Dockerfile 基础语法 我们通过编写dockerfile,将每一层要做的事情使用语法固定下来,之后运行指令就可以通过docker来制作自己的镜像了。 构建镜像的指令:docker build /path -t imageName:tag 注意,docker build后的path必须是dockerfile…

Selenium与数据库结合:数据爬取与存储的技术实践

目录 一、Selenium与数据库结合的基础概念 1.1 Selenium简介 1.2 数据库简介 1.3 Selenium与数据库结合的优势 二、Selenium爬取数据的基本步骤 2.1 环境准备 2.2 编写爬虫代码 2.3 数据提取 2.4 异常处理 三、数据存储到数据库 3.1 数据库连接 3.2 数据存储 3.3 …

网络编程(10)——json序列化

十、day10 今天学习如何使用jsoncpp将json数据解析为c对象,将c对象序列化为json数据。jsoncp经常在网络通信中使用,也就是服务器和客户端的通信一般使用json(可视化好);而protobuf一般在服务器之间的通信中使用 json…

【YashanDB知识库】yashandb执行包含带oracle dblink表的sql时性能差

本文内容来自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7396959.html?templateId1718516 问题现象 yashandb执行带oracle dblink表的sql性能差: 同样的语句,同样的数据,oracle通过dblink访问远端oracle执行…

可视化服务编排:jvs-logic API出参加密实战教程

在现代软件开发与系统集成的过程中,API(应用程序接口)非常重要,它能使不同系统之间连接,进行数据交换和功能调用。当然,数据交换的数据安全肯定是不可忽视的,为了确保数据在传输过程中的保密性和…

虫情测报灯的工作原理

TH-CQ3】果园、森林等区域病虫害的实时监测、预警和科学管理。病虫害监测系统通常由以下几个部分组成:包括图像传感器、声音传感器、气象传感器等,用于实时采集作物及其周围环境的数据,如叶片变化、虫鸣声、温度、湿度、光照等。对采集到的数…

基于RealSense D435相机实现手部姿态重定向

基于Intel RealSense D435相机和MediaPipe的手部姿态检测,进一步简单实现手部姿态与机器人末端的重定向,获取手部的6D坐标(包括位置和姿态)。 假设已经按照【基于 RealSenseD435i相机实现手部姿态检测】配置好所需的库和环境&…

海口网站建设的最佳实践

海口网站建设的最佳实践 随着互联网的迅猛发展,海口的企业和个人越来越重视网站建设。一个高质量的网站不仅能提升企业形象,还能有效促进品牌传播和业务发展。以下是海口网站建设的一些最佳实践,希望能为相关从业者提供帮助。 1. 明确目标和…

一文说清楚:如何学习好K8s、OpenStack、Docker、Linux?

大家好,我是你们熟悉的-CloudJourney。在这个信息爆炸的时代,我一直致力于通过博客、公众号等平台,与大家分享关于Linux、K8S、Docker、网络、服务器以及OpenStack等前沿技术的见解与心得。然而,随着交流的深入,我逐渐…

[论文精读]TorWard: Discovery, Blocking, and Traceback of Malicious Traffic Over Tor

期刊名称:IEEE Transactions on Information Forensics and Security 发布链接:TorWard: Discovery, Blocking, and Traceback of Malicious Traffic Over Tor | IEEE Journals & Magazine | IEEE Xplore 中文译名:TorWard:…

EDM平台大比拼 用户体验与营销效果双重测评

本文评测了ZohoCampaigns、Mailchimp、Sendinblue、AWeber四款EDM平台,分别适合中小企业、多平台集成、多功能集成、初学者等需求。建议企业根据自身规模、技术水平和功能需求选择最适合的平台。 一、Zoho Campaigns 功能概述 Zoho Campaigns是Zoho旗下的一款专注…

前端框架:选择的艺术

一、简介 在现代 web 开发中,前端框架扮演着至关重要的角色。 首先,它们极大地提升了开发效率。以 React、Vue 和 Angular 为例,这些框架采用组件化的开发模式,允许开发者将页面拆分成独立的、可复用的组件。例如,在一…

学校周赛(2)

A.Minimize! 题目 思路 本题只需要遍历c的取值&#xff0c;实时更新答案即可 代码 #include<iostream> #include<algorithm> using namespace std;void todo(){int a,b;cin>>a>>b;int ansINT_MAX;for(int ca;c<b;c){ansmin(ans,(c-a)(b-c));}co…

面试题:MySQL你用过WITH吗?领免费激活码

感谢Java面试教程的Java多线程文章&#xff0c;点击查看>原文 Java面试教程&#xff0c;发mmm116可获取IDEA-jihuoma 在MySQL中&#xff0c;WITH子句用于定义临时表或视图&#xff0c;也称为公共表表达式&#xff08;CTE&#xff09;。它允许你在一个查询中定义一个临时结果…

耳机检测系统源码分享

耳机检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …

spring-boot 整合 mybatis

文章目录 Spring boot 整合Mybatis将数据返回到浏览器1、准备数据2. 创建一个 pojo 包&#xff0c;创建User实体类3. 创建一个mapper包&#xff0c;写一个UserMapper接口4. 创建一个service包&#xff0c;写一个UserService接口。5. 在 Service 包下创建一个子包&#xff0c;im…

CSS 的背景样式

1.1 背景颜色 1.2 背景图片 1.3 背景平铺 1.4 背景图片位置 1.4.1 方位名词 1.4.2 精确单位 1.4.3 混合单位 1.5 背景图像固定 1.6 背景复合写法 1.7 背景色半透明 1.8 总结

SpringCloud-07 GateWay01 网关技术

Spring Cloud Gateway组件的核心是一系列的过滤器&#xff0c;通过这些过滤器可以将客户端发送的请求转发(路由)到对应的微服务。 Spring Cloud Gateway是加在整个微服务最前沿的防火墙和代理器&#xff0c;隐藏微服务结点IP端口信息&#xff0c;从而加强安全保护。Spring Clou…

Flink 结合kafka 实现端到端的一致性原理

Kafka 事务实现原理 Flink checkpoint 结合kafka 实现端到端的一致性 CASE 分析 1.checkpoint 不成功情况会发生啥&#xff1f; checkpoint 不成功&#xff0c;事务就不会提交&#xff0c;如果checkpoint 一直不成功&#xff0c;任务重启或失败&#xff0c;则会终止事务。从整…