计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07
- 目录
- 1. Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 2. Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 3. Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 4. A Survey on the Honesty of Large Language Models
- 5. FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation
- - 摘要：
  - 研究背景:
  - 问题与挑战：
  - 如何解决：
  - 创新点：
  - 算法模型：
  - 实验效果：
  - 推荐阅读指数：
  - 推荐理由：
- 6. CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 重要数据与结论
  - 推荐阅读指数
  - 推荐理由
- 7. Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- - 摘要：
  - 研究背景：
  - 问题与挑战：
  - 如何解决：
  - 创新点：
  - 算法模型：
  - 实验效果：
  - 推荐阅读指数：
  - 推荐理由：
- 后记

1. Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review

E Croxford, Y Gao, N Pellegrino, KK Wong, G Wills… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.18170

大型语言模型在医学领域摘要任务的评估：一项叙述性综述

摘要

本文是一篇叙述性综述，旨在评估大型语言模型（LLMs）在临床摘要任务中的当前评估状态，并提出未来的方向，以解决专家人工评估的资源限制问题。

研究背景

大型语言模型（LLMs）在自然语言生成（NLG）领域取得了显著进展，尤其在医疗领域，LLMs有助于减轻医疗保健提供者的文档负担。然而，医学的高风险性质要求对LLMs的性能进行可靠评估，这仍然是一个挑战。
在这里插入图片描述

问题与挑战

在医学等高风险环境中应用LLMs的一个主要挑战是确保它们的性能得到可靠评估。现有的评估指标（如n-gram重叠和语义分数）对于医学领域的细微需求来说是不够的。

如何解决

文章提出了使用LLMs作为评估工具的概念，通过指令调整和强化学习与人类反馈（RLHF）的方法，使LLMs能够更精确地遵循评估标准。

创新点

LLM作为评估者：提出使用LLMs作为人类专家评估的补充，通过模拟人类评估者的行为来进行评估。
指令调整：通过指令工程来调整LLMs，使其能够执行特定任务。
参数高效微调：使用量化和低秩适配器来微调模型，以嵌入任务特定知识。

算法模型

BERTScore：用于评估文本生成质量的度量。
直接偏好优化（DPO）：一种基于人类偏好的直接优化方法，用于微调LLMs。

实验效果

文章没有提供具体的实验数据，因为它是一篇叙述性回顾，而不是实验性研究。它讨论了评估LLMs的不同方法，并提出了未来研究的方向。

2. Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing

HI Ashqar, A Jaber, TI Alhadidi, M Elhenawy - arXiv preprint arXiv:2409.18286, 2024
https://arxiv.org/abs/2409.18286

使用多模态大型语言模型（MLLMs）推进交通系统中的目标检测：一项全面回顾和实证测试

摘要

本研究旨在全面回顾和实证评估多模态大型语言模型（MLLMs）和大型视觉模型（VLMs）在交通系统目标检测中的应用。研究首先提供了MLLMs在交通应用中的潜在优势的背景，并回顾了先前研究中当前MLLM技术的有效性和局限性。然后提供了交通应用中端到端目标检测的分类法和未来方向的概述。在此基础之上，提出了对三个实际交通问题的MLLMs进行实证分析，包括道路安全属性提取、安全关键事件检测和热图像视觉推理。研究结果提供了对MLLM性能的详细评估，揭示了其优势和改进领域。

研究背景

目标检测在交通领域变得越来越重要，因为它对交通安全、效率至关重要。MLLMs代表了一种突破性进展，作为具有多模态数据处理能力的AI模型，能够处理和分析来自多个来源的数据，包括文本、图像、视频和传感器数据。
在这里插入图片描述

问题与挑战

现有的目标检测技术在效率和准确性方面存在局限性。特别是在复杂场景中，这些方法可能效率低下或缺乏必要的准确性。此外，传统目标检测算法通常使用水平边界框来标记图像中的物体，可能会导致准确性问题，并包含过多的背景信息。

如何解决

研究提出了使用MLLMs进行目标检测的方法，这些模型能够处理不同类型的数据，如图像、视频和文本，开辟了提高目标检测准确性和上下文感知的新途径。
在这里插入图片描述

创新点

多模态数据处理：MLLMs能够处理包括文本、图像、视频和传感器数据在内的多种数据类型。
零样本和少样本学习：MLLMs即使在训练数据不足的情况下也能表现出色，减少了对大量标注数据集的依赖。
实时推荐：MLLMs能够提供实时建议，提高了交通系统的效率和安全性。

算法模型

MLLMs/VLMs：使用诸如GPT-4和Vision Transformer模型等大型语言模型进行目标检测。
零样本学习：在没有明确训练的情况下，利用MLLMs的基础知识和理解来生成准确的响应。

实验效果

道路安全属性提取：在11个选定的iRAP标准中，模型在8个属性上的准确度超过80%。
安全关键事件检测：Gemini-pro-vision 1.0在视频输入配置中表现优于其他配置，整体性能指标为74.67%。
热图像视觉推理：Gemini 1.0 Pro Vision在自行车、汽车和摩托车检测方面优于GPT-4 Vision Preview，而GPT-4 Vision Preview在行人检测方面表现更好。

3. Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

Y Chen, X Yue, X Gao, C Zhang, LF D’Haro, RT Tan… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.18680

在这里插入图片描述

超越单一音频：推进音频大型语言模型中的多音频处理

摘要

最近探索了各种音频大型语言模型（ALLMs），这些模型使用单一的、统一的模型同时处理不同的音频任务。尽管现有的ALLMs评估主要集中在单一音频任务上，但现实世界的应用通常涉及同时处理多个音频流。为了弥补这一差距，我们提出了第一个多音频评估（MAE）基准，它包括来自11个多音频任务的20个数据集，涵盖语音和声音场景。在MAE上的全面实验表明，现有的ALLMs在理解单个音频输入中的主要音频元素方面非常强大，但在处理多音频场景时却很困难。为此，我们提出了一种新颖的多音频大型语言模型（MALLM），通过我们提出的合成数据上的判别学习来捕获多个相似音频之间的音频上下文。结果表明，我们提出的MALLM在所有基线上都取得了优异的性能，并且在使用合成数据时具有高数据效率，无需人工注释。

研究背景

大型语言模型（LLMs）在自然语言处理（NLP）的各个任务中取得了显著进展。最近在LLMs的进展也推动了各种强大的音频大型语言模型（ALLMs）的发展，这些模型在自动语音识别、语音合成、声音事件分类等一系列音频任务上取得了令人印象深刻的结果。

问题与挑战

现有的ALLMs训练和评估主要集中在单一音频输入上，这在现实世界的应用中是一个重大缺陷，因为现实世界的应用，如虚拟助手，通常需要同时处理多个音频流。

如何解决

为了解决这个问题，作者提出了第一个多音频评估（MAE）基准，用于评估ALLMs的多音频处理能力。此外，作者还开发了一个新颖的多音频大型语言模型（MALLM），通过合成数据上的判别学习来提高模型处理多个音频流的能力。

创新点

多音频评估（MAE）基准：这是第一个专门为评估ALLMs的多音频处理能力而设计的基准。
多音频大型语言模型（MALLM）：这是第一个为多音频任务量身定制的ALLM，它在处理多个音频流的同时保持了单一音频任务的竞争力。

算法模型

MALLM：通过合成数据上的判别学习进行训练，以发现两个相似音频样本之间的微妙差异。
合成数据策略：提出了一种可扩展的音频对合成策略，无需数据收集和人工标注即可实现多音频处理能力。

实验效果

MAE基准：在MAE基准上的实验结果显示，现有的开源ALLMs在多音频场景中表现不佳。
MALLM性能：新开发的MALLM在多音频理解方面显著优于所有现有的开源ALLMs，并且在单一音频任务上也保持了竞争力。

4. A Survey on the Honesty of Large Language Models

S Li, C Yang, T Wu, C Shi, Y Zhang, X Zhu, Z Cheng… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.18786
在这里插入图片描述

大型语言模型的诚实性研究综述

摘要：
文章讨论了大型语言模型（LLMs）的诚实性问题，诚实性是指模型能够认识到它们所知道和不知道的事物，并能够忠实地表达它们的知识。尽管LLMs在很多方面表现出了巨大潜力，但它们在表达时仍会出现显著的不诚实行为，例如错误地自信地提供错误答案，或未能表达它们所知道的信息。文章提供了对LLMs诚实性研究的综述，包括诚实性的澄清、评估方法和改进策略，并为未来的研究提供了见解。

研究背景：
诚实性是将LLMs与人类价值观对齐的基本原则之一，特别是在医学、法律和金融等高风险领域。然而，当前的LLMs模型经常表现出不诚实的行为，比如过于自信地给出错误答案，或者无法准确表达其内部状态。

问题与挑战：
LLMs的诚实性研究面临几个挑战：诚实性在LLMs中的定义各不相同，识别已知和未知知识之间的区别存在困难，并且对相关研究的全面理解不足。

如何解决：
文章通过提供对LLMs诚实性的综述来解决这些问题，包括其定义、评估方法和改进策略。

创新点：
文章的主要创新点在于提供了一个全面的诚实性研究综述，这有助于统一对LLMs诚实性的理解，并为未来的研究提供了清晰的方向。

算法模型：
文章没有提出新的算法模型，而是对现有的评估和改进LLMs诚实性的方法进行了综述。

实验效果：
文章没有提供具体的实验数据，因为它是一个综述性质的文章，而不是一个实验性的研究。它总结了现有的研究成果，并提出了未来研究的方向。

推荐阅读指数：
8/10

推荐理由：
这篇文章是对LLMs诚实性研究的一个很好的概述，适合那些对LLMs的可靠性、评估标准和改进方法感兴趣的研究人员和从业者。

5. FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

Y Imajuku, Y Yamakata, K Aizawa - arXiv preprint arXiv:2409.18459, 2024
https://arxiv.org/pdf/2409.18459

在这里插入图片描述
FoodMLLM-JP：利用多模态大型语言模型进行日文食谱生成

摘要：

这篇文章探讨了如何使用多模态大型语言模型（MLLMs）来理解食物图像，并生成对应的日文食谱。鉴于食物与人们生活的密切关系，这一研究领域对于实际应用（如饮食管理）至关重要。文章中，作者们对现有的MLLMs进行了微调，并在日文食谱数据集上进行了性能评估，与封闭模型GPT-4o进行了对比。研究表明，经过食谱数据训练的开放模型在生成食材方面的表现超过了GPT-4o。

研究背景:

食物图像理解是一个活跃的研究领域，它涉及到从食物图像中估计菜肴名称和食材等任务。随着MLLMs的出现，这些模型在处理图像和文本数据方面展现出了巨大潜力。

问题与挑战：

尽管MLLMs在处理英语方面表现出色，但对非英语语言（如日语）的支持还有待提高。此外，食物图像的理解需要模型能够准确地从图像中提取食材和烹饪步骤信息。

如何解决：

作者们通过对现有的MLLMs进行微调，使其能够更好地理解和生成日文食谱。他们还引入了一种新方法，即在训练过程中加入非食物图像及其标题，使模型能够在生成食谱文本之前判断输入图像是否为食物图像。

创新点：

提出了一个全面的流程，包括微调开源MLLMs和基于考虑食物文化的策划评估数据的评估。
利用MLLMs的多功能性，保留了人类创建的原始食谱文本，同时在训练过程中加入非食物图像及其标题，增加了数据多样性。
通过食谱文本生成任务，分析了不同基础MLLMs和微调MLLMs时调整参数的性能差异。

算法模型：

文章中使用了LLaVA-1.5和Phi-3 Vision这两个开放的MLLMs，并在日文食谱数据集上进行了微调。此外，还使用了GPT-4o作为封闭模型进行对比。

实验效果：

在食材生成方面，作者们的模型达到了0.531的F1分数，超过了GPT-4o的0.481，显示出更高的准确性。
在烹饪步骤文本生成方面，作者们的模型达到了6.261的sacreBLEU分数，与GPT-4o的7.223分数相当。

6. CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models

K Ryu, Q Liao, Z Li, K Sreenath, N Mehr - arXiv preprint arXiv:2409.18382, 2024
https://arxiv.org/pdf/2409.18382

CurricuLLM: 使用大型语言模型自动设计学习复杂机器人技能的教学大纲

摘要

CurricuLLM 是一种利用大型语言模型（LLMs）为复杂机器人控制任务自动生成教学大纲的方法。该方法通过逐步增加任务难度来促进目标任务的学习。CurricuLLM 包括生成子任务序列的自然语言描述、将子任务描述翻译成可执行的任务代码，以及基于轨迹回滚和子任务描述评估训练策略。在多种机器人模拟环境中评估了 CurricuLLM，并在现实世界中验证了通过 CurricuLLM 学习到的类人机器人运动策略。

研究背景

深度强化学习（DRL）在机器人任务中取得了显著成功，但需要大量有信息量的样本进行学习，对于复杂任务来说效率很低。人类学习策略通常是从简单任务开始，逐渐增加难度。课程学习正是基于这种结构化学习方法，目的是以有意义的顺序训练模型，逐步提高训练数据的复杂性或任务本身的难度。

问题与挑战

为特定任务设计有效的课程通常需要大量的领域知识和人为干预，这限制了其在不同领域的应用性。自动课程学习（ACL）需要确定与目标任务一致的子任务、对每个子任务的难度进行排序，并按难度递增的顺序组织它们。

如何解决

CurricuLLM 利用大型语言模型（LLMs）在多样化语言数据上的广泛训练和封装世界知识的能力，有效地分解任务，并在不同的机器人环境中分解技能。此外，LLMs 在将自然语言翻译成 RL 代理可执行代码方面的成功，加强了它们在生成任务课程中的作用。

创新点

提出了 CurricuLLM，一个使用 LLMs 的高级规划和编码能力的面向任务的课程设计者。
在多样化的机器人模拟环境中评估 CurricuLLM，证明了其在复杂控制任务中的有效性。
在 Berkeley Humanoid 上验证了通过 CurricuLLM 训练的策略，展示了通过 CurricuLLM 学习到的策略可以转移到现实世界。

算法模型

CurricuLLM 包括三个主要模块：

课程设计：生成子任务的自然语言序列。
任务代码采样：为给定的子任务描述生成 K 个任务代码候选项，并用于微调以前子任务训练的策略。
最优策略选择：评估不同任务代码候选项训练出的政策，并选择与当前子任务最符合的策略。

实验效果

在 Gymnasium 环境中的操纵和导航任务中，CurricuLLM 显示出与基线相当的或更高的成功率。
在 Berkeley Humanoid 环境中，CurricuLLM 与复杂的人为设计的奖励函数相比，跟踪误差和失败率相当。
在现实世界中的 Berkeley Humanoid 上的硬件验证表明，通过 CurricuLLM 学习到的控制策略在真实世界中是有效的。

重要数据与结论

CurricuLLM 在所有任务中，尤其是在最具挑战性的 AntMaze 环境中，显示出优越的性能。
CurricuLLM 生成的奖励代码涵盖了对实现目标任务有益的多种行为。
在现实世界的硬件实验中，CurricuLLM 成功地控制了机器人按照给定的命令移动。

7. Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey

T Huang, S Hu, F Ilhan, SF Tekin, L Liu - arXiv preprint arXiv:2409.18169, 2024
https://arxiv.org/pdf/2409.18169

在这里插入图片描述
大型语言模型的有害微调攻击与防御：一项综述

摘要：

文章讨论了大型语言模型（LLMs）在微调即服务（fine-tuning-as-a-service）模式下可能面临的安全问题。微调过程中，如果用户上传的数据包含有害信息，可能会破坏模型的安全对齐。这种攻击被称为有害微调攻击，引起了广泛研究兴趣。文章旨在澄清攻击设定中的一些常见问题，并正式建立研究问题。介绍了问题的危害模型，系统地调查了攻击、防御和机械分析方面的现有文献，并概述了未来的研究方向。