计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28
- 目录
- 前言
- 1. Cognitive phantoms in LLMs through the lens of latent variables
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
- 2. Steward: Natural Language Web Automation
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
- 3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
- 4. SEAL: Suite for Evaluating API-use of LLMs
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
- 5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
- 6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
- - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：★★★★☆
- 7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：★★★★☆
- 8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses
- 文章分析总结
- - 文章标题翻译
  - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
- 9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：★★★★☆
- 10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
- - 摘要
  - 研究背景
  - 问题与挑战
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：★★★★☆
- 后记

前言

这期内容中，我们对近期大模型+多模态，大模型 + 教育，大模型+医疗几个方向的研究工作做简要介绍。

1. Cognitive phantoms in LLMs through the lens of latent variables

Authors: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg
https://arxiv.org/abs/2409.15324
在这里插入图片描述
从潜在变量视角看大型语言模型中的认知幻影

摘要

本研究探讨了大型语言模型（LLMs）的行为，特别是它们在心理测量问卷中表现出的人类特质。研究者通过比较人类与三种LLMs的潜在人格结构，发现为人类设计的问卷可能无法有效测量LLMs中的相似结构，甚至这些结构可能根本不存在于LLMs中。研究结果强调了避免在LLMs中追逐认知幻影的必要性。

研究背景

随着LLMs在现实世界中应用的增加，理解其行为变得尤为重要。它们的规模和复杂性使得传统评估方法变得复杂，因此需要采用心理学领域的新方法。近期的研究表明LLMs在心理测试中表现出类似人类的特质，但这种方法的有效性存在问题。

问题与挑战

问题: 如何有效评估LLMs的心理特质？
挑战: 现有的心理测量工具是否适用于LLMs，以及这些工具测量的潜在特质是否真实存在于LLMs中。

创新点

使用两种经过验证的性格问卷对比人类与LLMs的潜在人格结构。
探讨了问卷设计对于人类是否也适用于LLMs，并评估了这些构建在LLMs中的存在性。

算法模型

模型: 使用了三种GPT模型（GPT-3.5-turbo-0125, GPT-4-0612, GPT-4-0125-preview）。
方法: 通过比较人类样本和LLMs样本的潜在结构来进行验证性因子分析（CFA）和探索性因子分析（EFA）。

实验效果

数据: 人类样本n=365，GPT-3.5-T样本n=399，GPT-4样本n=387。
结论: LLMs的问卷响应显示出随意性，与人类样本的潜在结构大不相同。这表明我们不能有效地使用现有的问卷测量LLMs中的人格特质，或者这些特质根本不存在于LLMs中。

2. Steward: Natural Language Web Automation

Authors: Brian Tang, Kang G. Shin
https://arxiv.org/abs/2409.15441
在这里插入图片描述
Steward: 自然语言网页自动化

摘要

本文介绍了Steward，这是一款新型的大型语言模型（LLM）驱动的网络自动化工具，旨在为网站交互提供一种经济、可扩展的端到端解决方案。Steward通过接收自然语言指令，反应性地规划和执行一系列网站操作，直到任务完成，使其成为开发人员和研究人员实用的工具。Steward在执行动作时表现出高效率，并且通过缓存机制进一步提高了性能。
在这里插入图片描述

研究背景

大型语言模型（LLMs）在AI助手领域展现出了卓越的能力，但它们在不同网站和网页环境中的交互能力尚未充分探索。现有的浏览器自动化框架如Selenium、Puppeteer和Playwright在执行大规模或动态网站交互任务时存在局限性。
在这里插入图片描述

问题与挑战

问题: 如何让LLMs有效地与各种网站和网页元素进行交互？
挑战: 如何设计一个能够理解自然语言指令并自动执行网页任务的系统。

创新点

提出了一种结合LLMs和浏览器自动化的工具，允许自然语言驱动的网站交互。
设计了一种高效的缓存机制，显著提高了任务执行的速度和成本效率。
实现了一个端到端的系统，可以自动检测任务完成状态并终止操作。

算法模型

模型: 使用了OpenAI的GPT-3.5 Turbo、GPT-4 Turbo和GPT-4 Vision模型。
方法: Steward通过接收自然语言指令，利用LLMs生成网页的高级描述，然后通过筛选和清理HTML元素，选择与用户指令最匹配的UI元素进行交互。

实验效果

数据: 使用Mind2Web数据集进行评估，包含2,350个自然语言任务和超过10,000个记录的动作。
结论: Steward在执行任务时表现出了40%的成功率，平均完成56%的步骤，在检测到任务完成状态时正确终止的比率为71%。在成本方面，Steward平均每次任务的成本为0.18美元，中位数为8.52秒/动作。

3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration

Authors: Haoyu Huang, Tong Niu, Rui Yang, Luping Shi
https://arxiv.org/abs/2409.15461
在这里插入图片描述

RAM2C：一种基于检索增强的多角色多专家协作的文科教育聊天机器人

摘要

本研究聚焦于如何利用大型语言模型（LLMs）改进文科教育对话，尤其是在中文阅读教学中。研究者们提出了一个名为RAM2C（Retrieval-augmented Multi-role Multi-expert Collaboration）的框架，以自动生成符合人文教育要求（Humanized communication, Teaching expertise, Safety-ethics，简称HTS）的对话数据集。该框架通过多角色多专家协作，使用改进的检索增强生成技术，显著提升了LLMs在教育对话中的表现。

研究背景

在文科教育对话中，除了专业知识，人性化沟通、教学技巧和安全伦理同样重要。然而，收集符合HTS标准的教学对话数据成本高昂，现有的LLMs在教学对话中的表现还未达到人类标准。

问题与挑战

如何生成符合HTS要求的高质量教育对话数据。
如何提升LLMs在文科教育对话中的个性化、教学专长和伦理安全表现。

创新点

提出RAM2C框架，通过多角色多专家协作自动生成高质量教育对话数据。
设计了基于多源知识库的检索增强专家系统，通过群体反思实现多维度参考价值检索增强。
在文科教育对话中，通过人偏好对齐实现LLMs的HTS偏好对齐。

算法模型

模型: RAM2C框架整合了多个LLMs，包括教师、教育心理学家和伦理安全专家。
方法: 使用检索增强技术，通过不同知识库增强LLMs，形成多专家组，生成符合HTS标准的教育对话数据集，并对LLMs进行微调。

实验效果

数据: 使用RAM2C生成的3,500个对话样本进行微调。
结论: 微调后的模型在HTS三个维度上的表现均优于原始模型，尤其是在人性化沟通和教学专长方面。与主流中文商业模型GLM-4相比，RAM2C赋能的GLM-4展现了最高水平的表现。

4. SEAL: Suite for Evaluating API-use of LLMs

Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty
https://arxiv.org/abs/2409.15523
在这里插入图片描述
SEAL：用于评估大型语言模型API使用的工具套件

摘要

大型语言模型（LLMs）在处理需要实时访问外部APIs的任务时存在局限性。虽然已有一些基准测试（如ToolBench和APIGen）用于评估LLMs的API使用能力，但它们通常存在缺乏泛化能力、有限的多步推理覆盖以及由于实时API波动导致的不稳定等问题。本文介绍了SEAL，这是一个端到端的测试平台，用于评估LLMs在现实世界API使用中的表现。SEAL标准化现有基准，集成了用于测试API检索和规划的代理系统，并通过引入GPT-4驱动的API模拟器和缓存来解决实时API的不稳定性问题。

研究背景

LLMs在许多语言任务中表现出色，但在需要实时访问特定信息（如当前事件、计算或网络搜索）的任务中面临限制。工具如计算器、代码执行和浏览扩展了LLMs的能力，使它们能够执行专业任务并获取最新知识，动态适应用户需求。

问题与挑战

现有的API使用基准测试存在一些关键问题，包括泛化能力不足、多步推理查询覆盖不足以及由于实时API服务的变动性导致的基准质量不稳定。

创新点

提出了SEAL，一个全面的测试平台，用于评估LLMs在工具使用，特别是多样化的现实世界APIs中的表现。
SEAL通过标准化现有基准并整合基于AutoGen框架的代理系统，提供了一个健壮的评估流程。
为了解决实时API的不稳定性，开发了一个由GPT-4驱动的API模拟器，并引入了缓存机制来实现更确定性的评价。

算法模型

SEAL基于AutoGen框架构建了一个灵活的代理系统，允许用户根据需求轻松集成和测试不同的代理。SEAL的架构包括API检索器、API执行器、API执行管理器和API模拟器。
在这里插入图片描述

实验效果

数据: 使用ToolBench和APIGen基准进行评估。
结论: 随着API池的扩大，API检索和调用的准确性有所下降，但最终响应的通过率变化不大。这表明随着API数量的增加，任务变得更加具有挑战性。

5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling

Authors: Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar
https://arxiv.org/abs/2409.15626
在这里插入图片描述
定性洞察工具（QualIT）：大型语言模型增强的主题建模

摘要

主题建模是一种广泛用于从大型文本语料库中挖掘主题结构的技术。然而，大多数主题建模方法（例如潜在狄利克雷分配（LDA））难以捕捉到准确建模复杂叙述所需的细微语义和上下文理解。最近的进步包括像BERTopic这样的方法，它显著提高了主题一致性，从而为基准测试建立了新的标准。在本文中，我们提出了一种新的方法，Qualitative Insights Tool (QualIT)，它将大型语言模型（LLMs）与现有的基于聚类的主题建模方法整合。我们的方法利用LLMs的深度上下文理解和强大的语言生成能力，通过聚类丰富了主题建模过程。我们在大量新闻文章的语料库上评估了我们的方法，并展示了与基线主题建模技术相比，在主题一致性和主题多样性方面的显著改进。

研究背景

主题建模是自然语言处理（NLP）中用于从非结构化文本数据（如社交媒体帖子、新闻文章或客户反馈）中提取潜在主题结构的技术。传统的主题建模技术（例如LDA）存在一些局限性，例如单词袋模型的局限性和必须指定聚类数量，它们还依赖于预定义的规则和模式，难以捕捉自然语言中固有的上下文细微差别和歧义。

问题与挑战

现有的基于聚类的主题建模方法（如BERTopic）存在局限性，例如单词表示过载或每篇文本只能生成一个主题。此外，这些方法可能需要领域特定的知识或微调才能达到可接受的性能。

创新点

提出了QualIT，一种将预训练的LLMs与聚类技术整合的新方法，以系统地解决两种方法的局限性，并从自由文本数据中生成更细致和可解释的主题表示。
结合了LLMs的自然语言理解和聚类方法的组织和总结数据的能力，可以革新主题建模，提供强大而富有洞察力的方法来分析大规模文本响应。

算法模型

QualIT包括多个步骤来生成主题，然后用于确定文档的子主题。三个关键步骤是：

关键短语提取：使用LLM提取代表各个文档的关键短语。
幻觉检查：计算每个短语的一致性得分，以确保提取的关键短语的可靠性。
聚类：使用K-Means聚类算法对关键短语进行分组，每组代表具有相似语义内容的文档集合。

实验效果

数据: 使用了包含20,000篇新闻文章的20 NewsGroups数据集。
结论: QualIT在主题一致性和主题多样性方面均优于LDA和BERTopic。在20个ground-truth主题上，QualIT达到了70%的主题一致性（基准模型分别为65%和57%）和95.5%的主题多样性（基准模型分别为85%和72%）。

6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

Authors: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui,
Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu
Huang, Qifan Wang, Dongfang Liu
https://arxiv.org/abs/2409.15657
在这里插入图片描述

M2PT：用于零样本指令学习的多模态提示调整

摘要

本文介绍了一种新的多模态提示调整方法（M2PT），用于对多模态大型语言模型（MLLMs）进行高效的指令调整。M2PT通过在微调过程中将视觉和文本提示分别集成到视觉编码器和语言处理器中，促进了跨模态特征的提取和对齐。在多种多模态评估数据集上的实验结果表明，M2PT与几种最新技术基线相比具有更优越的性能。一系列详尽的消融研究验证了我们的提示设计和方法的有效性。

创新点

多模态提示调整：首次提出将视觉和文本提示结合用于微调，以提高模型对多模态任务的适应能力。
跨模态交互：通过在不同模态的提示之间设计交互，增强了模型对多模态信息的理解和处理能力。
参数高效：M2PT仅调整模型的极小部分参数，大幅减少了训练成本，同时保持了优越的性能。

算法模型

M2PT模型的核心在于三个方面的创新设计：

视觉提示（Visual Prompt）：在视觉编码器的每一层中嵌入可学习的参数（软提示），以更好地捕捉视觉输入的语义内容。
文本提示（Textual Prompt）：在语言模型（LLM）中引入文本提示，以捕捉文本模式并影响LLM内部的表示。
跨模态交互层：引入一个可调的交互层，以增强视觉编码器提取的特征与文本表示之间的对齐。

实验效果

准确率：在多个数据集上，M2PT在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
结论：M2PT在零样本指令学习任务中展现了强大的性能，同时大幅度减少了参数调整的数量，实现了计算效率和整体效果的平衡。

推荐阅读指数：★★★★☆

推荐理由：M2PT通过创新的多模态提示调整策略，在保持性能的同时显著减少了参数数量，对于资源受限的应用场景具有重要意义。

7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation

Authors: Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran
Zhang, Ming Zhou, Yu Liu, Yu Qiao
https://arxiv.org/abs/2409.15806
在这里插入图片描述
CLSP: 用于代理状态表示的高保真对比语言状态预训练

摘要

随着人工智能的快速发展，多模态学习已成为一个重要的研究领域。对于智能代理来说，状态是传递精确信息的关键方式，与图像、视频和语言等常见模态一样重要。这在强化学习和多模态大型语言模型的广泛应用中变得尤为明显。尽管如此，状态模态的表示仍然发展不足。为此，我们提出了一种高保真对比语言状态预训练（CLSP）方法，它可以准确地将状态信息编码成强化学习和多模态大型语言模型的通用表示。具体来说，我们首先设计了一个基于分类的预训练任务，以训练具有粗粒度信息的编码器。接下来，我们构建了状态和语言描述的数据对，利用预训练的编码器初始化CLSP编码器。然后，我们部署对比学习来训练CLSP编码器，以有效地表示精确的状态信息。此外，我们使用随机傅里叶特征（RFF）方法增强数值信息的表示，以实现高保真映射。广泛的实验表明，我们的表示在文本状态检索、强化学习导航任务和多模态大型语言模型理解方面具有优越的精度和泛化能力。

研究背景

在构建人工智能泛在智能和具身智能的关键技术中，多模态数据理解受到了越来越多的关注。作为理解多模态数据的关键技术，模态表示将数据编码到潜在的向量空间中以表达信息。当前对多模态数据的研究主要集中在语言、图像、视频和音频数据上，但在复杂的具身AI环境中，代理的状态通常包含对决策至关重要的丰富信息，因此准确表示和理解状态是至关重要的。

问题与挑战

如何从复杂的标量值中提取有用的表示是一个挑战。
学习到的表示与原始标量对应的精度往往较低，这限制了在后续任务中的可用性。

创新点

高保真对比学习：提出一种新颖的框架，通过对比学习进一步改善状态编码器的表示能力。
随机傅里叶特征：使用RFF方法来提高标量值的表示精度。
多模态语言模型：设计了一个大型多模态模型，基于学习到的状态编码器和预训练的语言模型来理解状态信息。

算法模型

CLSP模型有三个步骤：

基于分类的预训练：通过分类任务预训练编码器，获得粗粒度的信息。
基于对比的表示学习：使用对比学习进一步训练编码器，以更好地对齐状态和文本描述。
在多模态LLM和RL任务中的应用：将学习到的CLSP编码器应用于多模态LLM任务和RL导航任务。

实验效果

文本状态检索：在不同的数据集上，CLSP在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
强化学习导航任务：在RL导航任务中，使用CLSP编码的目标状态嵌入与基线相比，学习速度更快，最终收敛值更高。
多模态大型语言模型理解：在多模态LLM任务中，通过生成的语言输出，模型能够将输入状态转换为语言表达。

推荐阅读指数：★★★★☆

推荐理由：这篇文章在多模态学习领域提出了一种新颖的状态表示方法，通过对比学习和随机傅里叶特征提高了状态信息的表示精度，对于资源受限的应用场景具有重要意义。此外，文章通过详尽的实验和消融研究验证了方法的有效性，对相关领域的研究者来说，这是一篇值得一读的论文。

8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses

Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy
and Mohammed E. Fouda
https://arxiv.org/abs/2409.15687
在这里插入图片描述

文章分析总结

文章标题翻译

原文标题: A COMPREHENSIVE EVALUATION OF LARGE LANGUAGE MODELS ON MENTAL ILLNESSES
翻译: 大型语言模型在精神疾病评估中的全面评估

摘要

本研究对大型语言模型（LLMs）在精神健康任务中的应用进行了全面评估，特别是在社交媒体数据的背景下。研究探讨了各种LLMs（包括GPT-4、Llama 3、Claude、Gemma、Gemini、Phi-3等）在二元障碍检测、障碍严重程度评估和精神医学知识评估等任务上的零样本（ZS）和少样本（FS）能力。评估涵盖了从20亿到4000多亿参数的33个模型，并使用了9种主要的提示模板。关键发现表明，像GPT-4和Llama 3这样的模型在二元障碍检测中表现出色，某些数据集上的准确率达到85%。此外，提示工程在提高模型性能方面发挥了关键作用。例如，当从我们的第一种二元提示过渡到更结构化的提示时，某些模型的准确性显著提高。值得注意的是，Mixtral 8x22b模型的准确性提高了20%以上，而Gemma 7b的性能也有了类似的提升。在障碍严重程度评估任务中，FS学习显著提高了模型的准确性，突出了复杂评估中上下文示例的重要性。特别是，Phi-3-mini模型的性能有了显著提升，平衡准确率（BA）提高了6.80%以上，平均绝对误差（MAE）从ZS学习到FS学习时降低了近1.3。此外，在精神医学知识评估任务中，较新的模型通常优于旧的、较大的模型，Llama 3.1 405b的准确率达到了91.2%。尽管结果充满希望，但分析也发现了一些挑战，包括跨数据集的性能变化以及需要谨慎的提示工程。此外，使用大型模型的高成本和社交媒体数据质量的限制也带来了挑战。此外，许多LLM提供商实施的伦理保护阻碍了准确评估它们的性能，因为它们倾向于不回应可能敏感的查询。

研究背景

随着人工智能（AI）在精神卫生领域的迅速发展，提出了创新的解决方案来应对全球精神疾病负担的增长。精神疾病在全球疾病负担中占比5.1%，影响着全球2.8亿人，并导致约70.3万人死于自杀。在美国，预计到2040年，精神卫生不平等的累积成本将达到14万亿美元。

问题与挑战

如何准确地从社交媒体帖子中检测和评估精神健康障碍。
需要谨慎的提示工程来提高模型性能。
使用大型模型的高成本。
社交媒体数据的质量限制。

创新点

对多种LLMs在精神健康任务上进行了全面评估。
探索了零样本和少样本学习能力。
强调了提示工程在提高模型性能中的关键作用。
在障碍严重程度评估中，展示了FS学习的重要性。

算法模型

二元障碍检测：使用零样本学习方法检测社交媒体用户是否表现出特定的精神障碍。
障碍严重程度评估：使用零样本和少样本学习方法评估用户的精神障碍严重程度。
精神医学知识评估：测试LLMs对基本精神医学概念的知识，通过多项选择问题进行评估。

实验效果

二元障碍检测：GPT-4和Llama 3等模型在某些数据集上的准确率达到85%。
障碍严重程度评估：FS学习显著提高了模型的准确性，Phi-3-mini模型的平衡准确率提高了6.80%以上，平均绝对误差降低了近1.3。
精神医学知识评估：Llama 3.1 405b的准确率达到了91.2%。

9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support

Authors: Adil Bahaj and Mounir Ghogho
https://arxiv.org/abs/2409.15815
在这里插入图片描述
AsthmaBot：用于哮喘患者支持的多模态、多语言检索增强生成系统

摘要

全球哮喘患病率由于环境和生活方式因素而上升。在发展中国家，获得即时医疗护理的机会尤其有限，这就需要自动化的支持系统。大型语言模型（LLMs）在通用自然语言处理和问答方面取得了进步，但它们可能会产生事实上不正确的回答（即幻觉）。通过整合策划的文档，检索增强生成系统可以提高大型语言模型的性能，并减少幻觉的发生。我们介绍了AsthmaBot，一个用于哮喘支持的多语言、多模态检索增强生成系统。对哮喘相关问题的评估显示了AsthmaBot的有效性。AsthmaBot具有交互式和直观的界面，整合了不同的数据模态（文本、图像、视频），使其能够为更广泛的公众提供服务。

研究背景

过去几十年中，全球哮喘患病率上升，这不仅仅是由于遗传因素，主要是由于环境和生活方式风险因素的影响。哮喘每年导致数千人死亡，主要是由于缺乏即时和适当的医疗护理。然而，许多哮喘相关死亡是可以通过家庭疗法、锻炼、治疗和行动计划来预防的，这些方法可以通过避免触发因素或采用缓解疗法来帮助减轻哮喘患者的症状。

问题与挑战

哮喘患者在获取及时医疗信息方面的挑战。
大型语言模型（LLMs）在提供医疗信息时可能会产生幻觉（即生成听起来合理但事实上不正确的回答）。
现有系统大多只提供文本信息，缺乏多模态能力。
LLMs存在语言偏见，限制了它们在非英语语言中生成信息的质量。

创新点

开发了AsthmaBot，一个多语言、多模态的检索增强生成系统，用于提供哮喘患者支持。
通过整合策划的文档、视频和图像，为哮喘相关问题提供基于最新和策划的列表的答案。
AsthmaBot的界面整合了不同的数据模态，包括文本、图像和视频，以更直观和互动的方式提供信息。

算法模型

AsthmaBot后端是一个多模态、多语言检索增强生成的大型语言模型（LLM），前端是一个聊天机器人形式的界面。AsthmaBot使用检索增强生成（RAG）技术，结合文档集合、检索算法和骨干LLMs。
在这里插入图片描述

实验效果

在多语言（英语、阿拉伯语、法语）和多模态（文本、图像、视频）的环境下，与没有使用RAG的基线相比，AsthmaBot在回答问题方面表现更好。
实验结果表明，将查询翻译成英语，然后使用英语提示模型，比使用查询的本地语言获得的结果更丰富。

推荐阅读指数：★★★★☆

推荐理由：这篇文章介绍了一个创新的多模态、多语言系统AsthmaBot，用于支持哮喘患者。该系统通过整合策划的文档、视频和图像，提高了提供医疗信息的准确性和可靠性。AsthmaBot的设计和实现为解决LLMs在医疗领域应用中的挑战提供了有价值的见解，对于自然语言处理和医疗信息检索领域的研究者和从业者来说，这是一篇值得一读的论文。

10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

Authors: Moucheng Xu and Evangelos Chatzaroulas and Luc McCutcheon and Abdul
Ahad and Hamzah Azeem and Janusz Marecki and Ammar Anwar
https://arxiv.org/abs/2409.15867
在这里插入图片描述
通过上下文集成提高视频-语言模型对人类示范的低层次工作流理解

摘要

标准操作程序（SOP）是基于视频演示的商业软件工作流的逐步书面指南。SOP是实现端到端软件工作流自动化的关键一步。手动创建SOP可能非常耗时。最近在大型视频-语言模型方面的进展为通过分析人类示范的记录来自动化SOP生成提供了可能性。然而，当前的大型视频-语言模型在零样本SOP生成方面面临挑战。我们探索了使用视频-语言模型进行SOP生成的上下文学习。我们报告说，上下文学习有时可以帮助视频-语言模型进行SOP生成。然后我们提出了一种上下文集成学习方法，以进一步提高模型在SOP生成方面的能力。

研究背景

视频-语言模型是一类新兴的大型基础模型，吸引了越来越多的研究兴趣。这些模型通常预训练一个视觉编码器将视觉输入投影成标记，然后由大型语言模型使用这些标记来解释视觉信号以及文本指令。尽管在视频理解的高级任务（如视频摘要）上取得了显著成功，但当前的视频-语言模型在处理更复杂的任务时仍面临挑战。例如，大多数现有模型无法处理长视频或多个短视频。另一个挑战是它们在复杂的低层次视频理解方面的不足。

问题与挑战

如何从视觉输入中自动化地生成准确的SOP。
如何提高视频-语言模型在低层次工作流理解方面的能力。

创新点

提出了一种新的上下文集成学习方法（ICE），通过使用伪标签来增强视频-语言模型在SOP生成方面的表现。
通过多模态上下文集成学习，使模型能够从超出其上下文窗口限制的更多示例中学习，同时具有正则化效果。

算法模型

ICE学习流程首先将多个视频-语言模型应用于不同批次的训练视频及其标准操作程序（SOP）文本标签。然后，同样的微调视频-语言模型为测试视频的SOP创建伪标签。最后，另一个视频-语言模型处理测试视频以及伪标签作为先验，以生成SOP的最终预测。

实验效果

在WONDERBREAD基准测试的"Gold Demo"子集中，使用ICE方法的GPT-4o-mini模型在召回率方面达到了84.79%，而基线模型的召回率为78.13%。
Gemini-1.5-flash模型在应用ICE后，在召回率方面实现了9.22%的提升。
ICE方法显著优于多数投票"Ensemble"方法，突出了在SOP生成中使用多模态训练样本的必要性。

代码链接: https://github.com/moucheng2017/SOP-LVM-ICL-Ensemble