【AI视野·今日NLP 自然语言处理论文速览第四十二期】Wed, 27 Sep 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 27 Sep 2023
Totally 50 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models
Authors Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi
我们研究了基于 Transformer 的大型语言模型 LLM 在生成事实上不正确的文本时的内部行为。我们建议将事实查询建模为约束满足问题，并使用该框架来研究模型如何与事实约束进行内部交互。具体来说，我们发现模型对约束标记的关注与其响应的事实准确性之间存在很强的正相关关系。在我们精心策划的 11 个数据集和超过 40,000 个提示中，我们研究了使用 Llama 2 系列在所有尺度 7B、13B、70B 上预测事实错误的任务。我们提出了 SAT Probe，一种探测自注意力模式的方法，可以预测约束满足和事实错误，并允许早期错误识别。

Natural Language based Context Modeling and Reasoning with LLMs: A Tutorial
Authors Haoyi Xiong, Jiang Bian, Sijia Yang, Xiaofei Zhang, Linghe Kong, Daqing Zhang
自 2018 年将上下文感知引入计算系统二十年后，大型语言模型法学硕士数量急剧增加。通过考虑无处不在的设备、用户和社会的情况，上下文感知计算已经实现了广泛的创新应用，例如辅助生活、基于位置的社交网络服务等。为了识别上下文并做出相应的行动决策，各种人工智能技术，例如本体论和OWL，已被采用作为上下文建模和推理的表示。最近，随着法学硕士的兴起及其自然语言理解和推理能力的提高，使用自然语言对上下文进行建模并通过与 ChatGPT 和 GPT 4 等法学硕士交互来执行上下文推理已经变得可行。在本教程中，我们演示了使用文本、提示和自主代理 AutoAgents 使法学硕士能够执行上下文建模和推理，而无需对模型进行微调。我们整理并介绍了相关领域的工作，并将这种计算范式命名为LLM驱动的上下文感知计算LCaC。在 LCaC 范例中，用户请求、传感器读取数据以及对执行器的命令应该以文本形式表示。给定用户请求的文本和传感器数据，AutoAgent 通过提示对上下文进行建模，并将其发送到法学硕士进行上下文推理。 LLM 生成行动计划并对 AutoAgent 做出响应，AutoAgent 随后会遵循该行动计划来培养情境意识。

Making PPO even better: Value-Guided Monte-Carlo Tree Search decoding
Authors Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh Hajishirzi, Asli Celikyilmaz
当基于最先进的强化学习（例如近端策略优化 PPO）生成自然语言文本时，诸如蒙特卡洛树搜索 MCTS 之类的推理时间搜索算法似乎是不必要的。在本文中，我们证明了通过在上面集成 MCTS 可以从 PPO 中获得额外的里程。关键思想是在从策略网络中解码文本时，不要丢弃价值网络，它是用于评估部分输出序列的 PPO 训练的副产品。更具体地说，我们提出了一种称为 PPO MCTS 的新型价值引导解码算法，该算法可以集成 PPO 的价值网络，在推理时间生成期间与策略网络紧密合作。与先前基于 MCTS 的受控文本生成方法相比，我们方法的关键优势是减少训练和测试之间部分输出的评分机制的根本不匹配。对四个文本生成任务的评估表明，与仅使用 PPO 策略的标准做法相比，PPO MCTS 极大地提高了生成文本的偏好性。

Large Language Model Alignment: A Survey
Authors Tianhao Shen, Renren Jin, Yufei Huang, Chuang Liu, Weilong Dong, Zishan Guo, Xinwei Wu, Yan Liu, Deyi Xiong
近年来，大型语言模型法学硕士取得了显着的进展。这些进步在引起广泛关注的同时，也引起了各种担忧。不可否认，这些模型的潜力是巨大的，然而，它们可能会产生不精确、误导性甚至有害的文本。

Question-Answering Approach to Evaluate Legal Summaries
Authors Huihui Xu, Kevin Ashley
像 ROUGE 这样的传统评估指标会比较参考文献和生成摘要之间的词汇重叠，而不考虑论证结构，这对于法律摘要非常重要。在本文中，我们提出了一种新颖的法律摘要评估框架，该框架利用 GPT 4 生成一组问题答案对，涵盖参考摘要中的要点和信息。然后，使用 GPT 4 根据参考摘要中生成的问题摘要来生成答案。最后，GPT 4 对参考摘要和生成摘要的答案进行评分。我们检查了 GPT 4 评分与人类评分之间的相关性。

Updated Corpora and Benchmarks for Long-Form Speech Recognition
Authors Jennifer Drexler Fox, Desh Raj, Natalie Delworth, Quinn McNamara, Corey Miller, Mig el Jett
绝大多数 ASR 研究使用的语料库中的训练和测试数据都已预先分割成话语。然而，在大多数真实单词 ASR 用例中，测试音频未分段，导致推理时间条件与分段话语训练的模型之间不匹配。在本文中，我们重新发布了三个标准 ASR 语料库 TED LIUM 3、Gigapeech 和 VoxPopuli en，并更新了转录和比对，使其能够用于长篇 ASR 研究。我们使用这些重构的语料库来研究传感器和基于注意力的编码器解码器 AED 的训练测试不匹配问题，确认 AED 更容易受到此问题的影响。

Automating question generation from educational text
Authors Ayan Kumar Bhowmick, Ashish Jagmohan, Aditya Vempaty, Prasenjit Dey, Leigh Hall, Jeremy Hartman, Ravi Kokku, Hema Maheshwari
基于问题的活动 QBA 在教育中广泛使用，传统上是学习和评估过程中不可或缺的一部分。在本文中，我们设计并评估了一种自动问题生成工具，用于学校的形成性和总结性评估。我们对 104 名教师进行了专家调查，证明了自动生成 QBA 的必要性，作为一种可以显着减少教师工作量并促进个性化学习体验的工具。利用生成式 AI 的最新进展，我们提出了一个模块化框架，采用基于 Transformer 的语言模型，从文本内容自动生成多项选择题 MCQ。所提出的解决方案具有用于问题生成、正确答案预测和干扰项制定的不同模块，使我们能够评估不同的语言模型和生成技术。

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts
Authors Thibault Cl rice ALMAnaCH, CJM
在本研究中，我们建议评估使用深度学习方法进行句子级别的语义分类，以加速人文和语言学领域的语料库构建过程，这是一项传统且耗时的任务。我们引入了一个新颖的语料库，包含大约 2500 个句子，时间跨度从公元前 300 年到公元 900 年，包括性语义、医学、色情等。我们评估了各种句子分类方法和不同的输入嵌入层，并表明所有方法始终优于基于简单标记的搜索。我们探索了嵌入世纪、作者、写作类型的白话和社会白话元数据的整合，但发现它会导致过度拟合。我们的结果证明了这种方法的有效性，使用 HAN 实现了高精度 TPR，真阳性率分别为 70.60 和 86.33。我们评估了数据集大小对模型性能的影响 420 而不是 2013 ，结果表明，虽然我们的模型性能较差，但即使没有 MLM，它们仍然提供足够高的精度和 TPR，分别为 69 和 51。

Interactively Learning Social Media Representations Improves News Source Factuality Detection
Authors Nikhil Mehta, Dan Goldwasser
社交媒体的兴起使得假新闻、旨在传播错误信息和动摇信仰的文本得以广泛传播。

Segmentation-Free Streaming Machine Translation
Authors Javier Iranzo S nchez, Jorge Iranzo S nchez, Adri Gim nez, Jorge Civera, Alfons Juan
流式机器翻译 MT 是实时翻译无界输入文本流的任务。传统的级联方法结合了自动语音识别 ASR 和 MT 系统，依赖于中间分割步骤，将转录流分割成类似句子的单元。然而，硬分割的结合限制了机器翻译系统，并且是错误的来源。本文提出了一种无分段框架，该框架使模型能够通过延迟分段决策直到生成翻译来翻译未分段的源流。大量的实验表明，与使用独立分段模型的竞争方法相比，所提出的无分段框架如何具有更好的质量延迟权衡。

Fine-tuning and aligning question answering models for complex information extraction tasks
Authors Matthias Engelbach, Dennis Klau, Felix Scheerer, Jens Drawehn, Maximilien Kintz
大型语言模型法学硕士的出现提高了各种 NLP 任务的性能和可能性。虽然 ChatGPT 等生成式 AI 模型的使用为多个业务用例开辟了新的机会，但它们目前产生虚假内容的倾向强烈限制了它们在文档分析（例如从文档中检索信息）中的适用性。相比之下，诸如问答 QA 或段落检索模型之类的提取语言模型可以保证在相应上下文文档的边界内找到查询结果，这使得它们成为在公司生产环境中更可靠的信息提取的候选者。在这项工作中，我们提出了一种方法，该方法使用提取式 QA 模型并将其集成到文档分析解决方案中，以改进德国商业文档（例如保险报告或医疗传单）的特征提取。我们进一步表明，即使仅使用一小部分带注释的数据，对现有的德国 QA 模型进行微调也可以提高复杂语言特征（例如损害原因解释或药物外观描述）的定制提取任务的性能。

Exploring Small Language Models with Prompt-Learning Paradigm for Efficient Domain-Specific Text Classification
Authors Hengyu Luo, Peng Liu, Stefan Esping
由于手动标记的成本高昂，特定领域的文本分类面临着标记数据稀缺的挑战。快速学习以其在少数镜头场景中的效率而闻名，被提议作为传统微调方法的替代方法。此外，尽管大型语言模型 LLM 已获得关注，但在给定行业限制的情况下，参数低于 1B 的小型语言模型 SLM 可为特定领域的任务提供显着的可定制性、适应性和成本效益。在这项研究中，我们研究了 SLM 与特定领域文本分类的即时学习范式相结合的潜力，特别是在零售业的客户代理交互中。我们的评估表明，在少数镜头设置中，当可以进行基于提示的模型微调时，T5 基础（具有 220M 参数的典型 SLM）在有限的标记数据（高达完整数据的 15）下实现了约 75 的准确度，这显示了 SLM 的巨大潜力及时学习。在此基础上，我们进一步验证了主动少数镜头采样和即时学习管道中的集成策略的有效性，这有助于显着的性能提升。此外，在固定模型的零射击设置中，我们强调了一个关键的观察结果，即尽管配备了大约 154B 参数的 GPT 3.5 Turbo 获得了 55.16 的准确度，但当 FLAN T5 Large（模型）时，精心设计的提示的力量变得显而易见。仅使用 GPT 3.5 Turbo s 参数的 0.5，在优化的提示下即可达到超过 31 的精度，较未优化的 18 级性能有了飞跃。

Boosting In-Context Learning with Factual Knowledge
Authors Jianing Wang, Chengyu Wang, Chuanqi Tan, Jun Huang, Ming Gao
在大型语言模型上的上下文学习 ICL 中，法学硕士旨在通过以一些训练示例为条件来解决以前未见过的任务，消除参数更新的需要并实现有竞争力的性能。在本文中，我们证明事实知识对于 ICL 在三个核心方面的表现至关重要，即法学硕士中学到的固有知识、从所选上下文示例中得出的事实知识以及法学硕士中用于输出生成的知识偏差。为了在少数镜头学习场景中释放 LLM 的力量，我们引入了一种新颖的 Knowledgeable In Context Tuning KICT 框架，以进一步提高 ICL 1 在持续自监督预训练期间向 LLM 注入事实知识的性能，2 明智地选择具有高知识的示例相关性，3根据先验知识校准预测结果。我们评估了自回归 LLM 上提出的方法，例如在多个文本分类和问答任务上的 GPT 风格模型。

KERMIT: Knowledge Graph Completion of Enhanced Relation Modeling with Inverse Transformation
Authors Haotian Li, Lingzhi Wang, Yuliang Wei, Richard Yi Da Xu, Bailing Wang
知识图补全是一项围绕根据知识图中可用信息填充缺失三元组的任务。在当前的研究中，基于文本的方法通过利用三元组的文本描述来完成任务。然而，这种建模方法可能会遇到限制，特别是当描述无法准确、充分地表达预期含义时。为了克服这些挑战，我们建议通过两种额外的机制来增强数据。首先，我们使用 ChatGPT 作为外部知识库来生成连贯的描述，以弥合查询和答案之间的语义差距。其次，我们利用逆关系创建对称图，从而创建额外的标签并为链接预测提供补充信息。这种方法提供了对实体之间关系的额外见解。

ConPET: Continual Parameter-Efficient Tuning for Large Language Models
Authors Chenyang Song, Xu Han, Zheni Zeng, Kuai Li, Chen Chen, Zhiyuan Liu, Maosong Sun, Tao Yang
持续学习需要模型不断适应新出现的任务，同时尽量减少对旧任务的灾难性遗忘。由于高计算成本、内存消耗和遗忘问题，这对于具有普通全参数调整的大型语言模型法学硕士来说极具挑战性。受参数有效调整 PET 成功的启发，我们提出了持续参数有效调整 ConPET，这是一种可推广的范式，用于具有任务数量独立训练复杂性的 LLM 连续任务适应。 ConPET包括两个版本，不同的应用场景。首先，Static ConPET可以通过PET和动态重放策略将原本针对较小模型设计的持续学习方法应用于LLM，这大大降低了调整成本并缓解了过度拟合和遗忘问题。此外，为了保持可扩展性，Dynamic ConPET 针对不同任务采用单独的 PET 模块，并采用 PET 模块选择器进行动态最佳选择。在我们广泛的实验中，静态 ConPET 的适应帮助多种以前的方法将可调参数的规模减少了 3,000 倍以上，并在五个较小的基准上超过仅 PET 基线至少 5 个点，而动态 ConPET 在最大数据集上获得了优势。

Program Repair with Minimal Edits Using CodeT5
Authors Atsushi Shirafuji, Md. Mostafizer Rahman, Md Faizul Ibne Amin, Yutaka Watanobe
程序员常常很难识别和修复程序中的错误。近年来，许多语言模型 LM 被提出来修复错误程序并支持错误恢复。然而，LM 往往会生成与原始输入程序不同的解决方案。这会给用户带来潜在的理解困难。在本文中，我们提出了一种使用 CodeT5 来建议正确程序并进行最少修复编辑的方法。我们对错误和正确程序的代码对进行预训练的 CodeT5 进行微调，并使用多个基线模型评估其性能。实验结果表明，微调后的CodeT5的pass 100达到了91.95，最相似正确程序的平均编辑距离为6.84，这表明通过生成100个候选程序至少可以建议一个正确程序。

Comparative Analysis of Artificial Intelligence for Indian Legal Question Answering (AILQA) Using Different Retrieval and QA Models
Authors Shubham Kumar Nigam, Shubham Kumar Mishra, Ayush Kumar Mishra, Noel Shallum, Arnab Bhattacharya
法律问答 QA 系统有可能彻底改变法律专业人员与判例法文档交互的方式。本文对现有人工智能模型在回答印度法律体系内的法律问题方面的效用进行了比较分析，特别关注印度法律问答 AILQA，我们的研究调查了当前可用的不同检索和 QA 算法的功效。利用 OpenAI GPT 模型作为基准，结合查询提示，我们的调查表明，现有的 AILQA 系统可以自动解释用户的自然语言查询并生成高度准确的响应。这项研究特别关注印度刑事司法领域的应用，该领域由于其复杂性和资源限制而面临着一系列挑战。

Introducing DictaLM -- A Large Generative Language Model for Modern Hebrew
Authors Shaltiel Shmidman, Avi Shmidman, Amir David Nissan Cohen, Moshe Koppel
我们推出了 DictaLM，一种为现代希伯来语量身定制的大规模语言模型。该模型拥有 7B 个参数，主要基于希伯来语中心数据进行训练。作为促进希伯来语研究和开发的承诺，我们在知识共享许可下发布了基础模型和指令调整模型。同时，我们推出了 DictaLM Rab，这是另一个面向拉比历史希伯来语的基础模型。这些基础模型是微调各种希伯来语特定任务（例如教学、问答、情感分析等）的理想起点。

Art or Artifice? Large Language Models and the False Promise of Creativity
Authors Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien Sheng Wu
研究人员认为，大型语言模型法学硕士表现出从博客到故事的高质量写作能力。然而，客观地评价一篇文章的创造力是具有挑战性的。受托伦斯创造性思维测试 TTCT（衡量创造力作为一个过程）的启发，我们使用共识评估技术 3 并提出托伦斯创造性写作测试 TTCW 来评估作为产品的创造力。 TTCW 由 14 个二元测试组成，按照流畅性、灵活性、原创性和精细化的原始维度进行组织。我们招募了 10 名创意作家，并对专业作家或法学硕士使用 TTCW 撰写的 48 个故事进行了人工评估。我们的分析表明，LLM 生成的故事通过 3 次 TTCW 测试的次数比专业人士编写的故事少 10 倍。

When Automated Assessment Meets Automated Content Generation: Examining Text Quality in the Era of GPTs
Authors Marialena Bevilacqua, Kezia Oketch, Ruiyang Qin, Will Stamey, Xinyuan Zhang, Yi Gan, Kai Yang, Ahmed Abbasi
使用机器学习 ML 模型对文本数据进行评估和评分在自然语言处理、信息检索、搜索和推荐以及在线内容可信度评估等一系列环境中已变得越来越普遍。机器学习和文本交叉点的一个重大破坏是文本生成大型语言模型，例如生成式预训练 Transformer GPT。我们根据经验评估了基于机器学习的评分模型在人类内容上训练后评估人类生成的内容质量与 GPT 的差异。为此，我们提出了一个分析框架，其中包括论文评分 ML 模型、人类和 ML 生成的论文，以及一个统计模型，该模型简约地考虑了受访者类型、提示类型和用于评估模型的 ML 模型的影响。使用了丰富的测试平台，其中包含 18,460 篇人工生成的基于 GPT 的论文。我们的基准分析结果表明，与 CNN RNN 和基于特征的 ML 方法相比，Transformer 预训练语言模型 PLM 可以更准确地对人类论文质量进行评分。有趣的是，我们发现，相对于人类创作的文档，Transformer PLM 倾向于将 GPT 生成的文本平均得分高出 10 15。相反，传统的深度学习和基于特征的机器学习模型对人类文本的评分要高得多。进一步的分析表明，虽然 Transformer PLM 专门针对人类文本进行了微调，但它们更显着地关注仅出现在 GPT 生成的文本中的某些标记，这可能是由于预训练中的熟悉度重叠。

Physics of Language Models: Part 3.2, Knowledge Manipulation
Authors Zeyuan Allen Zhu, Yuanzhi Li
语言模型可以存储大量事实知识，但它们使用这些知识进行逻辑推理的能力仍然值得怀疑。本文探讨了语言模型在推理过程中操纵其存储知识的能力。我们专注于四种操作类型检索，例如，人 A 的属性 X 是什么，分类，例如，A 的属性 X 是偶数还是奇数，比较，例如，属性 X 中 A 是否大于 B 以及反向搜索，例如，哪个人的属性 X

Multiple Noises in Diffusion Model for Semi-Supervised Multi-Domain Translation
Authors Tsiry Mayet, Simon Bernard, Clement Chatelain, Romain Herault
域到域的转换涉及在给定源域中的条件的情况下生成目标域样本。大多数现有方法侧重于固定输入和输出域，即它们仅适用于特定配置，即两个域，D 1 右箭头 D 2 或 D 2 右箭头 D 1 。本文提出了多域扩散MDD，这是一种在半监督环境下进行多域翻译的条件扩散框架。与以前的方法不同，MDD 不需要定义输入和输出域，允许在一组内的任何域分区之间进行转换，例如 D 1、D 2 右箭头 D 3 、D 2 右箭头 D 1、D 3 、D 3 右箭头 D 1 、等对于 3 个域，无需为每个域配置训练单独的模型。 MDD 背后的关键思想是通过为每个域合并一个噪声级别来利用扩散模型的噪声公式，这允许以自然的方式用噪声对缺失的域进行建模。这将训练任务从简单的重建任务转变为域翻译任务，其中模型依赖于噪声较小的域来重建噪声较多的域。

LLMCarbon: Modeling the end-to-end Carbon Footprint of Large Language Models
Authors Ahmad Faiz, Sotaro Kaneda, Ruhan Wang, Rita Osi, Parteek Sharma, Fan Chen, Lei Jiang
与大型语言模型法学硕士相关的碳足迹是一个值得关注的问题，包括其训练、推理、实验和存储过程的排放，包括运营和隐含的碳排放。一个重要方面是在培训之前准确估计新兴法学硕士的碳影响，这在很大程度上依赖于 GPU 的使用。现有研究报告了 LLM 训练的碳足迹，但只有一种工具 mlco2 可以在体能训练之前预测新神经网络的碳足迹。然而，mlco2 有几个严重的局限性。它无法将其估计扩展到密集或混合的专家教育部法学硕士，忽略关键架构参数，仅关注 GPU，并且无法对具体碳足迹进行建模。为了解决这些差距，我们引入了textit LLMCarbon，这是一种专为密集型和教育部法学硕士设计的端到端碳足迹投影模型。

Agree To Disagree
Authors Abhinav Raghuvanshi, Siddhesh Pawar, Anirudh Mittal
个人在注册服务、安装软件或访问网站之前彻底查看条款和条件的频率如何？大多数互联网用户不会这样做。这种趋势并不奇怪，因为条款和条件通常由冗长的文件组成，其中充满了复杂的法律术语和令人费解的句子。在本文中，我们介绍了一种机器学习驱动的方法，旨在以用户友好的方式自动解析和总结关键信息。

Survey of Social Bias in Vision-Language Models
Authors Nayeon Lee, Yejin Bang, Holy Lovenia, Samuel Cahyawijaya, Wenliang Dai, Pascale Fung
近年来，机器学习 ML 模型，特别是基于 Transformer 的预训练模型的快速发展，彻底改变了自然语言处理 NLP 和计算机视觉 CV 领域。然而，研究人员发现，这些模型可能会无意中捕获并强化训练数据集中存在的社会偏见，从而导致潜在的社会危害，例如资源分配不均和特定社会群体的代表性不公平。

Machine-assisted mixed methods: augmenting humanities and social sciences with artificial intelligence
Authors Andres Karjus
大型语言模型法学硕士的能力不断增强，为扩大人文和社会科学领域的数据分析提供了前所未有的机会，增强和自动化了以前通常分配给人力的定性分析任务。本贡献提出了一个系统的混合方法框架，以利用定性分析专业知识、机器可扩展性和严格的量化，同时关注透明度和可复制性。展示了 16 个机器辅助案例研究作为概念证明。任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件原因推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影社交网络推断中的流派构成、自动词典编纂、缺失元数据增强、和多模式视觉文化分析。与新兴的法学硕士适用性文献中对英语的关注相反，这里的许多例子涉及涉及较小语言和容易发生数字化扭曲的历史文本的场景。除了最困难的需要专业知识的任务外，生成式法学硕士显然可以作为可行的研究工具。 LLM 和人工注释可能包含错误和变化，但一致率可以而且应该在随后的统计建模中考虑，并讨论引导方法。案例研究中的重复说明了以前需要数月团队努力和复杂计算流程的任务现在可以由法学硕士协助的学者在很短的时间内完成。重要的是，这种方法并不是为了取代，而是为了增强研究人员的知识和技能。

A Text Classification-Based Approach for Evaluating and Enhancing the Machine Interpretability of Building Codes
Authors Zhe Zheng, Yu Cheng Zhou, Ke Yin Chen, Xin Zheng Lu, Zhong Tian She, Jia Rui Lin
将监管文件或建筑规范解释为计算机可处理的格式对于建筑物和基础设施的智能设计和施工至关重要。尽管自动规则解释 ARI 方法已被研究多年，但大多数方法高度依赖于对建筑规范中可解释条款的早期手动过滤。虽然他们中很少有人考虑机器可解释性，这代表着从条款和文档级别转换为计算机可处理格式的潜力。因此，本研究旨在提出一种自动评估和增强单条款和建筑规范的机器可解释性的新方法。首先，考虑到规则解释的要求，引入几个类别对建筑规范中的每个条款进行分类，并开发数据集用于模型训练。然后，基于预训练的特定领域语言模型和迁移学习技术开发了高效的文本分类模型。最后，提出了一种定量评估方法来评估建筑规范的整体可解释性。实验表明，所提出的文本分类算法优于现有的基于 CNN 或 RNN 的方法，将 F1 分数从 72.16 提高到 93.60。它还表明，所提出的分类方法可以增强下游 ARI 方法，提高 4 。此外，对中国150多个建筑规范的结果进行分析表明，其平均可解释性为34.40，这意味着将整个规范文件完全转换为计算机可处理的格式仍然很困难。

Human Transcription Quality Improvement
Authors Jian Gao, Hanbo Sun, Cheng Cao, Zheng Du
高质量的转录数据对于训练自动语音识别 ASR 系统至关重要。然而，现有的行业级数据收集管道对于研究人员来说成本高昂，而众包转录的质量较低。在本文中，我们提出了一种可靠的方法来收集语音转录。我们引入了两种机制来提高基于标记阶段重新处理的转录质量置信度估计，以及标记后阶段的自动字错误纠正。我们收集并发布了 LibriCrowd，这是一个包含 100 小时英语演讲音频转录的大规模众包数据集。实验表明转录WER降低了50以上。我们进一步研究了转录错误对 ASR 模型性能的影响，并发现了很强的相关性。转录质量的改进为 ASR 模型提供了超过 10 倍的相对 WER 减少。

An In-depth Survey of Large Language Model-based Artificial Intelligence Agents
Authors Pengyu Zhao, Zijian Jin, Ning Cheng
由于大型语言模型 LLM 所展现出的强大功能，最近人们纷纷将其与 AI 代理集成以提高其性能。在本文中，我们探讨了基于LLM的AI代理与传统AI代理之间的核心差异和特征。具体来说，我们首先比较这两类智能体的基本特征，阐明基于LLM的智能体在处理自然语言、知识存储和推理能力方面的显着优势。随后，我们对AI智能体的关键组成部分进行了深入分析，包括规划、内存和工具使用。特别是，对于记忆的关键组成部分，本文引入了一种创新的分类方案，不仅脱离了传统的分类方法，而且为人工智能代理的记忆系统的设计提供了全新的视角。我们坚信，对这些核心组件的深入研究和理解将为AI代理技术的未来进步奠定坚实的基础。

Diversifying Question Generation over Knowledge Base via External Natural Questions
Authors Shasha Guo, Jing Zhang, Xirui Ke, Cuiping Li, Hong Chen
以前的知识库问题生成 KBQG 方法主要侧重于提高单个生成问题的质量。认识到人类卓越的释义能力，我们认为不同的文本应该通过不同的表达方式传达相同的语义。上述见解使得多样化问题生成成为一项有趣的任务，其中第一个挑战是多样性的评估指标。当前的指标不足以评估上述多样性，因为它们计算生成问题本身中唯一 n 克的比率，这更倾向于测量重复而不是真正的多样性。因此，我们设计了一种新的多样性评估指标，它测量每个实例的前 k 个生成问题的多样性，同时确保它们与真实情况的相关性。显然，第二个挑战是如何增强问题生成的多样化。为了应对这一挑战，我们引入了由两种选择策略交织而成的双模型框架，以利用外部自然问题生成不同的问题。我们的双重框架的主要思想是提取更多样的表达并将其集成到生成模型中以增强多样化的问题生成。

PopBERT. Detecting populism and its host ideologies in the German Bundestag
Authors L. Erhard, S. Hanke, U. Remer, A. Falenska, R. Heiberger
民粹主义的兴起引起了许多政治学家和实践者的关注，但对其潜在语言的探测仍然零散。本文旨在提供一种可靠、有效且可扩展的方法来衡量民粹主义立场。为此，我们根据 2013 年至 2021 年德国联邦议院的议会演讲创建了一个带注释的数据集。遵循民粹主义的概念定义，我们将对有道德的人或腐败精英的道德提及标记为民粹主义语言的核心维度。此外，为了确定民粹主义的薄弱意识形态是如何变得浓厚的，我们注释了民粹主义言论如何与左翼或右翼主体意识形态相关联。然后，我们训练基于 Transformer 的模型 PopBERT 作为多标签分类器来检测和量化每个维度。一系列验证检查表明，该模型具有很强的预测准确性，提供高质量的表面有效性，匹配专家调查的各方排名，并正确检测样本文本片段。 PopBERT 能够动态分析德语政治家和政党如何使用民粹主义语言作为战略手段。

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM
Authors Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen
最近，大型语言模型法学硕士取得了重大进展，现已广泛应用于各个领域。不幸的是，人们越来越担心法学硕士可能被滥用来生成有害或恶意内容。尽管一系列研究的重点是使法学硕士与人类价值观保持一致并防止他们产生不适当的内容，但这种对齐通常很容易受到攻击，并且可以通过对抗性优化或手工制作的越狱提示通过对齐破坏攻击来绕过。在这项工作中，我们引入了稳健对齐的 LLM RA LLM 来防御潜在的对齐破坏攻击。 RA LLM 可以直接构建在现有的对齐 LLM 上，具有强大的对齐检查功能，而不需要对原始 LLM 进行任何昂贵的再培训或微调过程。此外，我们还对 RA LLM 进行了理论分析，以验证其防御对齐破坏攻击的有效性。

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
Authors Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
尽管最近的文本到视频 T2V 生成方法已经取得了显着的进步，但这些作品大多数都专注于生成具有单一背景的单个事件的短视频剪辑，即单场景视频。与此同时，最近的大型语言模型法学硕士已经展示了它们生成布局和程序来控制下游视觉模块（例如图像生成模型）的能力。这就提出了一个重要的问题，我们是否可以利用这些 LLM 中嵌入的知识来生成时间一致的长视频。在本文中，我们提出了 VideoDirectorGPT，这是一种用于一致的多场景视频生成的新颖框架，它使用 LLM 的知识进行视频内容规划和接地视频一代。具体来说，给定一个文本提示，我们首先要求视频规划器 LLM GPT 4 将其扩展为视频规划，其中涉及生成场景描述、具有各自布局的实体、每个场景的背景以及场景的一致性分组。实体和背景。接下来，在视频规划器的输出的指导下，我们的视频生成器 Layout2Vid 可以对空间布局进行显式控制，并且可以保持跨场景的实体背景的时间一致性，同时仅使用图像级注释进行训练。我们的实验表明，VideoDirectorGPT 框架极大地改进了单场景和多场景视频生成中的布局和运动控制，并且可以生成跨场景视觉一致性的多场景视频，同时在开放域单场景 T2V 生成中实现与 SOTA 的竞争性能。我们还证明我们的框架可以动态控制布局指导的强度，并且还可以使用用户提供的图像生成视频。

RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
Authors Ronak Pradeep, Sahel Sharifymoghaddam, Jimmy Lin
研究人员已经成功地将 ChatGPT 等大型语言模型 LLM 应用于信息检索上下文中的重新排名，但迄今为止，此类工作大多建立在隐藏在不透明 API 端点后面的专有模型上。这种方法产生的实验结果不可重复且具有不确定性，威胁到建立在如此不稳定的基础上的结果的准确性。为了解决这一重大缺陷，我们推出了 RankVicuna，这是第一个完全开源的 LLM，能够在零样本设置中执行高质量的列表重新排名。 TREC 2019 和 2020 深度学习轨道上的实验结果表明，我们可以使用更小的 7B 参数模型实现与 GPT 3.5 的零样本重排序相当的效果，尽管我们的效果仍略落后于 GPT 4 的重排序。我们希望我们的工作提供为现代法学硕士重新排名的未来研究奠定了基础。

Robustness of the Random Language Model
Authors Fatemeh Lalegani, Eric De Giuli
De Giuli 2019 随机语言模型是随机上下文无关语法的集合，可量化人类和计算机语言的语法。该模型提出了一幅第一语言学习的简单图景，即在广阔的潜在语言空间中进行的一种退火。在其最简单的表述中，它意味着向语法语法的单一连续过渡，其中潜在单词和类别之间的对称性自发地被打破。在这里，我们通过考虑其对抗显式对称性破缺的鲁棒性来仔细审查这张图片，这是现实世界中学习不可避免的组成部分。结果表明，该场景对于这种对称性破缺具有鲁棒性。

BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile Screenshot Captioning
Authors Ching Yu Chiang, I Hua Chang, Shih Wei Liao
本研究旨在探索屏幕截图字幕任务的有效调整方法。最近，图像字幕取得了重大进展，但针对移动屏幕字幕任务的研究仍然相对匮乏。当前描述产品屏幕截图中用户行为的数据集和用例明显有限。因此，我们试图对屏幕截图字幕任务的现有模型进行微调。然而，由于图像字幕模型中存在大量参数，对大型预训练模型进行微调可能会占用大量资源，需要大量时间、计算能力和存储空间。为了应对这一挑战，本研究提出了适配器方法的组合，这需要仅调整模型上的附加模块。这些方法最初是为视觉或语言任务而设计的，我们的目的是应用它们来解决屏幕截图字幕中的类似挑战。通过冻结图像描述模型的参数并仅训练与方法相关的权重，可以实现与微调整个模型相当的性能，同时显着减少参数的数量。这项研究首次对屏幕截图字幕任务背景下组合适配器的有效性进行了全面调查。通过我们的实验和分析，本研究旨在为适配器在视觉语言模型中的应用提供有价值的见解，并有助于开发屏幕截图字幕任务的有效调整技术。

PLMM: Personal Large Models on Mobile Devices
Authors Yuanhao Gong
受联邦学习的启发，在本文中，我们提出了个人大模型，该模型是从传统大语言模型中提炼出来的，但更适合本地用户的个人信息，例如教育背景和爱好。我们将大语言模型分为三个级别：个人级别、专家级别和传统级别。个人级别模型适应用户的个人信息。他们对用户输入进行加密并保护他们的隐私。专家级模型侧重于融合金融、IT 和艺术等特定知识。传统模型侧重于通用知识发现和专家模型升级。在这种分类中，个人模型直接与用户交互。对于整个系统来说，个人模型具有用户加密的个人信息。此外，此类模型必须足够小，以便在个人计算机或移动设备上执行。最后，他们还必须实时响应，以获得更好的用户体验并产生高质量的结果。

A Simple Text to Video Model via Transformer
Authors Gang Chen
我们提出了一个基于 Transformer 的通用且简单的文本到视频模型。由于文本和视频都是顺序数据，因此我们将文本和图像编码到相同的隐藏空间中，这些隐藏空间进一步输入到 Transformer 中以捕获时间一致性，然后解码以生成文本或图像。考虑到图像信号在长序列中可能会变弱，我们引入 U Net 从其噪声版本重建图像。具体来说，我们在长序列中增加原始图像的噪声水平，然后使用U Net的down模块对噪声图像进行编码，这些噪声图像进一步输入到transformer以预测下一个清晰图像。我们还添加了一个约束来促进视频中任何生成的图像对之间的运动。

Efficient Post-training Quantization with FP8 Formats
Authors Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
LLM 和扩散模型等深度学习方法的最新进展产生了对改进量化方法的需求，这些方法可以满足这些现代架构的计算需求，同时保持准确性。为了实现这一目标，我们研究了 FP8 数据格式在 75 个独特网络架构中进行训练后量化的优势，涵盖了广泛的任务，包括机器翻译、语言建模、文本生成、图像分类、生成和分割。我们研究了三种不同的 FP8 表示 E5M2、E4M3 和 E3M4，以研究动态范围和精度之间不同程度的权衡对模型精度的影响。基于我们的广泛研究，我们开发了一种可推广到不同网络架构的量化工作流程。我们的实证结果表明，FP8 格式在多个方面都优于 INT8，包括工作负载覆盖范围（92.64 vs. 65.87）、模型准确性以及对更广泛操作的适用性。此外，我们的研究结果表明，E4M3 更适合 NLP 模型，而 E3M4 在计算机视觉任务上的表现略好于 E4M3。

Aligning Large Multimodal Models with Factually Augmented RLHF
Authors Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang Yan Gui, Yu Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
大型多模态模型 LMM 是跨模态构建的，两种模态之间的不一致可能会导致幻觉，生成不以上下文中的多模态信息为基础的文本输出。为了解决多模态错位问题，我们将人类反馈 RLHF 的强化学习从文本域应用到视觉语言对齐任务，其中要求人类注释者比较两个响应并找出更幻觉的一个，视觉语言模型是训练以最大化模拟人类奖励。我们提出了一种名为 Factually Augmented RLHF 的新对齐算法，该算法通过附加事实信息（例如图像标题和真实多选选项）来增强奖励模型，从而减轻 RLHF 中的奖励黑客现象并进一步提高性能。我们还使用以前可用的人类书写图像文本对增强了 GPT 4 生成的用于视觉指令调整的训练数据，以提高我们模型的一般功能。为了在现实场景中评估所提出的方法，我们开发了一个新的评估基准 MMHAL BENCH，特别关注惩罚幻觉。作为第一个使用 RLHF 训练的 LMM，我们的方法在 LLaVA Bench 数据集上取得了显着的改进，文本仅达到 GPT 4 的 94 性能水平，而以前的最佳方法只能达到 87 水平，并且在 MMHAL BENCH 上比其他方法提高了 60基线。

ChatGPT Performance on Standardized Testing Exam -- A Proposed Strategy for Learners
Authors Umer Farooq, Saira Anwar
本研究探讨了 ChatGPT 的问题解决能力及其在标准化考试准备中的前景应用，重点关注 GRE 定量考试。先前的研究表明，将 ChatGPT 用于学术目的在彻底改变跨学科学习方法方面具有巨大潜力。我们研究了 ChatGPT 在 GRE 定量领域中各种问题类型的表现，以及修改问题提示如何影响其准确性。更具体地说，本研究解决了两个研究问题 1. ChatGPT 在回答不同内容领域的基于 GRE 的定量问题时表现如何 2. ChatGPT 的准确性如何随着问题提示的修改而变化收集了由 100 个随机选择的 GRE 定量问题组成的数据集摘自 ETS 官方 GRE 考试准备指南。我们使用定量评估来回答我们的第一个研究问题，并使用 t 检验来检查提示修改和 ChatGPT 准确性之间的统计关联。结果显示，在对原始问题应用指令启动和上下文提示后，ChatGPT 的准确性有了统计上的提高。 ChatGPT 使用修改后的提示显示出 84 的准确度，而使用原始数据时的准确度为 69。

Watch Your Language: Large Language Models and Content Moderation
Authors Deepak Kumar, Yousef AbuHashem, Zakir Durumeric
大型语言模型法学硕士因其执行各种自然语言任务的能力而迅速流行。基于文本的内容审核是最近受到热捧的法学硕士用例之一，但是，很少有研究调查法学硕士在内容审核设置中的表现。在这项工作中，我们在基于规则的社区审核和有毒内容检测这两个常见内容审核任务上评估了一套现代商业法学硕士 GPT 3、GPT 3.5、GPT 4。对于基于规则的社区审核，我们根据 95 个 Reddit 子社区的规则构建了 95 个 LLM 审核引擎，发现 LLM 可以有效地对许多社区进行基于规则的审核，实现中位准确度 64 和中位精度 83 。对于毒性检测，我们发现 LLM 明显优于现有的商用毒性分类器。然而，我们还发现，最近模型大小的增加仅对毒性检测带来了边际效益，这表明法学硕士在毒性检测任务上的潜在性能平台。

DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models
Authors Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He
典型的基于 Transformer 的大型语言模型 LLM 中的计算可以通过批量大小、隐藏维度、层数和序列长度来表征。到目前为止，加速LLM训练的系统工作主要集中在前三个维度的批量大小的数据并行性、隐藏大小的张量并行性以及模型深度或层的管道并行性。这些被广泛研究的并行形式并不是针对长序列 Transformer 模型的，也不是针对长序列 Transformer 模型进行优化的。鉴于长序列法学硕士的实际应用需求，序列并行性重新受到关注。然而，现有的序列并行工作受到内存通信效率低下的限制，限制了它们对长序列大型模型的可扩展性。在这项工作中，我们引入了 DeepSpeed Ulysses，这是一种新颖、可移植且有效的方法，可实现具有极长序列长度的高效且可扩展的 LLM 训练。 DeepSpeed Ulysses 的核心是沿着序列维度对输入数据进行分区，并采用高效的所有人集体通信来进行注意力计算。理论通信分析表明，虽然其他方法会随着序列长度的增加而产生通信开销，但 DeepSpeed Ulysses 在序列长度和计算设备按比例增加时保持恒定的通信量。

Classifying token frequencies using angular Minkowski $p$-distance
Authors Oliver Urs Lenz, Chris Cornelis
角度闵可夫斯基 p 距离是通过用其他闵可夫斯基 p 距离替换余弦相异性定义中的欧几里得距离而获得的相异性测度。余弦相异度经常用于包含标记频率的数据集，对于某些任务来说，角度 Minkowski p 距离可能是更好的选择。在基于 20 个新闻组数据集的案例研究中，我们评估了经典加权最近邻以及模糊粗糙最近邻的分类性能。此外，我们分析了超参数 p 、数据集的维数 m 、邻居数量 k 、权重的选择和分类器的选择之间的关系。

Explainable and Accurate Natural Language Understanding for Voice Assistants and Beyond
Authors Kalpa Gunaratna, Vijay Srinivasan, Hongxia Jin
联合意图检测和槽填充（也称为联合 NLU 自然语言理解）对于智能语音助手来说非常宝贵。该领域的最新进展主要集中在使用各种技术来提高准确性。可解释性无疑是基于深度学习的模型（包括联合 NLU 模型）的一个重要方面。如果没有可解释性，他们的决策对外界来说是不透明的，因此往往缺乏用户信任。因此，为了弥补这一差距，我们将完整的联合 NLU 模型改造为在粒度级别上本质上可解释，而不影响准确性。此外，当我们使完整的联合 NLU 模型可解释时，我们表明我们的扩展可以成功地用于其他一般分类任务。

Online Active Learning For Sound Event Detection
Authors Mark Lindsey, Ankit Shah, Francis Kubala, Richard M. Stern
数据收集和注释是监督机器学习任务的一个费力、耗时的先决条件。在线主动学习 OAL 是一种解决此问题的范例，它可以同时最大限度地减少训练分类器所需的注释量并适应数据收集过程中数据的变化。先前的工作表明，类别分布波动和数据漂移仍然是 OAL 的常见问题。这项工作提出了新的损失函数，可以在 OAL 应用于声音事件检测 SED 时解决这些挑战。 SONYC 数据集和两个语音类型识别 VTD 语料库的实验结果表明，OAL 可以将 SONYC 训练 SED 分类器所需的时间和精力减少 5 倍，并且此处提出的新方法成功解决了现有 OAL 方法中存在的问题

Seeing and hearing what has not been said; A multimodal client behavior classifier in Motivational Interviewing with interpretable fusion
Authors Lucie Galland, Catherine Pelachaud, Florian Pecune
动机访谈 MI 是一种强调协作和鼓励行为改变的治疗方法。为了评估 MI 对话的质量，可以使用 MISC 代码将客户话语分类为更改谈话、维持谈话或遵循中性谈话。 MI 对话中变革谈话的比例与治疗结果呈正相关，因此对来访者话语的准确分类至关重要。在本文中，我们提出了一个分类器，利用文本、韵律、面部表情和身体表情等多模态特征，准确地区分三个 MISC 类别的改变谈话、维持谈话和遵循中性谈话。为了训练我们的模型，我们对公开的 AnnoMI 数据集进行注释，以收集多模态信息，包括文本、音频、面部表情和身体表情。

An AI Chatbot for Explaining Deep Reinforcement Learning Decisions of Service-oriented Systems
Authors Andreas Metzger, Jone Bartel, Jan Laufer
深度强化学习深度强化学习越来越多地用于应对面向服务系统中的开放世界假设。深度强化学习已成功应用于动态服务组合、作业调度和卸载以及服务适配等问题。虽然深度强化学习提供了许多好处，但理解深度强化学习的决策具有挑战性，因为其学习的决策策略本质上表现为一个黑匣子。然而，了解深度强化学习的决策过程对于帮助服务开发人员进行调试、支持服务提供商遵守相关法律框架以及促进服务用户建立信任至关重要。我们引入 Chat4XAI，通过提供自然语言解释来促进对深度强化学习决策的理解。与视觉解释相比，自然语言解释的好处包括非技术用户更好的理解性、更高的用户接受度和信任度以及更有效的解释。 Chat4XAI 利用现代人工智能聊天机器人技术和专用提示工程。与早期使用基于经典软件的对话系统进行自然语言解释的工作相比，使用人工智能聊天机器人消除了预先引出和定义潜在问题和答案的需要。

COCO-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs
Authors Tiep Le, Vasudev Lal, Phillip Howard
事实证明，反事实示例在自然语言处理 NLP 领域非常有价值，可以评估和提高语言模型对数据集中虚假相关性的鲁棒性。尽管多模态反事实示例在 NLP 中已被证明具有实用性，但由于难以创建具有最小反事实变化的配对图像文本数据，因此相对而言尚未得到探索。为了应对这一挑战，我们引入了一个可扩展的框架，用于使用文本到图像扩散模型自动生成反事实示例。我们使用我们的框架创建 COCO Counterfactuals，这是一个基于 MS COCO 数据集的配对图像和文本标题的多模态反事实数据集。我们通过人类评估验证了 COCO 反事实的质量，并表明现有的多模态模型受到我们的反事实图像文本对的挑战。

InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning
Authors Yi Yang, Yixuan Tang, Kar Yan Tam
我们提出了一种新的金融领域大型语言模型 InvestLM，该模型在 LLaMA 65B Touvron 等人，2023 上进行了调整，使用精心策划的与金融投资相关的指令数据集。受到“少即是多”的启发，Zhou et al., 2023，我们手动整理了一个小型但多样化的指令数据集，涵盖广泛的金融相关主题，从特许金融分析师 CFA 考试问题到 SEC 备案，再到 Stackexchange 定量金融讨论。 InvestLM 在理解金融文本方面表现出强大的能力，并对投资相关问题提供有用的回答。包括对冲基金经理和研究分析师在内的金融专家将 InvestLM 的响应评价为可与最先进的商业模型 GPT 3.5、GPT 4 和 Claude 2 相媲美。对一组金融 NLP 基准的零样本评估表现出很强的通用性。从研究的角度来看，这项工作表明，可以在训练有素的基础模型上使用一小组精心策划的指令来调整高质量的特定领域的法学硕士，这与表面对齐假设 Zhou 等人，2023 一致。从实践的角度来看，这项工作开发了最先进的金融领域法学硕士，具有理解金融文本和提供有用的投资建议的卓越能力，有可能提高金融专业人士的工作效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com