【AI视野·今日NLP 自然语言处理论文速览第六十五期】Mon, 30 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 30 Oct 2023
Totally 67 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

An Approach to Automatically generating Riddles aiding Concept Attainment
Authors Niharika Sri Parasa, Chaitali Diwan, Srinath Srinivasa
在线学习环境中的主要挑战之一是保持学习者的参与度。在在线和离线环境中提出了几种不同的教学策略，以提高学习者的参与度。概念达成模型就是这样一种教学策略，它侧重于学习者对概念的更深入理解，而不仅仅是其字典定义。这是通过搜索和列出用于区分各种概念的示例和非示例的属性来完成的。我们的工作尝试应用概念获得模型来构建概念谜题，并部署在在线学习环境中。该方法涉及从学习资源创建事实三元组，根据其对概念的独特性将它们分类为主题标记和通用，然后根据概念获得模型的格式生成谜语并捕获这些谜语的所有可能解决方案。

MalFake: A Multimodal Fake News Identification for Malayalam using Recurrent Neural Networks and VGG-16
Authors Adhish S. Sujan, Ajitha. V, Aleena Benny, Amiya M. P., V. S. Anoop
近年来，在线消费的新闻量大幅增加。由于某些在线网站的快速发布和缺乏编辑标准，假新闻变得越来越普遍，特别是在马拉雅拉姆语等地方语言中。假新闻可能会对社会产生可怕的影响，导致人们做出错误的判断，对当局失去信心，甚至采取暴力行为。当我们考虑到印度的背景时，有很多地方语言，假新闻正在以每种语言传播。因此，提供有效的技术来识别地区语言中的虚假信息至关重要。到目前为止，马拉雅拉姆语几乎没有开展任何工作，从多种模式中提取特征来对假新闻进行分类。多模态方法在检测假新闻方面更加准确，因为可以提取多种模态的特征来构建深度学习分类模型。据我们所知，这是马拉雅拉姆语中第一个使用多模态深度学习来处理虚假信息的工作。使用一种以上模态训练的模型通常优于仅使用一种模态训练的模型。

Revising with a Backward Glance: Regressions and Skips during Reading as Cognitive Signals for Revision Policies in Incremental Processing
Authors Brielen Madureira, Pelin elikkol, David Schlangen
在 NLP 中，增量处理器根据语言输入的传入前缀分期生成输出。一些标记会触发修正，从而导致对输出假设的编辑，但人们对模型修正时为何会修正知之甚少。检测应进行修订的时间步骤的策略可以提高效率。尽管如此，检索合适的信号来训练修订策略仍然是一个悬而未决的问题，因为它在数据集中自然不可用。在这项工作中，我们研究了人类阅读眼睛跟踪数据中的回归和跳跃作为信号来告知增量序列标记中的修订策略的适当性。

ArcheType: A Novel Framework for Open-Source Column Type Annotation using Large Language Models
Authors Benjamin Feuer, Yurong Liu, Chinmay Hegde, Juliana Freire
现有的语义列类型注释 CTA 深度学习方法具有重要的缺点，它们依赖于在训练时固定的语义类型，每种类型需要大量训练样本，并会产生大量运行时推理成本，并且在新数据集上评估时，其性能可能会下降，即使类型保持不变。大型语言模型在广泛的任务中表现出了强大的零样本分类性能，在本文中，我们探讨了它们在 CTA 中的用途。我们推出了 ArcheType，这是一种简单实用的上下文采样、提示序列化、模型查询和标签重新映射的方法，它使大型语言模型能够以完全零射击的方式解决列类型注释问题。我们分别消除了方法的每个组成部分，并确定对上下文采样和标签重新映射的改进提供了最一致的收益。

INA: An Integrative Approach for Enhancing Negotiation Strategies with Reward-Based Dialogue System
Authors Zishan Ahmad, Suman Saurabh, Vaishakh Sreekanth Menon, Asif Ekbal, Roshni Ramnani, Anutosh Maitra
在本文中，我们提出了一种专为在线市场设计的新型谈判对话代理。我们的代理本质上是综合性的，即它具有就价格以及其他因素进行谈判的能力，例如从交易捆绑中添加或删除项目，从而提供更灵活和更全面的谈判体验。我们创建一个名为 Integrative Negotiation Dataset IND 的新数据集来启用此功能。对于此数据集创建，我们引入了一种新的半自动化数据创建方法，该方法结合了定义协商意图、操作以及用户和代理之间的意图操作模拟来生成潜在的对话流。最后，GPT J（一种最先进的语言模型）的提示用于为给定意图生成对话，并由人工在循环过程中进行后期编辑和修正小错误，以确保高数据质量。我们采用了一组专门针对谈判任务定制的新颖奖励来训练我们的谈判代理，称为综合谈判代理 INA。这些奖励激励聊天机器人学习有效的谈判策略，以适应各种上下文要求和价格建议。通过利用 IND，我们训练模型并进行实验，以评估基于奖励的谈判对话系统的有效性。我们的结果表明，所提出的方法和奖励制度显着提高了代理人的谈判能力。

Lost in Translation, Found in Spans: Identifying Claims in Multilingual Social Media
Authors Shubham Mittal, Megha Sundriyal, Preslav Nakov
声明跨度识别 CSI 是事实检查管道的重要步骤，旨在识别社交媒体帖子中包含值得检查的声明或断言的文本片段。尽管它对记者和人类事实核查人员很重要，但它仍然是一个严重未被充分研究的问题，迄今为止，关于这个主题的稀缺研究仅集中在英语上。在这里，我们的目标是通过创建一个新颖的数据集 X CLAIM 来弥补这一差距，该数据集包含从众多社交媒体平台收集的 7000 条现实世界声明，采用五种印度语言和英语。我们使用最先进的仅编码器语言模型（例如 XLM R）报告了强大的基线，并且我们展示了多种语言训练相对于替代跨语言传输方法（例如零镜头传输）或来自高资源语言的翻译数据训练的优势比如英语。

Personas as a Way to Model Truthfulness in Language Models
Authors Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
大型语言模型是根据互联网上的大量文本进行训练的，其中包含有关世界的事实和误导性信息。语言模型能否在这些相互矛盾的数据中辨别真假呢？扩展了法学硕士可以对生成语料库的不同代理进行建模的观点，我们假设它们可以通过对一组可能生成真实文本的代理进行建模来聚类真实的文本。具有相似的特征。例如，维基百科和科学等值得信赖的来源通常使用正式的写作风格并做出一致的主张。通过对这个角色进行建模，法学硕士可以将真实性推广到每个代理生成训练文本的特定上下文之外。例如，该模型可以推断代理维基百科将在仅由科学生成的主题上如实表现，因为它们共享一个角色。我们首先通过两个观察来证明角色假设的证据 1 我们可以在模型的答案生成之前探究其答案是否真实 2 根据一组事实对模型进行微调，以提高其在未见过的主题上的真实性。接下来，使用算术作为合成环境，我们证明语言模型可以区分真假陈述，并在代理之间推广真实性，但前提是训练数据中的代理共享真实的生成过程，从而能够创建真实的角色。

MPrompt: Exploring Multi-level Prompt Tuning for Machine Reading Comprehension
Authors Guoxin Chen, Yiming Qian, Bowen Wang, Liangzhi Li
大型语言模型在各种自然语言任务上取得了优异的性能。这种方法的一个主要缺点是它们在微调新数据集时需要消耗大量资源。软提示调整提供了一种资源高效的解决方案，可以对预先训练的语言模型 PLM 进行微调，同时保持其权重冻结。现有的软提示方法主要集中于设计独立于输入的提示，引导模型适应新数据集的域。这些方法通常忽略有关任务和文本上下文的细粒度信息。在本文中，我们提出了一种用于机器阅读理解的多级提示调整 MPrompt 方法。它利用特定于任务、特定于领域和特定于上下文的级别的提示来增强对不同粒度的输入语义的理解。我们还提出了一个独立性约束，以引导每个特定领域的提示关注其领域内的信息，以避免冗余。此外，我们提出了一个提示生成器，它将上下文相关知识合并到提示生成中以增强上下文相关性。

Elevating Code-mixed Text Handling through Auditory Information of Words
Authors Mamta, Zishan Ahmad, Asif Ekbal
随着代码混合数据的日益普及，人们越来越需要更好地处理此类数据，这带来了许多挑战，例如处理拼写变化、多种语言、不同的脚本和资源缺乏。当前的语言模型在有效处理代码混合数据方面面临困难，因为它们主要关注单词的语义表示而忽略了听觉语音特征。这导致处理代码混合文本中的拼写变化变得困难。在本文中，我们提出了一种有效的方法来创建语言模型，以使用 SOUNDEX 中单词的听觉信息来处理代码混合文本数据。我们的方法包括基于掩码语言建模的预训练步骤，其中包括 SOUNDEX 表示 SAMLM 和向预训练模型提供输入数据的新方法。通过对不同语言的各种代码混合数据集进行情感、攻击性和攻击性分类任务的实验，我们发现我们的新颖语言建模方法 SAMLM 可以提高代码混合分类任务对抗性攻击的鲁棒性。此外，我们基于 SAMLM 的方法还可以为代码混合任务带来比流行基线更好的分类结果。

Disentangled Representation Learning with Large Language Models for Text-Attributed Graphs
Authors Yijian Qin, Xin Wang, Ziwei Zhang, Wenwu Zhu
文本归因图标签在网络上很普遍，对引文网络、电子商务网络和社交网络等标签的研究引起了网络社区的广泛关注。最近，大型语言模型法学硕士在广泛的任务中展示了卓越的能力。然而，现有的工作侧重于利用LLM的潜力，仅依靠提示向LLM传达图结构信息，从而对TAG内复杂的结构关系理解不足。为了解决这个问题，在本文中，我们提出了解缠结图文本学习器 DGTL 模型，该模型能够增强 LLM 对 TAG 的推理和预测能力。我们提出的 DGTL 模型通过定制的解缠结图神经网络 GNN 层合并图结构信息，使法学硕士能够从多个结构因素捕获文本属性图中隐藏的复杂关系。此外，DGTL 与冻结的预先训练的 LLM 一起运行，降低了计算成本，并在与不同的 LLM 模型结合时提供了更大的灵活性。实验评估证明了所提出的 DGTL 模型在实现优于现有技术基线的性能或可比性能方面的有效性。

DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial Issues
Authors David Q. Sun, Artem Abzaliev, Hadas Kotek, Zidi Xiu, Christopher Klein, Jason D. Williams
争议是我们时代精神的反映，也是任何话语的一个重要方面。大型语言模型法学硕士作为对话系统的兴起增加了公众对这些系统回答各种问题的依赖。因此，系统地研究这些模型如何回答与正在进行的辩论有关的问题至关重要。然而，很少有这样的数据集能够提供反映当代讨论的人工注释标签。为了促进这一领域的研究，我们提出了一种有争议的问题数据集的新颖构造，扩展了公开发布的 Quora 问题对数据集。该数据集提出了有关知识新近度、安全性、公平性和偏见的挑战。我们使用该数据集的子集评估不同的法学硕士，阐明他们如何处理有争议的问题以及他们采取的立场。

OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization
Authors Yuchen Shen, Xiaojun Wan
意见摘要由于其对方面和情感的独特关注而与其他类型的摘要任务区分开来。尽管某些自动评估方法（例如 ROUGE）已经流行起来，但我们发现它们对于评估意见摘要的质量来说是不可靠的措施。在本文中，我们提出了 OpinSummEval，这是一个包含人类判断和 14 个意见摘要模型输出的数据集。我们进一步探讨了 24 个自动指标与四个维度的人类评分之间的相关性。我们的研究结果表明，基于神经网络的指标通常优于非神经网络。然而，即使是建立在强大骨干基础上的指标，例如 BART 和 GPT 3 3.5，也无法在所有维度上始终保持良好的相关性，这凸显了改进意见总结的自动化评估方法的必要性。

Towards a Unified Conversational Recommendation System: Multi-task Learning via Contextualized Knowledge Distillation
Authors Yeongseo Jung, Eunseo Jung, Lei Chen
在会话推荐系统 CRS 中，代理被要求在自然语言会话中向用户推荐一组项目。为了满足对话能力和个性化推荐的需求，先前的工作使用了单独的推荐和对话模块。然而，这种方法不可避免地导致推荐结果和生成的响应之间存在差异。为了弥补这一差距，我们提出了针对统一 CRS 的多任务学习，其中单个模型通过上下文知识蒸馏 ConKD 联合学习这两个任务。我们介绍ConKD硬门和软门的两个版本。前者有选择地在两位特定任务的教师之间进行选择，而后者则整合了两位教师的知识。我们的门以特定于上下文的方式动态计算，促进相关知识的灵活集成。

Mind the Gap: Automated Corpus Creation for Enthymeme Detection and Reconstruction in Learner Arguments
Authors Maja Stahl, Nick D sterhus, Mei Hua Chen, Henning Wachsmuth
写出有力的论据对学习者来说可能具有挑战性。它要求以逻辑和连贯的方式选择和排列多个论证性话语单元ADU，并决定哪些ADU要隐含，即所谓的enthymeme。然而，当重要的 ADU 缺失时，读者可能无法遵循推理或理解论点的要点。本文为学习者论证引入了两项新任务，以识别论证推理素检测中的差距并填补推理素重建中的差距。这两项任务的方法可以帮助学习者提高他们的论证质量。我们研究如何通过从论证文本中删除对论证及其质量至关重要的 ADU，自动创建用于这些任务的语料库，同时保持文本的自然性。基于 ICLEv3 议论文学习者文章语料库，我们创建了 40,089 个论证实例，用于酶原检测和重建。通过手动研究，我们提供的证据表明，所提出的语料库创建过程会导致预期的质量降低，并产生与学习者所写的论点同样自然的论点。

Lost in Translation -- Multilingual Misinformation and its Evolution
Authors Dorian Quelle, Calvin Cheng, Alexandre Bovet, Scott A. Hale
错误信息和虚假信息正在数字时代成为日益严重的威胁，并跨越语言和国界迅速传播。本文通过对 95 种语言的 250,000 多个独特事实核查的分析，调查了多语言错误信息的普遍性和动态。首先，我们发现，虽然大多数错误信息声明仅经过一次事实核查，但 11.7（对应超过 21,000 条声明）却经过多次核查。使用事实核查作为错误信息传播的代理，我们发现 33 个重复的说法跨越了语言界限，这表明一些错误信息渗透到了语言障碍中。然而，传播模式表现出很强的同质性，错误信息更有可能在同一种语言中传播。为了研究声明随时间的演变和跨语言的突变，我们使用多语言句子嵌入来表示事实检查，并对语义相似的声明进行聚类。我们分析了连接不同版本的权利要求的连接组件和最短路径，发现权利要求随着时间的推移逐渐漂移，并在遍历语言时经历更大的改变。总的来说，这项对多语言错误信息的新颖调查提供了重要的见解。它量化了冗余的事实检查工作，确定了一些主张跨语言传播，测量语言同质性，并对主张的时间和跨语言演变进行建模。

Detrimental Contexts in Open-Domain Question Answering
Authors Philhoon Oh, James Thorne
对于知识密集型 NLP 任务，人们普遍认为访问更多信息是提高模型端到端性能的一个因素。然而，与直觉相反，在常见问答 QA 数据集上进行评估时，过多的上下文可能会对模型产生负面影响。在本文中，我们分析了段落如何对问答中使用的检索然后阅读架构产生不利影响。我们的经验证据表明，当前的读取架构没有充分利用检索到的段落，并且与使用其中的子集相比，使用整个段落时会显着降低其性能。我们的研究结果表明，通过过滤掉有害的段落，模型的准确性可以在两个流行的 QA 数据集上提高 10 倍。此外，这些结果是通过利用现有的检索方法获得的，无需进一步的培训或数据。我们进一步强调了与识别有害段落相关的挑战。首先，即使上下文正确，模型也可能做出错误的预测，这给确定哪些段落最具影响力带来了挑战。其次，评估通常考虑词汇匹配，这对于正确答案的变化并不鲁棒。尽管存在这些限制，我们的实验结果强调了识别和删除这些有害段落对于上下文有效检索然后读取管道的关键作用。

Knowledge Corpus Error in Question Answering
Authors Yejoon Lee, Philhoon Oh, James Thorne
开放域问答 QA 领域的最新工作探索了从大型语言模型 LLM 生成上下文段落，取代了 QA 管道中的传统检索步骤。然而，尚不清楚为什么生成的段落比检索的段落更有效。本研究重新审视了 QA 的传统表述，并引入了知识语料库错误的概念。当用于检索的知识语料库只是整个字符串空间的子集时，就会出现此错误，可能会排除语料库之外存在的更有用的段落。法学硕士可以通过在更大的空间中生成通道来缓解这一缺点。我们提出了一个实验，使用法学硕士来释义人类注释的黄金上下文，以实证观察知识语料库错误。我们在三个 QA 基准测试中的结果显示，使用释义段落时，性能有所提高 10 13，这表明存在知识语料库错误。

DUMA: a Dual-Mind Conversational Agent with Fast and Slow Thinking
Authors Xiaoyu Tian, Liangyu Chen, Na Liu, Yaxuan Liu, Wei Zou, Kaijiang Chen, Ming Cui
受人类认知双过程理论的启发，我们引入了 DUMA，这是一种新颖的会话代理框架，通过利用分别致力于快速和慢速思维的两个生成式大型语言模型法学硕士来体现双重思维机制。快速思维模型充当外部交互和初始响应生成的主要界面，根据完整响应的复杂性评估使用慢速思维模型的必要性。当被调用时，慢速思维模型接管对话，进行细致的计划、推理和工具利用，以提供经过充分分析的响应。这种双重思维配置可以实现直观响应和根据情况深思熟虑的问题解决过程之间的无缝过渡。我们构建了一个会话代理来处理房地产行业的在线查询。

A Scalable Framework for Table of Contents Extraction from Complex ESG Annual Reports
Authors Xinyu Wang, Lin Gui, Yulan He
目录 ToC 提取以分层方式构建文档为中心。在本文中，我们提出了一个新的数据集 ESGDoc，其中包含 2001 年至 2022 年 563 家公司的 1,093 份 ESG 年度报告。这些报告由于其不同的结构和冗长的篇幅而带来了重大挑战。为了解决这些挑战，我们提出了一个新的 Toc 提取框架，包括三个步骤 1 根据阅读顺序和字体大小构建文本块的初始树 2 通过考虑节点中捕获的上下文信息来独立建模每个树节点或文本块中心子树 3 通过对每个树节点采取适当的操作来修改原始树保留、删除或移动。这种施工建模修改 CMM 流程具有多种优势。它消除了像以前的方法那样对章节标题进行成对建模的需要，使得文档分割实际上可行。通过合并结构化信息，每个部分标题都可以利用与其自身相关的本地和远程上下文。实验结果表明，我们的方法以一小部分运行时间超越了之前最先进的基线。

Multi-grained Evidence Inference for Multi-choice Reading Comprehension
Authors Yilin Zhao, Hai Zhao, Sufeng Duan
多选机器阅读理解 MRC 是机器根据提供的选项回答问题的一项重大且具有挑战性的任务。多选 MRC 中的答案无法直接从给定的段落中提取，本质上需要机器能够从准确提取的证据中进行推理。然而，关键证据可能只是一个单词或短语那么简单，而它隐藏在给定的冗余、嘈杂的段落中，具有从短语、片段、句子直到整个段落的多个语言层次结构。因此，我们提出了一种新的通用模型增强，全面集成了多粒度证据，称为多粒度证据推理器 Mugen，以弥补这一缺陷。

"Honey, Tell Me What's Wrong", Global Explanation of Textual Discriminative Models through Cooperative Generation
Authors Antoine Chaffin, Julien Delaunay
复杂机器学习的普遍存在提高了模型不可知解释算法的重要性。这些方法通过稍微扰动真实实例来创建人工实例，捕获模型决策的变化。然而，此类方法依赖于初始数据，并且仅提供对这些数据的决策的解释。为了解决这些问题，我们提出了 Therapy，这是第一个适用于不需要输入数据集的文本的全局且与模型无关的解释方法。治疗按照分类器通过合作生成学习到的分布生成文本。因为它不依赖于初始样本，所以即使数据不存在（例如出于保密原因），它也可以生成解释。此外，与将多个局部解释组合成全局解释的现有方法相反，Therapy 提供了输入空间上模型行为的全局概述。

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese
Authors Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen
近年来，视觉问答VQA因其多样化的应用而受到广泛关注，包括智能汽车辅助、帮助视障人士以及使用自然语言查询的文档图像信息检索。 VQA 需要有效整合问题和图像中的信息以生成准确的答案。 VQA 神经模型在大规模数据集上取得了显着进展，主要关注英语等资源丰富的语言。为了解决这个问题，我们引入了 ViCLEVR 数据集，这是一个开创性的集合，用于评估越南语的各种视觉推理能力，同时减少偏见。该数据集包含超过 26,000 张图像和 30,000 个问答对 QA，每个问题都经过注释以指定所涉及的推理类型。利用该数据集，我们对当代视觉推理系统进行了全面分析，提供了有关其优点和局限性的宝贵见解。此外，我们还推出了 PhoVIT，一种全面的多模态融合，可根据问题识别图像中的对象。该架构有效地利用变压器来实现对文本和视觉数据的同时推理，在早期模型阶段合并两种模式。实验结果表明，我们提出的模型在四个评估指标上实现了最先进的性能。

Large language models for aspect-based sentiment analysis
Authors Paul F. Simmering, Paavo Huoviala
大型语言模型法学硕士提供前所未有的文本完成功能。作为通用模型，它们可以扮演多种角色，包括更专业的模型。我们在基于方面的情感分析 ABSA 任务中评估了 GPT 4 和 GPT 3.5 在零样本、少量样本和微调设置中的性能。经过微调的 GPT 3.5 在 SemEval 2014 任务 4 的联合方面术语提取和极性分类任务上取得了 83.8 的最新 F1 分数，比 InstructABSA scrapia instructabsa 2023 提高了 5.7 分。然而，这是以模型参数增加 1000 倍为代价的，从而增加了推理成本。我们讨论了不同模型的性价比权衡，并分析了它们所犯的典型错误。我们的结果还表明，详细的提示可以提高零射击和少量射击设置的性能，但对于微调模型来说并不是必需的。

SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis
Authors Md Nishat Raihan, Dhiman Goswami, Antara Mahmud, Antonios Anstasopoulos, Marcos Zampieri
当两种或多种语言在文本或语音中混合时，代码混合是一种经过充分研究的语言现象。为了训练代码混合的计算模型，已经构建了几个数据集。尽管观察多种语言的代码混合是很常见的，但大多数可用数据集仅包含两种语言之间的混合代码。在本文中，我们介绍了 SentMix 3L，这是一个用于情感分析的新颖数据集，包含孟加拉语、英语和印地语三种语言之间的代码混合数据。我们使用SentMix 3L进行综合评估。

NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark
Authors Oscar Sainz, Jon Ander Campos, Iker Garc a Ferrero, Julen Etxaniz, Oier Lopez de Lacalle, Eneko Agirre
在这篇立场文件中，我们认为使用带注释的基准对自然语言处理 NLP 任务进行经典评估遇到了麻烦。当大型语言模型法学硕士在基准的测试拆分上进行训练，然后在同一基准中进行评估时，就会发生最严重的数据污染。问题的严重程度尚不清楚，因为无法直接衡量。污染会导致高估受污染模型在目标基准和相关任务中相对于未受污染模型的性能。其后果可能是非常有害的，错误的科学结论被发表，而其他正确的结论被丢弃。这篇立场文件定义了不同程度的数据污染，并主张社区的努力，包括开发自动和半自动措施来检测基准数据何时暴露于模型，以及对结论受到数据影响的论文进行标记的建议

Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots
Authors Xintao Wang, Xintao Wang, Yaying Fei, Ziang Leng, Cheng Li
大规模预训练语言模型的出现彻底改变了新人工智能应用的能力，特别是在制作具有不同角色的聊天机器人领域。考虑到聊天机器人的刺激反应性质，本文提出了一种创新的开放式访谈风格方法，用于对角色扮演聊天机器人进行人格评估，从而更丰富地理解其内在个性。我们对 ChatHaruhi 库创建的 32 个角色扮演聊天机器人进行了性格评估，涵盖大五维度和 MBTI 维度，并衡量它们与人类感知的一致性。评估结果强调，基于法学硕士的现代角色扮演聊天机器人可以有效地刻画相应角色的个性特征，与人类感知的个性相比，对齐率为82.8。此外，我们还提出了塑造聊天机器人个性的潜在策略。因此，本文作为交叉计算语言学和心理学的角色扮演聊天机器人的基石研究。

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation
Authors Shaolei Zhang, Yang Feng
同时序列生成是实时场景的关键任务，例如流式语音识别、同步机器翻译和同步语音翻译，其中目标序列是在接收源序列的同时生成的。实现低延迟高质量生成的关键在于确定生成的最佳时刻，这是通过学习源序列和目标序列之间的映射来完成的。然而，现有方法通常依赖于针对不同序列类型的特定于任务的启发式方法，限制了模型自适应学习源目标映射的能力，并阻碍了对各种同时任务的多任务学习的探索。在本文中，我们提出了一个用于同时序列生成的统一分段到分段框架 Seg2Seg，它以自适应和统一的方式学习映射。在同时生成的过程中，模型在等待源段和生成目标段之间交替，使该段成为源和目标之间的天然桥梁。为了实现这一目标，Seg2Seg 引入了一个潜在片段作为源到目标之间的枢轴，并通过建议的期望训练探索所有潜在的源目标映射，从而学习生成的最佳时刻。

Transformers as Graph-to-Graph Models
Authors James Henderson, Alireza Mohammadshahi, Andrei C. Coman, Lesly Miculicich
我们认为 Transformer 本质上是图到图模型，序列只是一个特例。注意力权重在功能上等同于图的边。我们的图到图 Transformer 架构通过将图边缘输入到注意力权重计算中并使用类似注意力的函数预测图边缘，从而将显式图集成到预训练 Transformer 学习的潜在图中，从而使这种能力变得显式。添加迭代图细化提供了输入、输出和潜在图的联合嵌入，允许非自回归图预测来优化完整图，而无需任何定制管道或解码策略。

SOUL: Towards Sentiment and Opinion Understanding of Language
Authors Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing
情感分析是一项成熟的自然语言处理任务，情感极性分类是其最受欢迎和最具代表性的任务之一。然而，尽管预训练语言模型在该领域取得了成功，但它们往往无法捕捉情感分析的更广泛的复杂性。为了解决这个问题，我们提出了一项名为“语言灵魂的情感和观点理解”的新任务。 SOUL 旨在通过审查理解 RC 和论证生成 JG 两个子任务来评估情感理解。 RC 试图验证基于评论文本的主观信息的陈述，而 JG 则要求模型为其情绪预测提供解释。为了进行全面评估，我们注释了一个新数据集，其中包含来自 3,638 条评论的 15,028 条陈述。实验结果表明，无论是小型语言模型还是大型语言模型，SOUL 都是一项具有挑战性的任务，与人类性能相比，其性能差距高达 27。此外，与人类专家和 GPT 4 进行的评估凸显了小语言模型在生成基于推理的理由方面的局限性。这些发现强调了现有模型的 SOUL 任务的挑战性，强调需要进一步改进情感分析以解决其复杂性。

Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method
Authors Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin
大型语言模型法学硕士在自然语言处理 NLP 任务中表现出了巨大的潜力。然而，最近的文献表明，法学硕士会间歇性地产生非事实的回答，这阻碍了法学硕士进一步利用的可靠性。在本文中，我们提出了一种新颖的自我检测方法来检测法学硕士不知道的哪些问题容易产生非事实结果。具体来说，我们首先对给定问题进行多样化的文本表达并收集相应的答案。然后，我们检查生成的答案之间的差异，以确定模型可能生成错误的问题。上述所有步骤都可以通过法学硕士本身的提示来完成，而无需参考任何其他外部资源。

Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey
Authors Weixu Zhang, Yifei Wang, Yuanfeng Song, Victor Junqiu Wei, Yuxing Tian, Yiyan Qi, Jonathan H. Chan, Raymond Chi Wing Wong, Haiqin Yang
自然语言处理的出现彻底改变了用户与表格数据交互的方式，实现了从传统查询语言和手动绘图到更直观、基于语言的界面的转变。 ChatGPT 及其后继者等大型语言模型法学硕士的兴起进一步推动了这一领域的发展，为自然语言处理技术开辟了新的途径。这项调查全面概述了用于表格数据查询和可视化的自然语言界面，该界面允许用户使用自然语言查询与数据进行交互。我们介绍了这些接口背后的基本概念和技术，特别强调语义解析，这是促进从自然语言转换为 SQL 查询或数据可视化命令的关键技术。然后，我们从数据集、方法论、指标和系统设计的角度深入研究文本到 SQL 和文本到 Vis 问题的最新进展。这包括深入探讨法学硕士的影响，强调其优势、局限性和未来改进的潜力。

ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for Consistent Data-to-Text Generation
Authors Martin Vejvar, Yasutaka Fujimoto
我们提出了 ASPIRO，一种在零到几个镜头设置中将结构化数据语言化为短模板句子的方法。与以前的方法不同，我们的方法提示大型语言模型 LLM 直接生成与实体无关的模板，而不是依赖 LLM 忠实地复制给定的示例实体，或验证手动制作模板。我们结合了由算法解析检查触发的 LLM 重新提示，以及 PARENT 指标诱导的一致性验证，以实时识别和纠正模板生成问题。与直接 LLM 输出相比，ASPIRO 在 DART 数据集上生成的 RDF 三元组语言表达中的解析错误率平均降低了 66 个。

TarGEN: Targeted Data Generation with Large Language Models
Authors Himanshu Gupta, Kevin Scaria, Ujjwala Anantheswaran, Shreyas Verma, Mihir Parmar, Saurabh Arjun Sawant, Swaroop Mishra, Chitta Baral
大型语言模型法学硕士的快速发展引发了人们对数据合成技术的兴趣，旨在生成多样化且高质量的合成数据集。然而，这些合成数据集常常缺乏多样性和增加噪音。在本文中，我们提出了 TarGEN，这是一种利用法学硕士生成高质量合成数据集的多步骤提示策略。 TarGEN 的一个优点是其无种子特性，它不需要特定的任务实例，从而将其适用性扩展到任务复制之外。我们通过一种称为自我校正的方法增强了 TarGEN，使法学硕士能够在数据集创建过程中纠正不准确标记的实例，确保标签可靠。为了评估我们技术的有效性，我们模拟了 SuperGLUE 基准测试中的 8 个任务，并微调了各种语言模型，包括合成训练集和原始训练集上的仅编码器模型、编码器解码器模型和仅解码器模型。对原始测试集的评估表明，在 TarGEN 生成的数据集上训练的模型比通过 syn 在原始数据集 82.84 上训练的模型表现好大约 1 2 个点。对比 og 上的 81.12。使用果馅饼T5。当结合指令调整时，Flan T5 在合成数据上的性能提高到 84.54，而在原始数据上的性能提高到 81.49。与原始数据集相比，对合成数据集的全面分析表明，合成数据集表现出相似或更高水平的数据集复杂性和多样性。此外，合成数据集显示的偏差水平与原始数据集紧密一致。最后，当在我们的合成 SuperGLUE 数据集上进行预微调时，T5 3B 在 OpenLLM 排行榜上取得了令人印象深刻的结果，比在 Self Instruct 数据集上训练的模型高出 4.14 个点。

From Values to Opinions: Predicting Human Behaviors and Stances Using Value-Injected Large Language Models
Authors Dongjun Kang, Joonsuk Park, Yohan Jo, JinYeong Bak
能够在现实场景中预测人们对问题和行为的看法对于政治和营销等各个领域都有帮助。然而，进行像欧洲社会调查这样的大规模调查来征求人们对个别问题的意见可能会产生高昂的成本。利用先前显示人类核心价值观对个人决策和行动影响的研究，我们建议使用价值注入大型语言模型 LLM 来预测意见和行为。为此，我们提出了价值注入方法 VIM，这是参数生成和问题回答两种方法的集合，旨在通过微调将目标价值分布注入 LLM。然后，我们对四项任务进行了一系列实验，以测试 VIM 的有效性以及使用价值注入的法学硕士来预测人们的观点和行为的可能性。我们发现注入 VIM 变体的法学硕士价值大大优于基线。

TIMELINE: Exhaustive Annotation of Temporal Relations Supporting the Automatic Ordering of Events in News Articles
Authors Sarah Alsayyahi, Riza Batista Navarro
迄今为止，时间关系提取模型受到现有时间关系注释新闻数据集中的许多问题的阻碍，包括 1 由于其注释指南在时间关系方面缺乏特异性，注释者之间的一致性较低 2 排除给定文档中跨不同段落的长距离关系的定义以及 3 排除不以动词为中心的事件。本文旨在通过提出一种新的注释方案来缓解这些问题，该方案明确定义了注释时间关系所依据的标准。此外，该方案包括事件，即使它们不表达为动词，例如，名词化事件。此外，我们提出了一种注释所有时间关系（包括长距离关系）的方法，该方法使过程自动化，从而减少注释者的时间和手动工作。结果是一个新的数据集，即时间线语料库，与之前报告的时间关系数据集相比，其中获得了改进的注释者间一致性。

"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation
Authors Allyson Ettinger, Jena D. Hwang, Valentina Pyatkin, Chandra Bhagavatula, Yejin Choi
大型语言模型法学硕士在语言使用方面表现出惊人的熟练程度和流畅性。这是否意味着他们也获得了关于该语言的深刻的语言知识，达到了可以充当专家语言注释者的程度。在本文中，我们在分析中检验了 GPT 3、ChatGPT 和 GPT 4 模型的成功和局限性句子意义结构，重点关注抽象意义表示 AMR Banarescu 等人。 2013 解析形式主义，它提供了丰富的句子含义结构的图形表示，同时抽象了表面形式。我们比较了两种设置中这种语义结构的模型分析：1 基于零和少数镜头提示直接生成 AMR 解析，2 通过元语言自然语言查询间接部分重建 AMR，例如识别这句话的主要事件和谓词对应于该事件。。在这些设置中，我们发现模型可以可靠地重现 AMR 的基本格式，并且通常可以捕获核心事件、参数和修饰符结构，但是，模型输出容易出现频繁且重大的错误，并且解析可接受性的整体分析表明，即使由于很少有镜头演示，模型在产生完全准确的解析方面几乎没有成功。引出自然语言反应会产生类似的错误模式。

Data-Centric Financial Large Language Models
Authors Zhixuan Chu, Huaiyu Guo, Xinyuan Zhou, Yijia Wang, Fei Yu, Hong Chen, Wanqing Xu, Xin Lu, Qing Cui, Longfei Li, Jun Zhou, Sheng Li
大型语言模型法学硕士在自然语言任务方面表现出了希望，但在直接应用于金融等复杂领域时却遇到了困难。法学硕士很难推理和整合所有相关信息。我们提出了一种以数据为中心的方法，使法学硕士能够更好地处理财务任务。我们的主要见解是，预处理和预理解数据比让法学硕士一次性承担所有内容更有效。我们使用基于多任务提示的微调来创建金融LLM FLLM，以实现数据预处理和预理解。然而，每个任务的标记数据都很稀缺。为了克服手动注释成本，我们采用溯因增强推理 AAR，通过修改 FLLM 自身输出的伪标签来自动生成训练数据。实验表明，我们以数据为中心的 FLLM 和 AAR 大大优于为原始文本设计的基线金融 LLM，在金融分析和解释任务方面实现了最先进的水平。我们还开源了财务分析和解释的新基准。

Words, Subwords, and Morphemes: What Really Matters in the Surprisal-Reading Time Relationship?
Authors Sathvik Nair, Philip Resnik
在心理语言学数据上使用法学硕士所带来的一个重要假设尚未得到验证。基于 LLM 的预测基于子词标记化，而不是将单词分解为语素。我们通过将使用拼写、形态和 BPE 标记化的意外估计与阅读时间数据进行比较来仔细测试这一点。我们的结果复制了之前的研究结果，并提供了证据，表明总体而言，使用 BPE 标记化的预测不会因形态和拼写分割而受到影响。

Social Contract AI: Aligning AI Assistants with Implicit Group Norms
Authors Jan Philipp Fr nken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip Arumugam, Jared Moore, Alex Tamkin, Tobias Gerstenberg, Noah D. Goodman
我们探索通过从观察到的交互中反转用户未知偏好的模型来调整人工智能助手的想法。为了验证我们的建议，我们在经济最后通牒游戏中进行了概念验证模拟，将用户偏好形式化为指导模拟玩家行为的政策。我们发现人工智能助手准确地调整其行为以匹配经济文献中的标准政策，例如自私、利他。然而，当面对货币（例如，未包含在助理培训分配中的药品克数）时，助理学习的策略缺乏稳健性，并且在分配之外的环境中表现出有限的泛化能力。此外，我们发现，当语言使用和未知策略之间的关系不一致时，例如利他策略与粗鲁语言相结合，助理对策略的学习就会减慢。

A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications
Authors Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen
我们提出了一个框架，用于自动测量大型语言模型法学硕士及相关产品和服务的负责任的 AI RAI 指标。我们自动衡量法学硕士危害的框架建立在现有的技术和社会技术专业知识的基础上，并利用了最先进的法学硕士的能力，例如 GPT 4。我们使用该框架进行了几个案例研究，调查不同的法学硕士可能如何违反一系列法律RAI相关原则。该框架可以与特定领域的社会技术专业知识一起使用，为未来的新危害领域创建测量方法。

Salespeople vs SalesBot: Exploring the Role of Educational Value in Conversational Recommender Systems
Authors Lidiya Murakhovs ka, Philippe Laban, Tian Xie, Caiming Xiong, Chien Sheng Wu
进行大额购买需要消费者进行研究或咨询销售人员以获得领域专业知识。然而，现有的会话推荐系统CRS经常忽视用户缺乏背景知识，只关注收集偏好。在这项工作中，我们为对话代理定义了一个新的问题空间，旨在通过混合类型的混合主动对话提供产品推荐和教育价值。我们引入了 SalesOps，这是一个框架，它通过利用大型语言模型法学硕士的最新进展来促进此类系统的模拟和评估。我们构建了 SalesBot 和 ShopperBot，这是一对由 LLM 支持的代理，可以模拟框架的任一侧。一项全面的人类研究将 SalesBot 与专业销售人员进行了比较，结果表明，尽管 SalesBot 在流畅性和信息量方面接近专业销售人员，但在推荐质量方面却落后。我们强调两者在提供真实信息方面所面临的明显局限性，并强调在 CRS 背景下确保诚实性所面临的挑战。

StyleBART: Decorate Pretrained Model with Style Adapters for Unsupervised Stylistic Headline Generation
Authors Hanqing Wang, Yajing Luo, Boya Xiong, Guanhua Chen, Yun Chen
文体标题生成是生成标题的任务，该标题不仅概括了文章的内容，而且反映了吸引用户的所需风格。由于特定风格的文章标题对很少，以前的研究主要集中在使用标准标题生成数据集和单一风格语料库的无监督方法。在这项工作中，我们遵循这条路线并提出了 StyleBART，一种用于文体标题生成的无监督方法。我们的方法用负责不同样式的适配器装饰预训练的 BART 模型，并允许通过简单地切换适配器来生成不同样式的标题。与之前的作品不同，StyleBART 将风格学习和标题生成的任务分开，使得在推理过程中自由组合基础模型和风格适配器成为可能。我们进一步提出了一个逆释义任务来增强风格适配器。

ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural Languages
Authors Mohammad Akbari, Saeed Ranjbar Alvar, Behnam Kamranian, Amin Banitalebi Dehkordi, Yong Zhang
近年来，构建多模态语言模型已成为一种趋势，其中图像、视频、语音等附加模态与自然语言（即文本信息）一起共同学习。尽管这些具有不同模态的多模态语言模型取得了成功，但神经网络架构和自然语言还没有现有的解决方案。提供神经架构信息作为一种新的模式，使我们能够通过单一推理在云上提供快速的架构 2 文本和文本 2 架构检索生成服务。这种解决方案对于帮助初学者和中级 ML 用户通过简单的文本查询提出更好的神经架构或 AutoML 方法非常有价值。在本文中，我们提出了 ArchBERT，一种用于联合学习和理解神经架构和自然语言的双模态模型，为该领域的研究开辟了新途径。我们还引入了一种名为 Masked Architecture Modeling MAM 的预训练策略，以实现更通用的联合学习。此外，我们引入并公开发布了两个新的双模态数据集，用于训练和验证我们的方法。 ArchBERT 的性能是通过针对不同下游任务（例如面向架构的推理、问题回答和字幕摘要）的一组数值实验来验证的。

Investigating Multilingual Coreference Resolution by Universal Annotations
Authors Haixia Chai, Michael Strube
多语言共指消解 MCR 是一项长期存在且具有挑战性的任务。利用新提出的多语言共指数据集 CorefUD Nedoluzhko et al., 2022，我们利用其统一的通用形态句法和共指注释对该任务进行了调查。首先，我们通过检查不同语言级别（即提及、实体和文档级别）以及不同类型的真实数据来研究共指，以深入了解多种语言的共指特征。其次，我们使用通用注释对 SotA 系统在 CRAC 2022 共享任务中无法解决的最具挑战性的情况进行了错误分析。最后，基于此分析，我们从通用形态句法注释中提取特征，并将这些特征集成到基线系统中，以评估它们对 MCR 任务的潜在好处。

Outlier Dimensions Encode Task-Specific Knowledge
Authors William Rudman, Catherine Chen, Carsten Eickhoff
众所周知，大型语言模型法学硕士的表示主要由一小部分具有极高方差的维度子集主导。之前的研究认为，虽然在 LLM 表示中消除这些异常维度会损害下游性能，但异常维度会对嵌入的表示质量有害。在本研究中，我们研究了微调如何影响异常值维度，并表明 1 预训练中出现的异常值维度持续存在于微调模型中，2 单个异常值维度可以以最小的错误率完成下游任务。

Nearest Neighbor Search over Vectorized Lexico-Syntactic Patterns for Relation Extraction from Financial Documents
Authors Pawan Kumar Rajpoot, Ankur Parikh
关系抽取 RE 在预训练语言模型的帮助下取得了显着的进步。然而，由于语言复杂性和数据稀疏性，现有的RE模型通常无法处理隐式表达式和长尾关系类两种情况。此外，对于无法直接访问大型语言模型法学硕士和/或用于监督训练或微调的基础设施的用户来说，这些方法和模型在很大程度上是无法访问的。基于规则的系统也与隐式表达式作斗争。除此之外，现实世界的财务文件，例如上市公司的各种 10 X 报告，包括 10 K、10 Q 等，在较长和复杂的句子方面对基于规则的系统提出了另一个挑战。在本文中，我们介绍了一种简单的方法，通过对词汇句法模式的密集向量进行最近邻搜索来在测试时咨询训练关系，并提供一种简单而有效的方法来解决上述问题。我们在 REFinD 上评估了我们的方法，并表明我们的方法实现了最先进的性能。

Is Explanation the Cure? Misinformation Mitigation in the Short Term and Long Term
Authors Yi Li Hsu, Shih Chieh Dai, Aiping Xiong, Lun Wei Ku
随着自然语言处理 NLP 模型的进步，除了为识别出的假新闻添加警告标签之外，还提出了自动解释生成来减少社交媒体平台上的错误信息。尽管许多研究人员专注于产生良好的解释，但这些解释如何真正帮助人类对抗假新闻尚未得到探索。在这项研究中，我们比较了警告标签的有效性和 GPT 4 在揭穿错误信息方面生成的最先进的反事实解释。在一项两波在线人类受试者研究中，参与者 N 215 被随机分配到对照组（在没有任何干预的情况下显示虚假内容）、警告标签组（其中贴有虚假声明）或解释组（其中虚假内容被标记）。内容附有 GPT 4 生成的解释。我们的结果表明，这两种干预措施在短期和长期内以相同的方式显着降低了参与者自我报告的对虚假陈述的信念。

The impact of using an AI chatbot to respond to patient messages
Authors Shan Chen, Marco Guevara, Shalini Moningi, Frank Hoebers, Hesham Elhalawani, Benjamin H. Kann, Fallon E. Chipidza, Jonathan Leeman, Hugo J.W.L. Aerts, Timothy Miller, Guergana K. Savova, Raymond H. Mak, Maryam Lustberg, Majid Afshar, Danielle S. Bitterman
文件负担是导致临床医生倦怠的一个主要原因，这种倦怠在全国范围内呈上升趋势，对我们护理患者的能力构成了紧迫威胁。人工智能聊天机器人（例如 ChatGPT）可以通过协助记录来减轻临床医生的负担。尽管许多医院正在积极将此类系统集成到电子病历系统中，但人工智能聊天机器人的实用性及其对临床决策的影响尚未针对此预期用途进行研究。我们是第一个研究大型语言模型在协助临床医生起草对患者问题的回答方面的效用的人。

Non-contrastive sentence representations via self-supervision
Authors Marco Farina, Duccio Pappadopulo
样本对比方法（通常简称为对比）是大多数无监督学习文本和句子嵌入方法的基础。另一方面，计算机视觉社区已经考虑了不同类别的自监督损失函数和方法，并将其称为维度对比。在本文中，我们将此类方法与对比句子嵌入的标准基线 SimCSE 进行了彻底的比较。

FP8-LM: Training FP8 Large Language Models
Authors Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang, Ze Liu, Yifan Xiong, Ziyue Yang, Bolin Ni, Jingcheng Hu, Ruihang Li, Miaosen Zhang, Chen Li, Jia Ning, Ruizhe Wang, Zheng Zhang, Shuguang Liu, Joe Chau, Han Hu, Peng Cheng
在本文中，我们探索 FP8 低位数据格式，以有效训练大型语言模型 LLM。我们的主要见解是，LLM 训练中的大多数变量（例如梯度和优化器状态）可以采用低精度数据格式，而不会影响模型精度，也不需要更改超参数。具体来说，我们提出了一个新的 FP8 自动混合精度框架来训练法学硕士。该框架提供三个级别的 FP8 使用，以简化法学硕士的混合精度和分布式并行训练。它以增量方式逐渐融入 8 位梯度、优化器状态和分布式学习。实验结果表明，在 H100 GPU 平台上训练 GPT 175B 模型时，我们的 FP8 混合精度训练框架不仅显着减少了实际内存使用量 42，而且比广泛采用的 BF16 框架（即 Megatron LM）运行速度快了 64 倍，超过 Nvidia Transformer Engine 17 的速度。这很大程度上降低了大型基础模型的训练成本。此外，我们的 FP8 混合精度训练方法是通用的。它可以无缝应用于其他任务，例如法学硕士指令调整和带有人工反馈的强化学习，从而节省微调费用。

Fine-Tuning Language Models Using Formal Methods Feedback
Authors Yunhao Yang, Neel P. Bhatt, Tyler Ingebrand, William Ward, Steven Carr, Zhangyang Wang, Ufuk Topcu
尽管预先训练的语言模型编码有利于规划和控制的通用知识，但它们可能无法为特定领域的任务生成适当的控制策略。现有的微调方法使用人类反馈来解决这一限制，但是，获取人类反馈是劳动密集型且成本高昂的。我们提出了一种完全自动化的方法来微调自治系统中应用程序的预训练语言模型，弥合通用知识和领域特定要求之间的差距，同时降低成本。该方法从自然语言任务描述引导的预训练模型合成基于自动机的控制器。这些控制器可以根据世界模型中独立提供的规范进行验证，该世界模型可以是抽象的或从高保真模拟器获得。高度符合所需规范的控制器会获得更高的排名，从而指导迭代微调过程。我们提供定量证据（主要是在自动驾驶方面）来证明该方法在多个任务中的有效性。

Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-Image Generation
Authors Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont Tuset, Su Wang
评估文本到图像模型是出了名的困难。最近评估文本图像可信度的一种强大方法是基于 QG A 问题生成和回答，它使用预先训练的基础模型根据提示自动生成一组问题和答案，并根据这些答案是否使用提取来对输出图像进行评分视觉问答模型与基于提示的答案一致。这种评估自然取决于底层 QG 和 QA 模型的质量。我们识别并解决了现有 QG A 工作中的几个可靠性挑战 a QG 问题应尊重提示，避免幻觉、重复和遗漏 b VQA 答案应保持一致，不要断言图像中没有摩托车，同时又声称摩托车是蓝色的。我们使用戴维森场景图 DSG 来解决这些问题，这是一个受形式语义启发的基于经验的评估框架。 DSG 是一种基于图形的自动 QG A，采用模块化实现，可适应任何 QG A 模块。 DSG 生成以依赖关系图组织的原子且独特的问题，这确保了适当的语义覆盖并避免了不一致的答案。通过对一系列模型配置 LLM、VQA 和 T2I 进行广泛的实验和人工评估，我们凭经验证明 DSG 解决了上述挑战。最后，我们推出 DSG 1k，这是一个开源评估基准，包含 1,060 个提示，涵盖广泛的细粒度语义类别，且分布均衡。

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN
Authors Neeraj Kumar, Ankur Narang, Brejesh Lall
在本文中，我们提出了一种基于扩散 GAN 的方法 Prosodic Diff TTS，根据风格描述和内容文本作为输入生成相应的高保真语音，从而仅在 4 个去噪步骤内生成语音样本。它利用新颖的条件韵律层归一化将风格嵌入合并到基于多头注意的音素编码器和基于梅尔频谱图解码器的生成器架构中以生成语音。风格嵌入是通过在音调、语速、情感、性别分类等辅助任务上微调预训练的 BERT 模型来生成的。

Ask more, know better: Reinforce-Learned Prompt Questions for Decision Making with Large Language Models
Authors Xue Yan, Yan Song, Xinyu Cui, Filippos Christianos, Haifeng Zhang, David Henry Mguni, Jun Wang
大型语言模型法学硕士通过将基于行动的政策与思想链 CoT 推理相结合，展示了他们在解决复杂的实际挑战方面的前景。然而，手头拥有高质量的提示对于框架的有效性至关重要。目前，这些提示是利用大量人力手工制作的，导致 CoT 政策经常无法推广。还需要人为干预来开发接地功能，以确保低级控制器正确处理 CoT 推理。在本文中，我们朝着完全集成的端到端框架迈出了第一步，该框架用于使用复杂推理在实际环境中解决任务。为此，我们提供了一个新的领导者跟随者双层框架，能够学习提出相关问题提示，并随后进行推理以指导学习在环境中执行的操作。一个好的提示应该根据历史发现进行反思性修正，引导 CoT 考虑预期目标。提示生成器策略在我们的系统中有其自身的目标，使其能够适应行动策略并自动将 CoT 流程扎根到导致果断、高性能行动的输出。同时，行动政策正在学习如何使用 CoT 输出来采取具体行动。

Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare
Authors Junling Liu, Ziming Wang, Qichen Ye, Dading Chong, Peilin Zhou, Yining Hua
大型语言模型法学硕士开创了熟练理解复杂医疗保健和生物医学主题的新时代。然而，明显缺乏英语以外的语言模型和可以解释多模式输入的模型，这对于全球医疗保健的可及性至关重要。为此，本研究引入了Qilin Med VL，这是第一个旨在整合文本和视觉数据分析的中文大视觉语言模型。 Qilin Med VL 将预先训练的 Vision Transformer ViT 与基础法学硕士相结合。它经历了彻底的两阶段课程培训过程，包括功能调整和指令调整。该方法增强了模型生成医学说明和回答复杂医学查询的能力。我们还发布了 ChiMed VL，这是一个由超过 100 万个图像文本对组成的数据集。

Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed Languages
Authors Peng Xie, XingYuan Liu, ZiWei Chen, Kani Chen, Yang Wang
最近，Whisper 在英语自动语音识别 ASR 方面的鲁棒性和准确性已接近人类水平，而在小语种和混合语言语音识别方面，仍然迫切需要进一步改进。在这项工作中，我们展示了 Whisper MCE 的令人印象深刻的结果，这是我们经过微调的 Whisper 模型，该模型是使用我们自己收集的数据集、粤语和英语混合音频数据集 MCE 进行训练的。同时，考虑到单词错误率 WER 在评估其在小语种和混合语言环境中的有效性时提出了挑战，我们提出了一种新颖的评级机制。通过将我们的模型与基线 Whisper Large v2 模型进行比较，我们展示了其准确捕获原始音频内容的卓越能力，实现了更高的识别精度，并表现出更快的识别速度。

3D-Aware Visual Question Answering about Parts, Poses and Occlusions
Authors Xingrui Wang, Wufei Ma, Zhuowan Li, Adam Kortylewski, Alan Yuille
尽管视觉问答 VQA 取得了快速进展，但现有的数据集和模型主要侧重于测试 2D 推理。然而，重要的是，VQA 模型还必须理解视觉场景的 3D 结构，例如支持导航或操作等任务。这包括对 3D 对象姿势、其部分和遮挡的理解。在这项工作中，我们介绍了 3D 感知 VQA 的任务，该任务侧重于需要对视觉场景的 3D 结构进行组合推理的挑战性问题。我们从数据集和模型的角度解决 3D 感知 VQA。首先，我们介绍 Super CLEVR 3D，这是一个组合推理数据集，其中包含有关对象部分、其 3D 姿势和遮挡的问题。其次，我们提出了 PO3D VQA，这是一种 3D 感知 VQA 模型，它将两个强大的思想结合起来：用于推理的概率神经符号程序执行和具有对象 3D 生成表示的深度神经网络，以实现稳健的视觉识别。

Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory
Authors Niloofar Mireshghallah, Hyunwoo Kim, Xuhui Zhou, Yulia Tsvetkov, Maarten Sap, Reza Shokri, Yejin Choi
法学硕士在工作、家庭等场所的人工智能助理中交互使用大型语言模型，引入了一系列新的推理时间隐私风险。法学硕士在其输入中从多个来源获取不同类型的信息，并期望能够推理出要共享的内容。在给定的背景下，他们的产出、目的是什么以及与谁一起。在这项工作中，我们通过提出 ConfAIde 来提请人们注意高度关键但被忽视的上下文隐私概念，ConfAIde 是一个旨在识别指令调整法学硕士隐私推理能力中的关键弱点的基准。我们的实验表明，即使是最强大的模型（例如 GPT 4 和 ChatGPT）也会在人类不会的情况下泄露私人信息，分别为 39 和 57。即使我们采用隐私诱导提示或思维推理链，这种泄露仍然存在。

Style-Aware Radiology Report Generation with RadGraph and Few-Shot Prompting
Authors Benjamin Yan, Ruochen Liu, David E. Kuo, Subathra Adithan, Eduardo Pontes Reis, Stephen Kwak, Vasantha Kumar Venugopal, Chloe P. O Connell, Agustina Saenz, Pranav Rajpurkar, Michael Moor
根据医学图像自动生成的报告有望改善放射科医生的工作流程。现有方法通过直接从图像生成完整的报告来考虑图像来报告建模任务。然而，这将报告的内容（例如发现及其属性）与报告的风格（例如格式和用词选择）混为一谈，这可能导致临床报告不准确。为了解决这个问题，我们提出了一种生成放射学报告的两步方法。首先，我们从图像中提取内容，然后将提取的内容用语言表达为与特定放射科医生的风格相匹配的报告。为此，我们利用 RadGraph（报告的图形表示）以及大型语言模型 LLM。在我们的定量评估中，我们发现我们的方法可以带来有益的绩效。

Utilizing Language Models for Energy Load Forecasting
Authors Hao Xue, Flora D. Salim
能源负荷预测在优化资源配置和管理建筑和城市能源消耗方面发挥着至关重要的作用。在本文中，我们提出了一种利用语言模型进行能源负荷预测的新颖方法。我们采用提示技术将能耗数据转换为描述性句子，从而实现语言模型的微调。通过采用自回归生成方法，我们提出的方法可以预测未来能源负载消耗的各个范围。通过对现实世界数据集的广泛实验，我们证明了我们提出的方法的有效性和准确性。

GROOViST: A Metric for Grounding Objects in Visual Storytelling
Authors Aditya K Surikuchi, Sandro Pezzelle, Raquel Fern ndez
对为一系列图像生成的故事进行正确评估（通常称为视觉讲故事的任务）必须考虑多个方面，例如连贯性、语法正确性和视觉基础。在这项工作中，我们重点评估接地程度，即故事与图像中显示的实体有关的程度。我们分析当前的指标，这些指标都是为此目的和一般视觉文本对齐而设计的。鉴于观察到的缺点，我们提出了一种新颖的评估工具 GROOViST，它考虑了跨模态依赖性、时间错位（实体在故事中出现的顺序和图像序列可能不匹配的事实）以及人类对视觉基础的直觉。

ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers
Authors Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He
量化技术对于减少深度神经网络推理的内存和计算需求至关重要。现有的解决方案（例如 ZeroQuant）为 BERT 和 GPT 等模型提供动态量化，但忽略了关键的内存有限运算符和每个令牌量化的复杂性。为了解决这些差距，我们提出了一种新颖的、完全硬件增强的鲁棒优化后训练 W8A8 量化框架，ZeroQuant HERO。该框架独特地集成了内存带宽和计算密集型运算符，旨在实现最佳硬件性能。

Large Language Models as Generalizable Policies for Embodied Tasks
Authors Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev
我们表明，大型语言模型法学硕士可以适应具体视觉任务的通用策略。我们的方法称为大型语言模型强化学习策略 LLaRP，采用预先训练的冻结 LLM 来将文本指令和视觉自我中心观察作为输入，并直接在环境中输出动作。通过强化学习，我们训练 LLaRP 仅通过环境交互来观察并采取行动。我们证明 LLaRP 对于任务指令的复杂释义具有鲁棒性，并且可以推广到需要新颖的最佳行为的新任务。特别是，在 1,000 个未见过的任务上，它实现了 42 的成功率，是其他常见学习基线或法学硕士零样本应用成功率的 1.7 倍。最后，为了帮助社区研究语言条件、大规模多任务、具体化人工智能问题，我们发布了一个新颖的基准——语言重排，其中包含 150,000 个语言条件重排的训练任务和 1,000 个测试任务。

From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI
Authors Alex Kim, Maximilian Muhn, Valeri Nikolaev
我们探索 ChatGPT 等生成式人工智能工具在帮助投资者揭示企业风险维度方面的价值。我们开发并验证公司层面的政治、气候和人工智能相关风险敞口衡量标准。使用 GPT 3.5 模型根据财报电话会议记录提供的背景生成风险摘要和评估，我们表明基于 GPT 的措施拥有重要的信息内容，并且在预测异常公司水平波动以及投资和创新等公司选择方面优于现有风险措施。重要的是，风险评估中的信息主导着风险摘要中的信息，从而确立了一般人工智能知识的价值。我们还发现，生成式人工智能可以有效地检测新兴风险，例如近几个季度飙升的人工智能风险。我们的措施在 GPT 培训窗口内外都表现良好，并且在股票市场上定价。

CodeFusion: A Pre-trained Diffusion Model for Code Generation
Authors Mukul Singh, Jos Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen
想象一下，一个只能更改最后一行代码的开发人员，他们需要多久才能从头开始编写函数才能正确从自然语言生成代码的自动回归模型也有类似的限制，他们不允许重新考虑早期的标记生成的。我们引入了 CodeFusion，这是一种预先训练的扩散代码生成模型，它通过迭代地对基于编码自然语言的完整程序进行去噪来解决此限制。我们针对 Bash、Python 和 Microsoft Excel 条件格式 CF 规则的自然语言到代码生成任务来评估 CodeFusion。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com