【AI视野·今日NLP 自然语言处理论文速览第七十二期】Mon, 8 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 8 Jan 2024
Totally 17 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
Authors DeepSeek AI Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Zhe Fu, Huazuo Gao, Kaige Gao, Wenjun Gao, Ruiqi Ge, Kang Guan, Daya Guo, Jianzhong Guo, Guangbo Hao, Zhewen Hao, Ying He, Wenjie Hu, Panpan Huang, Erhang Li, Guowei Li, Jiashi Li, Yao Li, Y.K. Li, Wenfeng Liang, Fangyun Lin, A.X. Liu, Bo Liu, Wen Liu, Xiaodong Liu, Xin Liu, Yiyuan Liu, Haoyu Lu, Shanghao Lu, Fuli Luo, Shirong Ma, Xiaotao Nie, Tian Pei, Yishi Piao, Junjie Qiu, Hui Qu, Tongzheng Ren, Zehui Ren, Chong Ruan, Zhangli Sha, Zhihong Shao, Junxiao Song, Xuecheng Su, Jingxiang Sun, Yaofeng Sun, Minghui Tang, Bingxuan Wang, Peiyi Wang, Shiyu Wang, Yaohui Wang, Yongji Wang, Tong Wu, Y. Wu, Xin Xie, Zhenda Xie, Ziwei Xie, Yiliang Xiong, Hanwei Xu, R.X. Xu, Yanhong Xu, Dejian Yang, Yuxiang You, Shuiping Yu, Xingkai Yu, B. Zhang, Haowei Zhang, Lecong Zhang, Liyue Zhang, Mingchuan Zhang, Minghua Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Qihao Zhu, Yuheng Zou
开源大型语言模型法学硕士的快速发展确实令人瞩目。然而，之前文献中描述的缩放法则提出了不同的结论，这给法学硕士的缩放定律蒙上了一层阴影。我们深入研究了缩放定律，并提出了我们独特的发现，这些发现有助于在两种常用的开源配置（7B 和 67B）中缩放大型模型。在缩放定律的指导下，我们推出了 DeepSeek LLM，这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段，我们开发了一个数据集，目前包含 2 万亿个令牌，并且正在不断扩展。我们进一步在 DeepSeek LLM Base 模型上进行监督微调 SFT 和直接偏好优化 DPO，从而创建 DeepSeek Chat 模型。我们的评估结果表明，DeepSeek LLM 67B 在各种基准上都超过了 LLaMA 2 70B，特别是在代码、数学和推理领域。

Fast and Optimal Weight Update for Pruned Large Language Models
Authors Vladim r Bo a
由于其规模巨大，修剪大型语言模型法学硕士是一项具有挑战性的任务。主要的困难是在剪枝后对模型进行微调，这是为了恢复因权重下降而造成的性能损失。最近的方法要么完全忽略微调，专注于有效的修剪标准，要么尝试分层权重更新，保留每层的行为。

Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks
Authors Kevin Everson, Yile Gu, Huck Yang, Prashanth Gurunath Shivakumar, Guan Ting Lin, Jari Kolehmainen, Ivan Bulyko, Ankur Gandhe, Shalini Ghosh, Wael Hamza, Hung yi Lee, Ariya Rastrow, Andreas Stolcke
在口语理解 SLU 领域，通过向大型语言模型 LLM 提供转录语音而不是传统的书面文本，已经采用了许多自然语言理解 NLU 方法。在现实场景中，在输入 LLM 之前，自动语音识别 ASR 系统会生成输出转录假设，其中固有错误可能会降低后续 SLU 任务的性能。在这里，我们介绍一种利用 ASR 系统的点阵输出而不是仅仅依赖顶层假设的方法，旨在封装语音歧义并增强 SLU 结果。我们的情境学习实验涵盖了口语问答和意图分类，强调了法学硕士在来自格子的单词混淆网络的帮助下对嘈杂语音记录的适应能力，弥合了使用顶级 ASR 假设和预言机上限之间的 SLU 性能差距。

Introducing Bode: A Fine-Tuned Large Language Model for Portuguese Prompt-Based Task
Authors Gabriel Lino Garcia, Pedro Henrique Paiola, Luis Henrique Morelli, Giovani Candido, Arnaldo C ndido J nior, Danilo Samuel Jodas, Luis C. S. Afonso, Ivan Rizzo Guilherme, Bruno Elias Penteado, Jo o Paulo Papa
大型语言模型法学硕士越来越多地为自然语言处理带来进步。然而，资源匮乏的语言，即那些在各种 NLP 任务的数据集中缺乏广泛关注的语言，或者现有数据集不那么丰富的语言，例如葡萄牙语，已经从法学硕士中获得了一些好处，但程度不一。在多语言数据集上接受过培训的法学硕士通常很难对葡萄牙语的提示作出令人满意的回应，例如在他们的回应中呈现代码切换。这项工作提出了一个基于 LLaMA 2 的微调葡萄牙语提示模型，名为 Bode，有两个版本 7B 和 13B。我们使用零样本方法和上下文学习来评估该模型在分类任务中的性能，并将其与其他法学硕士进行比较。

DocGraphLM: Documental Graph Language Model for Information Extraction
Authors Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
视觉丰富文档理解 VrDU 的进步使得能够对具有复杂布局的文档进行信息提取和问答。受法学硕士和图神经网络的启发，出现了两种基于变压器的架构模型。在本文中，我们介绍了 DocGraphLM，这是一种将预先训练的语言模型与图语义相结合的新颖框架。为了实现这一目标，我们提出 1 一种联合编码器架构来表示文档，2 一种新颖的链接预测方法来重建文档图。 DocGraphLM 使用收敛联合损失函数来预测节点之间的方向和距离，该函数优先考虑邻域恢复并降低远处节点检测的权重。我们对三个 SotA 数据集的实验表明，通过采用图特征，IE 和 QA 任务得到了持续改进。

PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering
Authors Jinlong He, Pengfei Li, Gang Liu, Zixu Zhao, Shenjun Zhong
多模态大语言模型 MLLM 代表了传统大语言模型功能的进化扩展，使它们能够应对超越纯文本应用程序范围的挑战。它利用了先前在这些语言模型中编码的知识，从而增强了它们在多模式环境中的适用性和功能。最近的工作研究了 MLLM 的适应情况，以预测自由形式答案，作为解决医学视觉问答 Med VQA 任务的生成任务。在本文中，我们提出了一个参数有效的框架，用于专门针对 Med VQA 应用程序进行微调 MLLM，并在公共基准数据集上进行实证验证。为了准确测量性能，我们采用人工评估，结果表明我们的模型的总体准确度达到 81.9 ，并且在封闭式问题上的绝对准确度明显优于 GPT 4v 模型 26 的绝对准确度。

From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models
Authors Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui
本文介绍了通过 Scratchpad 和示例进行 RAISE Reasoning and Acting，这是一种高级架构，增强了 GPT 4 等大型语言模型 LLM 与会话代理的集成。 RAISE 是 ReAct 框架的增强版，包含双组件记忆系统，反映人类短期和长期记忆，以维持对话中的上下文和连续性。它需要一个全面的代理构建场景，包括对话选择、场景提取、CoT 完成和场景增强等阶段，最后进入法学硕士培训阶段。这种方法似乎增强了智能体在复杂的多轮对话中的可控性和适应性。我们在房地产销售环境中的初步评估表明，RAISE 比传统代理商具有一些优势，表明其具有更广泛应用的潜力。

German Text Embedding Clustering Benchmark
Authors Silvan Wehrli, Bert Arnrich, Christopher Irrgang
这项工作引入了一个评估不同领域中德语文本嵌入聚类性能的基准。该基准是由于在需要文本分组的任务（例如主题建模）中越来越多地使用聚类神经文本嵌入以及现有基准中对德语资源的需求而推动的。我们为一系列预训练的单语言和多语言模型提供了初步分析，这些模型根据不同聚类算法的结果进行评估。结果包括表现强劲的单语言和多语言模型。减少嵌入的维度可以进一步改善聚类。此外，我们还对德国 BERT 模型进行了持续预训练的实验，以估计这种额外训练的好处。我们的实验表明，短文本可以显着提高性能。

Unsupervised hard Negative Augmentation for contrastive learning
Authors Yuxuan Shu, Vasileios Lampos
我们提出了无监督硬负增强 UNA，一种基于词频逆文档频率 TF IDF 检索模型生成合成负实例的方法。 UNA 使用 TF IDF 分数来确定句子中术语的感知重要性，然后通过替换相关术语来生成负样本。我们的实验表明，使用 UNA 训练的模型提高了语义文本相似性任务的整体性能。当将 UNA 与释义增强相结合时，可以获得额外的性能增益。进一步的结果表明我们的方法与不同的骨干模型兼容。

MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance
Authors Renjie Pi, Tianyang Han, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
多模态大语言模型 MLLM 的部署带来了对通过视觉输入进行恶意攻击的独特脆弱性。我们深入研究了保护 MLLM 免受此类攻击的新挑战。我们发现图像充当对齐过程中未考虑的外语，这可能使 MLLM 容易产生有害的响应。不幸的是，与基于文本的法学硕士中考虑的离散标记不同，图像信号的连续性质提出了重大的对齐挑战，这给彻底覆盖可能的场景带来了困难。由于开源 MLLM 主要在有限的图像文本对上进行微调，而该图像文本对比基于广泛文本的预训练语料库少得多，这使得 MLLM 在显式对齐调整期间更容易灾难性地忘记其原始能力，这一事实加剧了该漏洞。为了应对这些挑战，我们推出了 MLLM Protector，这是一种即插即用策略，结合了轻量级伤害检测器和响应解毒器。危害检测器的作用是识别 MLLM 的潜在有害输出，而解毒器则纠正这些输出以确保响应符合安全标准。这种方法有效地减轻了恶意视觉输入带来的风险，同时又不影响模型的整体性能。

AFSPP: Agent Framework for Shaping Preference and Personality with Large Language Models
Authors Zihong He, Changwang Zhang
大型语言模型法学硕士的发展引入了研究人类行为模拟的新范式。最近的研究采用基于 LLM 的代理来创建社会学研究环境，其中代理根据大型语言模型的未过滤特征表现出行为。然而，这些研究忽视了类人环境中的迭代发展。人类的偏好和个性是复杂的，受到各种因素的影响，并且由于环境和主观影响而不断变化。根据这一观察，我们提出了塑造偏好和人格的代理框架AFSPP，探索社交网络和主观意识对基于法学硕士的代理偏好和人格形成的多方面影响。通过 AFSPP，我们首次成功复制了人类人格实验的几个关键发现。其他基于 AFSPP 的实验结果表明，计划制定、感官知觉和带有主观信息的社交网络对偏好塑造的影响最为显着。

Pheme: Efficient and Conversational Speech Generation
Authors Pawe Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vuli
近年来，语音生成取得了显着的进步，现在已经实现了一次生成能力，通常与真实的人声几乎无法区分。将语音生成方面的这些进步与大型语言模型相结合可能会彻底改变广泛的应用程序。然而，某些应用程序（例如辅助会话系统）需要自然且会话式的语音生成工具，并且这些工具还可以实时高效地运行。当前最先进的模型（例如 VALL E 和 SoundStorm）由分层神经音频编解码器提供支持，需要大型神经组件和大量训练数据才能正常工作。相比之下，MQTTS 旨在构建更紧凑的会话 TTS 模型，同时利用较小规模的现实生活会话语音数据。然而，其自回归性质会产生较高的推理延迟，从而限制了其实时使用。为了减轻当前最先进的 TTS 模型的局限性，同时利用其优势，在这项工作中，我们引入了 Pheme 模型系列，1 提供紧凑但高性能的模型，2 允许并行生成 3 种自然对话语音，4 它可以在较小规模的对话数据上进行有效训练，将数据需求减少 10 倍以上，但仍与自回归 TTS 模型的质量相匹配。我们还表明，通过简单的师生蒸馏，我们可以在预训练的 Pheme 检查点之上实现单扬声器设置的语音质量显着提高，仅依赖于更大的教师模型生成的合成语音。

Large Language Models in Plant Biology
Authors Hilbert Yuen In Lam, Xing Er Ong, Marek Mutwil
大型语言模型法学硕士（例如 ChatGPT）已经席卷全球，并通过了某些形式的图灵测试。然而，法学硕士并不局限于人类语言，还可以分析连续数据，例如 DNA、蛋白质和基因表达。由此产生的基础模型可以重新用于识别数据中的复杂模式，从而产生能够解释细胞系统的强大的多用途预测工具。这篇评论概述了法学硕士的不同类型，并展示了它们最近在生物学中的用途。

Complex systems approach to natural language
Authors Tomasz Stanisz, Stanis aw Dro d , Jaros aw Kwapie
该评论总结了从复杂性科学的角度研究自然语言所使用的主要方法论概念，并记录了它们在识别书面语言的普遍特征和系统特定特征方面的适用性。涵盖了定量语言学中与复杂性相关的三个主要研究趋势。第一部分解决文本中的词频问题，并证明考虑标点符号可以恢复缩放比例，而对于最常见的单词，经常会观察到违反齐普夫定律的情况。第二部分介绍受时间序列分析启发的方法，用于研究书面文本中的各种相关性。相关时间序列是基于将文本划分为连续标点符号之间的句子或短语而生成的。事实证明，这些系列开发了复杂系统生成的信号中常见的特征，例如长程相关性或多重分形结构。此外，标点符号之间的距离似乎符合威布尔分布的离散变体。在第三部分中，回顾了网络形式主义在自然语言中的应用，特别是在所谓的单词邻接网络的背景下。表征此类网络的拓扑的参数可用于文本分类，例如从文体测量的角度。网络方法也可以用于表示单词关联的组织。单词关联网络的结构与随机网络中观察到的结构显着不同，揭示了语言的真正属性。

MAMI: Multi-Attentional Mutual-Information for Long Sequence Neuron Captioning
Authors Alfirsa Damasyifa Fauzulhaq, Wahyu Parwitayasa, Joseph Ananda Sugihdharma, M. Fadli Ridhani, Novanto Yudistira
神经元标记是一种可视化特定神经元的行为和对激活神经元的特定模式的响应的方法。神经元标记提取有关深度神经网络中某些神经元捕获的特征的信息，其中之一使用编码器解码器图像字幕方法。使用的编码器可以是基于预训练的 CNN 模型，解码器是基于 RNN 的文本生成模型。之前的工作，即米兰互信息引导的神经元语言注释，尝试在编码器中使用修改后的 Show、Attend 和 Tell SAT 模型来可视化神经元行为，并在解码器中添加带有 Bahdanau 注意力的 LSTM。 MILAN 在短序列神经元字幕上可以表现出很好的结果，但是在长序列神经元字幕上却没有表现出很好的结果，因此在这项工作中，我们希望通过利用不同类型的注意力机制并额外添加来进一步提高 MILAN 的性能多个注意力机制合而为一，以结合多种注意力机制的所有优点。使用我们的复合数据集，我们在我们提出的模型上获得了更高的 BLEU 和 F1 分数，分别达到 17.742 和 0.4811。

Memory, Consciousness and Large Language Model
Authors Jitang Li, Jinzheng Li
随着认知科学和大型语言模型法学硕士的发展，这两个不同领域之间的联系越来越多。基于这些联系，我们提出了一个猜想，表明法学硕士和图尔文的记忆理论之间存在二元性。我们确定了图文检索的协同回显模型 SEM 与法学硕士中观察到的涌现能力之间的潜在对应关系，为我们的猜想提供了支持证据。此外，我们推测意识可能被认为是基于这种二元性的一种突现能力。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com