EMNLP 2023 获奖论文公布，大模型、NLP等领域火爆

EMNLP是计算语言学和自然语言处理领域顶级国际会议之一，属于CCF B类，是由 ACL 下属的SIGDAT小组主办的NLP领域顶级国际会议，一年举办一次。相较于ACL，EMNLP更偏向于NLP在各个领域解决方案的学术探讨。

今年的EMNLP 2023 已于2023年12 月 6 日 - 10 日在新加坡举行。本次大会公布了最佳长论文奖、最佳短论文奖、杰出论文奖、最佳Demo奖等奖项，包含了今年爆火的ChatGPT 大模型、NLP 概念领域。

我这次帮大家整理了今年EMNLP 2023的获奖论文，并且做了简单的介绍，原文及源码需要的同学看文末

最佳长论文

标题：Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

一种理解上下文学习的信息流视角

作者：Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun

「简述：」论文在信息流视角下探讨了大型语言模型（LLMs）的上下文学习（ICL）机制。研究结果表明，演示示例中的标签词作为锚点，在浅层计算层处理过程中，语义信息聚集到标签词表示中；标签词中整合的信息作为LLMs最终预测的参考。基于这些发现，作者引入了一种锚点重新加权方法来提高ICL性能，一种演示压缩技术来加快推理，以及一种用于诊断GPT2-XL中ICL错误的框架。这些有希望的应用再次验证了未被发现的ICL工作机制，并为未来的研究铺平了道路。

最佳短论文

标题：Faster Minimum Bayes Risk Decoding with Confidence-based Pruning

基于置信度剪枝的更快最小贝叶斯风险解码

作者：Julius Cheng, Andreas Vlachos

「简述：」对于某些效用函数来说，最小贝叶斯风险（MBR）解码器会输出模型分布中期望效用最高的假设。据显示，与束搜索相比，它在条件语言生成问题中提高了准确性，特别是在神经机器翻译中、在人类和自动评估中都是如此。然而，标准采样算法对于MBR的计算量要远大于束搜索，需要大量的样本以及二次调用效用函数，限制了其适用性。本文描述了一种MBR算法，该算法在逐步增加用于估计效用的样本数量的同时，根据Bootstrap抽样获得的置信度估计修剪不太可能有最高效用的假设。

杰出论文奖

标题：Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents

作为重新排名代理调查大型语言模型

作者：Weiwei Sun, I ingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren, Zbumin Chen, Dawei Yin,Zhaochun Ren

「简述：」ChatGPT等大型语言模型在各种语言相关任务中表现出色，包括搜索引擎。它们不仅可以生成文本，还可以进行信息检索和段落排名。本文首先调查生成式LLM（如ChatGPT和GPT-4）在IR中的相关性排名，在适当的指导下，这些模型甚至可以在流行的信息检索基准上提供与最新监督方法相当甚至更好的结果。此外，为了解决数据污染问题，作者收集了一个新的测试集，以验证模型对未知知识的排名能力。最后，作者提出了一种方法，通过使用排列消融方案，将大型语言模型的排序能力精简为小型专业模型，以提高实际应用的效率。这些小型模型在BEIR基准上的性能优于更大的监督模型。

标题：SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization

百万级对话蒸馏与社交常识情境化

作者：Hyunwoo Kim, Jack Hessel, Liwei Jiang, Peter West, Ximing Lu, Youngjae Yu, Pei Zbou,Ronan Le Bras, Malibe Alikhani, Gunbee Kim, Maarten Sap, Yejin Choi

「简述：」SODA是一个公开的百万级高质量社交对话数据集，解决了开放领域社交对话数据稀缺的问题。它使用知识图谱获取社交常识知识，并从大型语言模型中提取广泛的社会互动。与以前的数据集相比，SODA中的对话更一致、更具体、更自然。使用SODA，作者训练了COSMO，一个可泛化的对话模型，在未观察到的数据集上比表现最佳的对话模型更自然、更一致。实验表明，COSMO有时甚至比原始人类编写的金标准响应更受欢迎。

标题：LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers

一种结合语言模型和一阶逻辑证明器进行逻辑推理的神经符号方法

作者：Theo X. Olausson, Alex Gu, Ben Lipkin, Cedeao E. Zhang Armando Solar-Lezama,Joshua B. Tenenbaum, Roger P. Levy

「简述：」LINC是一种用于逻辑推理的将语言模型与一阶逻辑证明相结合的神经符号方法。这种方法将逻辑推理任务重新表述为模块化神经符号编程，使大型语言模型能够更有效地进行这种推理。通过将自然语言翻译成一阶逻辑表达式，并使用外部定理证明器进行演绎推理，LINC在FOLIO和ProofWriter等数据集上取得了显著的性能提升。与GPT-3.5和GPT-4的思维链提示相比，LINC在ProofWriter上的得分高出38％和10％。这种方法的结合使用LLM和符号证明器可以解决自然语言逻辑推理的问题。

最佳论文 Demo

标题：PaperMage: A Unified Toolkit for Processing, Representing, and Manipulating Visually-Rich Scientific Documents

用于处理、表示和操作视觉丰富的科学文献的统一工具包

作者：Kyle Lo, Zejiang Shen, Benjamin Newman, Joseph Chee Chang, Russell Authur, Erin Bransom, Stefan Candra, Yoganand Chandrasekhar, Regan Huff, Bailey Kuehl, Amanpreet Singh, Chris Wilhelm, Angele Zamarron, Marti A. Hearst, Daniel S. Weld, Doug Downey, Luca Soldaini

「简述：」尽管自然语言处理（NLP）和计算机视觉（CV）模型在学术领域的应用越来越受到关注，但科学文献仍然具有挑战性。它们通常以难以使用的PDF格式存在，并且用于处理它们的模型生态系统是分散和不完整的。作者介绍了PaperMage，一个用于处理和操作视觉丰富、结构化的科学文档的开源Python工具包。它整合了最先进的NLP和CV模型，提供了一站式解决方案，简化了文本和视觉文档元素的表示和操作。PaperMage已经为多个研究原型的人工智能应用程序提供了动力，并被用于处理数百万个PDFs的大规模生产系统。

最佳主题论文

标题：Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition

通过全球规模的提示黑客竞赛暴露LLM的系统漏洞

作者：Sander Schulhoff,Jeremy Pinto,Anaum Khan,Louis-François Bouchard,Chenglei Si,Svetlina Anati,Valen Tagliabue,Anson Kost,Christopher Carnahan,Jordan Boyd-Graber

「简述：」大型语言模型越来越常被用在和用户直接交流的场景中，比如聊天机器人和写作助手。但是，这些模型很容易受到提示注入和越狱等攻击，即黑客操纵模型忽略原有指令，执行恶意指令。为了解决这个问题，作者发起了一个全球范围的提示黑客攻击比赛，收集了大量针对最先进LLM的攻击性提示。我们发现，这些模型确实可以被黑客操纵。作者还建立了一个全面的本体类型，描述各种攻击性提示。

最佳行业论文

标题：Personalized Dense Retrieval on Global Index for Voice-enabled Conversational Systems

基于全局索引的语音对话系统中的个性化密集检索

作者：Masha Belyi, Charlotte Dzialo, Chaitanya Dwivedi,Prajit Reddy Muppidi, Kanna Shimizu

「简述：」论文提出了一种新的方法，用于改进语音控制的AI对话系统中的实体检索。这种方法可以抵抗语音变化和实体解析不清的干扰。它不局限于根据用户历史交互构建的个性化索引，而是将用户的收听偏好嵌入到检索中使用的上下文查询嵌入中。这使得模型能够更准确地预测实体，并且在实体检索任务上的表现比基线提高了91%。此外，作者还优化了这种方法，使其适应在线延迟的约束，同时保持性能的提升。