LLM时代NLP研究何去何从？一个博士生的角度出发

深度学习自然语言处理原创
作者：Winni

前言

最近，大语言模型（LLMs）在许多任务上表现出接近人类水平的性能，这引发了行业兴趣和资金投入的激增，有关LLMs的论文最近也层出不穷。

看起来，NLP领域似乎已被LLMs占满，这让一些研究者感到无所适从，尤其是那些刚入行的博士生们，他们可能会认为，“LLMs似乎已经解决了所有NLP的子任务！那我还能做些什么呢？”

事实上，NLP不仅仅是LLMs。NLP的应用远比简单地预测下一个词要广泛得多。此外，LLMs的训练需要大量数据和计算资源，这对于大多数研究者来说难以承担。

这篇论文是由美国某NLP研究实验室的成员撰写的，旨在探讨LLM时代NLP研究的未来。这些成员围绕一个问题进行了头脑风暴：除了LLMs的开发外，还有哪些有趣的、不依赖于付费资源的研究领域适合作为博士论文的研究方向。（剧透一下：还有很多这样的研究领域！）

下面我们来介绍一下文中所提到的一些适合研究的有趣方向。

论文：A PhD Student’s Perspective on Research in NLP in the Era of Very Large Language Models
地址：https://arxiv.org/pdf/2305.12544.pdf
项目：https://bit.ly/nlp-era-llm

多语言模型/处理低资源语言

多语言模型是能够处理多种语言的模型，但开发多语言模型中，如何利用低资源语言仍然是一个主要挑战。因为低资源语言的训练数据有限。目前的方法包括数据增强、并行语料库挖掘和光学字符识别(OCR)等。

然而，最先进的机器翻译模型（如NLLB-200）在许多低资源语言（如非洲语言）上仍然表现较差。即使是ChatGPT在马拉地语、巽他语和商务语等低资源语言上的翻译效果也很差。此外，ChatGPT在低资源语言到英语的翻译中表现相当好，但在英语到低资源语言的翻译中表现不佳。

研究方向

在当前低资源的语言基准上（如FLORES-200）改进机器翻译性能。针对资源极低的语言，可以利用圣经（世界上翻译最多的文档）等现有文本作为开发机器翻译系统的起点。此外，手动创建平行语料库和利用构词法模型开发翻译词典等方法也是重要的研究路径。
提高适用于所有语言的多语言模型的性能。目前的多语言模型在各种语言上的表现不一致，需要进一步探索多语言模型需要的数据量以及在哪种语言组合上能够实现相似的性能。此外，通过cross-lingual projection和利用现有的机器翻译系统，将模型架构转移到其他语言也是一个研究方向。
Code-switching。Code-switching是指说话者在不同语言之间切换的现象，这种训练数据很难获得。目前的研究重点包括LLMs是否可以生成这类数据，探索LLMs在不同语言组合上的泛化能力以及在区分高度相似语言（如同一母语下的不同方言）上的学习能力。

LLMs的推理能力

NLP中的推理对于问答、阅读理解和对话系统等任务至关重要，因为它可以增强模型在未知场景中的泛化能力。从基于规则和符号的方法到概率模型和机器学习算法的统计方法，NLP研究经历了巨大变化。近年来，深度学习和神经网络彻底改变了这一领域，在各任务上取得了先进性能。然而，要实现类似人类的推理和泛化能力仍面临挑战。

研究方向

稳健的形式推理。形式推理一直是一个具有挑战性的任务，LLMs远未完全掌握数值推理等形式推理、逻辑推理和因果推理任务。为此，研究人员致力于探索结合神经网络和符号人工智能的优势，例如通过集成计算器、python程序、数据库知识检索或搜索引擎，提升模型在形式推理方面的准确性和鲁棒性。
在现实世界中的推理。由于NLP模型的训练主要依赖于与文本世界的交互，因此在推理过程中缺乏现实世界经验的基础。这可能导致模型在生成响应时缺乏实际可行性或考虑不到现实约束。为了解决这一问题，研究人员正在探索整合外部知识来源、多模态数据或模拟现实世界场景的方法，以提升模型的推理能力。
社会环境中的负责任推理。模型将需要做出复杂的决策，其中包括道德推理。例如，在创建网站时，可能需要考虑一些道德选择，如迎合特定的亚群体，或过度优化用户注意力或点击率。在理解或提高AI系统在不同社会背景和文化背景下对社会复杂和道德相关的场景进行推理的能力方面，还有很多需要研究的地方。
正式定义推理，设计合适的评价框架。当前的挑战之一是，如何定义LLMs的推理？当模型记住一个推理模式时，我们应该将其视为推理技能还是对知识的掌握？除此之外，我们还面临着如何测试模型推理能力的问题。数据污染、古德哈特定律（一旦数据集被利用就无法反映技能）以及缺乏可靠的评估指标来评估多步推理等问题仍待解决。
提示如何帮助推理？有两种类型的提示对于提升推理能力非常有价值：in-context learning和思维链（CoT）。然而，LLMs到底是在进行真正的推理，还是仅仅生成统计上相似的序列，以及AI系统在多大程度上可以从几个示例中学习推理，这些问题仍存在争议。

知识库

知识库从现实世界抽象出概念、实体及其关系，在许多应用中发挥着重要作用，例如关系提取和机器阅读。当前的LLMs在内部知识方面仍存在局限性。无论是一般知识、特定领域知识都存在限制。此外，LLMs经常会出现幻觉，根据错误的事实提出主张。虽然基于人类反馈的强化学习（RLHF）可以减轻这个问题，但幻觉问题仍然是模型固有的。通过结合知识库改进模型的输出，可以减少幻觉，使用户更容易验证主张的正确性。

研究方向

Knowledge-guided LLM。为了解决幻觉问题，可以将经过验证的知识与LLMs的回复进行结合。已经有研究人员尝试使用DialogGPT等系统来检索或生成知识，以增强生成的回应。Bing等搜索引擎也会在回答问题之前进行网络查询。然而，如何有效地与定制的外部知识库进行交互仍然是一个待解决的问题。
自动构建知识库。许多应用程序可以从专门的知识库中受益。自动构建这类知识库是一个有趣的研究方向，但也面临着许多挑战，如知识覆盖范围、知识真实性、知识链接等。在构建医疗保健或化学等专业领域的知识库时，这些挑战会更加突出。然而，一旦这些问题得到解决，研究人员将能够利用LLMs动态地管理来自最新原始文本和复杂应用本体的知识库，例如跟踪来自PubMed文章的药物相互作用。
一般和文化常识。NLP模型中可用的文化知识通常仅限于少数西方文化，无法涵盖世界文化观点的多样性。随着NLP应用的广泛传播，这种限制可能直接影响用户，因为它没有考虑到用户的价值观、信仰和世界观。此外一个主要的开放研究方向是如何获取和表达编码这些文化观点的知识，以及何时和如何调用这些文化知识。

Language Grounding

Language Grounding是语言与世界（可以是物理的或非物理的）的事物或经验联系起来的能力，如TextWorld等文字游戏。该领域的探索主要利用多模态数据构建数据集和任务。视觉问答、图像和视频字幕、文本到图像检索以及文本到图像/视频生成等流行任务已经取得了重要进展。越来越多的多模态模型（如GPT-4）不断扩大其训练语料库，并增加音频等多样输入的支持。

尽管GPT-4展示了令人印象深刻的zero-shot性能，超越了大多数微调但规模较小的多模态模型，但它们也存在一些成本与限制。首先，它们缺乏对世界的真正理解，无法具备领域知识，在现实生活中的应用有一定局限性。其次，这些模型往往难以解释，我们难以理解其生成新数据时的不可靠行为，如幻觉问题。最后，由于昂贵的计算资源需求，只有少数大学和机构能够负担得起适当使用这些模型。

研究方向

有效结合多种模态。如何最佳地整合音频、视频、文本等不同模态仍然是一个待解决的问题。不同模态通常相互补充（例如，手势可以辅助口头表达），从而减少对大量数据的依赖。然而，在某些情况下，不同模态可能会相互竞争，一些研究表明，在特定情况下单模态模型优于多模态模型。
较少研究的模态。大部分研究都集中在视觉、文本或音频模态上。然而，在Language Grounding的背景下，较少研究的模态，如生理、感觉或行为，对于多种应用具有重要价值，例如测量驾驶员的警觉性、抑郁检测或欺骗行为检测。
在现实世界和不同领域中的应用。大部分研究都基于在实验室环境中收集的数据，或者基于室内活动（如电影或烹饪）的图像和视频数据。在现实世界和户外环境中Grounding的研究相对较少。此外，将这些模型应用于不同领域（如机器人、医学、导航、教育和可访问性）需要适应使用较少的数据点或不同类型的数据，并结合领域专业知识以更好地理解外部环境。

网络环境中的NLP

网络环境中的NLP可分为两个对立的现象：内容生成和审核。内容的快速生成得到了广泛支持，但也存在制造假新闻和虚假信息的风险，需要及时审核和监管。通过使用NLP来监控和分析用户生成的内容，可以保持在线生态系统的平衡。

然而，内容生成和审核仍然存在一些问题。在生成方面，需要识别潜在的恶意操纵。在审核方面，现有的审核模型仍然不够透明、准确、可问责和理解。此外，构建用于检测不需要的内容的模型面临分类困难、数据标注耗时和学术数据集不足等挑战。

研究方向

检测和揭穿在线错误信息。NLP系统可以帮助事实核查员减缓误导性内容的传播。同时，需要发展低资源和跨语言的NLP系统来帮助解决错误信息问题。多模态处理和社交网络分析（例如谁喜欢或转发了该内容）也可提高错误信息检测效果。
确保多样化的代表性。随着LLMs的普及，需要注意防止网络上的声音过度集中，特别是边缘化群体的代表性。
避免过度审核。内容审核技术应考虑到不同群体和文化环境中的细微差异，以确保公平性。同时，需要关注政府对在线讨论话题的限制，维护言论自由。
识别生成内容背后的涉众。随着机器生成内容的增加，识别值得信任的信息将变得更加具有挑战性。发展NLP模型以识别生成内容背后的利益相关者及其利益类型，如商业利润或政治利益，是一个有希望的方向。

儿童语言习得和LLM之间的联系

儿童语言习得作为一个基线，在通往高效AGI的道路上具有重要意义。儿童通过有限的互动和观察就能掌握多种语言，而不需要海量训练文本。研究探索LLMs与儿童语言习得之间的联系，并借鉴统计学习的背景。这一领域的发展对于低资源和濒危语言具有广泛的影响。

然而，要实现这一研究还存在许多挑战，由于研究儿童的困难性，包括招募和伦理审查委员会对数据收集的限制。儿童无法有效地交流，往往只能获得有限的数据，这限制了实验的设计和数据的表达能力。在儿童语言研究中，通常需要父母的参与，以确保孩子专注于实验并遵循指导。此外，难以控制实验对象也导致难以控制混杂变量。

研究方向

样本高效的语言学习。对样本高效语言学习进行基础和理论研究，并开发更高效的NLP工具，是十分必要的。一个相关方向是设定样本高效语言学习的基线，以推动数据效率方面的进展。
儿童语言习得的基准发展。简化和扩展子语言基准的构建，利用大型视频数据集进行控制实验，培养专门为儿童学习语言设计的模型，以深入理解儿童语言使用和开发更有效学习模型的方式。
语言模型作为儿童语言习得的生物学模型。将NLP模型视为生物模型，探索人类婴儿语言习得的理论。利用现有数据集和新的基准以及强大的语言模型，进行实验研究，分析语言习得过程，获得关于儿童语言习得的新见解，如音位级习得和内在奖励机制等。

非语言交流

非语言交流是一种重要的人际交流形式，包括手势、面部表情、肢体语言和姿势等。最近的研究强调将非语言信息与语言表征相结合，以获得更丰富的表征。理解非语言模式和语言之间的一致性仍然是一个未解决的问题，特别是考虑到这些模式的不同特点和解释的挑战。例如，在手语研究中，仍需解决许多问题，包括手语数据集的构建和有效计算模型的开发。

研究方向

非语言信息的表征。非语言交际的多个子领域需要对非语言信息进行表示、离散化和解释的研究。需要找到适用于不同模式、上下文和文化的理想表征集，以实现面部表情和手势的解释并确保在不同模式下的一致性。
手语的理解、生成和翻译。手语词汇和语料库的发展对于训练和评估计算模型至关重要。理解手语的挑战包括手势的高度可变性和其他非手动特征的影响，如面部表情、身体姿势和眼睛注视。同时，手语生成的研究旨在提高手语交流的流畅性和表达力，涉及同一手语使用者之间、使用不同手语的人以及口头和手语同时存在的情况。
有效的语言和非语言沟通。在沟通过程中，语言和非语言信号都应该被综合考虑。建立能够理解和解释语言和非语言信号的联合模型是AI辅助通信的长期目标。研究问题包括语言模型的发展以及有效的融合方法，以实现同时进行语言和非语言交流的大型联合模型。

合成数据集

当传统的人类数据收集变得不可行、昂贵或存在隐私问题时，在NLP研究中通常需要使用合成数据。随着生成模型的发展，合成数据生成已经在各个领域得到了广泛应用。例如，用于低资源语言的反向翻译、语义解析、意图分类、结构化数据生成或医学对话生成等方面都有相关的例子。如果需要在特定领域进行适应，通常需要对模型进行预训练，并通过提示模型生成数据集，然后使用自动或专家验证的方式评估生成数据集的质量。

然而，使用合成数据也面临一些挑战。其中包括数据质量控制困难（由于缺乏文本生成的评估指标）、缺乏多样性、数据生成模型中存在的潜在偏差，以及数据生成模型固有的限制，例如难以捕捉远程依赖关系。

研究方向

知识蒸馏。研究如何将LLM的知识转移到较小的模型中。这个任务可以通过将LLM的输出用作合成示例来实现，这种方法可以转换或控制生成的数据的特性。研究者们还尝试使用微调的模型来过滤质量，并使用更小、更集中的模型来模拟LLM的行为（如Alpaca）。
控制生成的数据属性。目前的方法是通过提供自然文本规范和示例来控制生成数据的属性。然而，优化这些提示通常是基于试错，而且指定属性可能不够准确或存在噪声。因此，开发鲁棒、可控和可复制的合成数据生成范式仍然是一个待解决的研究问题。
转换现有的数据集。关注如何通过对现有数据集进行各种修改来创建新的数据集，同时保持数据的语义不变。常见的转换方法包括格式更改、情态转换和风格转换，以实现不同样式的数据生成，如将文本从一种写作风格转换为另一种风格。

NLP的可解释性

可解释性是理解和解释机器学习模型决策过程的任务，旨在增加其透明性和合理性，以促进可信的NLP实践。过去的NLP系统，如基于规则的方法、隐马尔可夫模型和逻辑回归等，被认为是可解释的白盒技术。然而，NLP的最新进展主要是黑盒方法，以可解释性为代价。为了解决这个问题，研究人员开始关注开发能够揭示NLP模型内部工作原理的技术。这些技术包括注意机制、基于规则的系统和可视化方法。

当前的NLP可解释性研究主要集中在理解模型的预测、特征重要性和决策过程等方面。注意力机制、LIME和SHAP等技术提供了对模型行为的洞察。然而，在健壮性、普遍性和伦理考虑等方面仍存在挑战。此外，可解释性方法通常缺乏标准化，难以处理复杂的大型模型，限制了它们在实际场景中的应用。

研究方向

探索模型内部表征。研究NLP模型的内部表征，以揭示其推理能力和潜在偏差，并探索模型对语言的探测任务和世界知识的捕获。
机制解释性。研究模型中的潜在机制和算法，以揭示其决策过程，并通过提取计算子图和逆向工程整个深度神经网络来实现机制解释性。
Human-in-the-loop提高可解释性。结合人的反馈和专业知识来提高模型的可解释性，促进透明度和信任，并识别和解决偏见和道德考虑。
基于引用生成的文本。通过附加引用和显示额外推理步骤，为生成模型的输出提供可靠的来源，以提高可解释性和用户信任度。

高效的NLP

为了应对不断扩大的语言模型规模和不断增长的资源消耗所带来的挑战，我们需要探索高效的NLP。扩大模型规模被认为是实现NLP任务最先进性能的基本方法，但这需要大量能源和财政资源，引发了对AI碳足迹和NLP产品开发经济负担的担忧。在数据管理、模型设计和训练范例方面，我们仍有很大的改进空间。通过处理数据重复、提高数据质量和管理大量数据，可以提高数据效率。在模型设计方面，提高注意机制效率、开发无参数模块减少参数量、优化模型深度或效率是主要挑战。最后，在训练范例方面，有机会通过promot和微调提高NLP效率。

研究方向

数据的效率。通过删除重复、冗余或噪声数据，以更少的数据项提高性能。目前的工作主要关注去除噪声示例和无用数据，但对于庞大的语料库或原始web数据管理，需要更有效的数据重复删除方法。
模型设计。改进注意力机制来提高模型效率的方法已经被广泛研究，但在处理非常长的上下文建模方面仍存在挑战。稀疏模型可以通过增加宽度来增加表达性，同时降低计算量。基于Transformer的模型的前馈层中应用混合专家架构也是一种值得尝试的实践。
高效的下游任务适应。通过微调预训练模型来适应下游任务的有效方法已经被提出，其中包括prompt tuning和prefix tuning等技术。然而，需要找到一种高效的自动提示构建方法，以提高下游任务的适应性。

面向教育的NLP

NLP在教育领域的应用涵盖了多个方面，如语言学习应用程序、语法纠正工具、评分辅助工具、课程和评估开发工具以及教育研究人员的工具。近年来，随着BERT、RoBERTa等模型的发布，研究人员开始探索这些模型在教育领域的应用，并逐渐引入更大规模的模型。目前，许多在教育领域部署的NLP应用是在广泛使用大型语言模型之前开发的。随着进一步的研究和发展，我们很可能会看到基于大型语言模型的任务特定模型在教育领域得到大规模应用。

研究方向

可控文本生成。可控的文本生成技术可以用于个性化的学习体验。例如，通过自动生成与学生兴趣相关的故事来引入新术语，或者根据学生的阅读水平修改故事内容。此外，阅读理解方面的研究也可以应用于基于学生先前经验和测试结果的个性化学习体验。
教育解释生成。个性化的课堂材料可以包括针对学生理解困难的解释。例如，使用NLP系统帮助学生理解学术论文中复杂的句子，或者改写老师给出的答案，以提供与学生知识体系相关的解释。自动评分也是NLP在教育领域做出贡献的一个领域，但仍存在着为不完美的分数提供解释的研究问题。
智能辅导系统。智能辅导系统在个性化教育方面具有巨大的潜力。NLP方法可以用于生成针对性的练习题，并解释学生在各个学科领域的错误。随着NLP技术的进一步发展，这些系统可能会得到改进。然而，部署NLP技术在教育中需要谨慎，因为即使对于简单的问题，NLP模型也可能给出错误的答案和解释。

需要注意的是，由于学术不诚实的可能性增加，教育界对于大型语言模型的接受度存在一定的担忧。因此，大学和课程制定了政策来规范人工智能在教育中的使用。我们对于最近的进展在适当情况下对教育产生积极影响持乐观态度，但整体课程如何调整以纳入大型语言模型的应用仍需观察。

面向医疗保健的NLP

在医疗保健领域，NLP的应用可以分为对医疗服务提供者和关键利益相关者的影响进行分类。对于医疗服务提供者而言，NLP主要用于支持临床决策，包括汇总和整合现有数据和研究，以及从数据中提取相关信息。然而，这些任务面临着一些挑战，例如医疗保健数据的标准化和准确标记，以及提取和检索医疗概念和患者病情分类。此外，NLP还用于回答患者的健康相关问题和检索与医疗或疾病相关的信息。近年来，该领域的研究主要集中在心理健康领域的语言分析，包括专业治疗和社交媒体对话。在协助公共卫生官员方面，NLP被应用于公共卫生监测，用于确定疾病、风险因素或高危人群。此外，NLP还用于缓解网络上的错误信息或公众情绪等问题。

然而，NLP在医疗保健领域存在一些明显的局限性。其中之一是缺乏高质量、带注释的临床数据。临床数据对于开发临床决策工具至关重要，但由于隐私和道德问题，通常无法公开获取。此外，目前的工作主要集中在英语或其他高资源语言，对于少数语言的研究相对较少。同时，缺乏对基于NLP的卫生系统的人类评估也是一个挑战，因为现有的自动评估指标并不能充分说明患者的结果。

研究方向

医疗保健基准构建。在医疗保健领域，需要构建更多的基准数据集，以支持各种任务的研究和开发。由于医疗数据的隐私限制，可能需要探索使用合成数据集、数据增强技术或以低资源语言和领域为基础生成新的卫生数据集的方法。此外，对于已有的基准数据集，还需要进行评价和质量评估的研究。
NLP用于临床决策。NLP系统可以用作头脑风暴和决策工具，帮助医疗专家进行评估和决策过程。它们可以合成新的医学知识，并将其提供给医疗从业人员。此外，将一般医学知识与个人患者信息结合起来需要新的知识集成策略。由于临床决策的高风险性，NLP系统的可靠性和可解释性至关重要，以提供清晰的推理过程。
药物发现。NLP方法可以从大量的科学文献、专利、社交媒体、临床记录和其他生物医学来源中提取和分析信息。研究方向包括药物-靶标相互作用的识别和优先排序、新候选药物的发现、化合物性质的预测以及药物设计的优化。此外，新的NLP方法可以帮助识别新的药物靶标关联，并促进更有效的药物再利用工作。

NLP的道德/伦理问题

目前研究致力于解决双重使用、公平性和隐私等关键伦理问题。除此之外，近期LLM的使用和应用还存在其他伦理关注点，包括版权缺失、模型解释性差、技能退化、劳动力市场的破坏、模型误用和模型不适用等。

研究方向

双重使用。许多NLP应用可能既具有积极影响，又可能被以有害方式使用。需要通过在部署前进行讨论和在部署后进行数据调查来确定NLP模型和应用的潜在危害。此外，开发能够检测、抑制和防止有害使用的NLP系统，如事实核查器，至关重要。对抗性NLP也可以用于探索NLP系统的局限性和漏洞，以提高其鲁棒性。
公平性。需要方法来评估NLP模型的公平性，并检测和减少偏见。这包括研究数据集创建实践及其与模型偏见的相关性。研究应该探讨是否通过对数据集创建提出更严格的要求，可以减少模型在偏见数据上训练或评估时可能加剧的偏见和不平等。
隐私保护。需要新的技术来识别和匿名化敏感用户信息，同时保持数据在分析和决策中的实用性。这包括差分隐私、联邦学习和安全多方计算等方法，以确保NLP驱动的医疗应用中患者数据的机密性和安全性。此外，NLP系统可以对数据政策产生影响，可以开发NLP方法来以用户可理解的格式总结数字产品的数据政策，并确保模型与这些政策保持一致。
机器生成数据的版权和检测。在NLP模型生成内容时，开发NLP模型可以使用的版权标准方法至关重要。需要确定所有权和权利的问题，特别是在领域如编程或创意写作中将LLM纳入工作流程。
将NLP模型作为人类助手而非人类替代品进行整合.可以利用NLP模型进行人类培训应用，改善人类的拼写、写作和阅读理解能力。

结语

这篇论文关注的研究领域可以分成三类：首先，有一些领域因为要求太多数据或者缺乏推理和基础能力，LLMs无法解决。其次，还有一些领域由于缺乏适合的数据，也不能充分利用LLMs的能力。最后，还有一些领域可以为提升LLMs的能力和质量做出贡献。需要注意的是，作者没有列出那些LLMs在信息提取、问答和文本摘要等方面表现稍显落后的领域。而且，作者也没有深入研究LLM开发的方向，因为这方面已经有很多研究论文在关注了。

当然啦，除了以上介绍的研究领域，还有很多其他领域也值得我们深入挖掘。如果你有什么有趣的研究想法，欢迎在评论区与大家一起讨论噢！

进NLP群—>加入NLP交流群