大模型时代的自然语言处理：挑战、机遇与发展

来源：专知‍‍

近期发布的 ChatGPT 和 GPT-4 等大型语言模型, 不仅能高质量完成自然语言生成任务, 生成流畅通顺, 贴合人类需求的语言, 而且具备以生成式框架完成各种开放域自然语言理解任务的能力. 在少样本, 零样本场景下, 大模型可取得接近乃至达到传统监督学习方法的性能, 且具有较强的领域泛化性, 从而对传统自然语言核心任务产生了巨大的冲击和影响. 本文就大模型对自然语言处理的影响进行了详细的调研和分析, 试图探究大模型对自然语言处理核心任务带来哪些挑战和机遇, 探讨大模型将加强哪些自然语言处理共性问题的研究热度, 展望大模型和自然语言处理技术的未来发展趋势和应用. 分析结果表明, 大模型时代的自然语言处理依然大有可为. 我们不仅可以将大模型作为研究方法和手段, 学习, 借鉴大型语言模型的特点和优势, 变革自然语言处理的主流研究范式, 对分散独立的自然语言处理任务进行整合, 进一步提升自然语言核心任务的能力; 还可就可解释性, 公平性, 安全性, 信息准确性等共性问题开展深入研究, 促进大模型能力和服务质量的提升. 未来, 以大模型作为基座, 拓展其感知, 计算, 推理, 交互和控制能力, 自然语言处理技术将进一步助力通用人工智能的发展, 促进各行各业的生产力进步, 更好地为人类社会服务。

https://www.sciengine.com/SSI/doi/10.1360/SSI-2023-0113

1 引言

2022 年 11 月 30 日, OpenAI 发布了对话式语言大模型 (ChatGPT1), Chat Generative Pretrained Transformer). 该模型允许用户使用自然语言对话形式进行交互, 可实现包括自动问答, 文本分类, 自动文摘, 机器翻译, 聊天对话等各种自然语言理解和自然语言生成任务. ChatGPT 在开放域自然语言理解上展现了出色的性能, 甚至无需调整模型参数, 仅使用极少数示例数据即可在某些任务上超过了针对特定任务设计并且使用监督数据进行训练的模型. 当面对用户所提出的各种文本生成任务时, ChatGPT 在多数情况下可以生成出通畅通顺, 有逻辑性且多样化的长文本.

ChatGPT 自发布以来引起了广泛的关注, 仅在 5 天内注册用户就超过了 100 万. 据雅虎财经2)统计, 在 ChatGPT 推出仅两个月后, 月活跃用户已达 1 亿, 相比之下, 之前一直被认为是用户增长速度最快的消费级应用程序 Tiktok 则花费了 9 个月的时间. 稍后不久, 微软于 2023 年 2 月 8 日推出了新一代 AI 驱动搜索引擎 New Bing3) , 该引擎将基于 ChatGPT 技术的生成模型与 Bing 搜索深度集成, 创造了对话式搜索的新范式. 2023 年 3 月 14 日, OpenAI 发布了下一代生成式多模态预训练大模型 GPT-44) , 它不仅能够理解自然语言文本, 还能够对图片内容进行深度理解, 并且具备比 ChatGPT 更强的问题求解和推理能力, 在多种人类考试和自然语言理解任务中取得了更加优秀的成绩 [1].

长期以来, 自然语言处理任务主要采用监督学习范式, 即针对特定任务, 给定监督数据, 设计统计学习模型, 通过最小化损失函数来学习模型参数, 并在新数据上进行模型推断. 随着深度神经网络的兴起, 传统的统计机器学习模型逐渐被神经网络模型所替代, 但仍然遵循监督学习的范式. 2020 年 5 月 Open AI 发布的首个千亿参数 GPT-3 模型初步展示了生成式模型的强大功能, 其具备流畅的文本生成能力, 能够撰写新闻稿, 模仿人类叙事, 创作诗歌, 初步验证了通过海量数据和大量参数训练出来的大模型能够迁移到其他类型的任务 [2]. 然而, 直到 ChatGPT 的出现, 学术界才意识到大模型对于传统自然语言处理任务范式的潜在颠覆性.

以 ChatGPT 为代表的大型语言模型, 给自然语言处理带来的是威胁, 挑战还是新的机遇? 今后的自然语言处理核心任务将采用何种主流范式实现语言理解和生成? 自然语言处理的研究领域将如何延伸? 以大模型为代表的自然语言处理技术将如何引领通用人工智能的发展? 我们就大模型对自然语言处理的影响进行了详细的调研和思考, 试图分析大模型对自然语言处理核心任务带来的冲击和启发, 探讨大模型将加强哪些自然语言处理共性问题的研究热度, 展望大模型和自然语言处理技术的未来发展和应用, 以期回答上述问题.

2. 背景知识

在探讨大模型给自然语言处理带来的挑战和机遇之前, 我们首先需要介绍相关的背景知识, 包括自然语言处理的概念和研究历史, 大规模预训练语言模型从语言模型, 预训练模型到大模型的技术发展历程, 以及 ChatGPT 和 GPT-4 的基本技术与能力。

3 大模型时代的自然语言处理核心任务

自然语言处理包含自然语言理解和自然语言生成两个方面, 常见任务包括文本分类, 结构分析 (词法分析, 分词, 词性标注, 句法分析, 篇章分析), 语义分析, 知识图谱, 信息提取, 情感计算, 文本生成, 自动文摘, 机器翻译, 对话系统, 信息检索和自动问答等. 在神经网络方法出现之前, 因为缺乏行之有效的语义建模和语言生成手段, 自然语言处理的主流方法是基于机器学习的方法, 采用有监督分类, 将自然语言处理任务转化为某种分类任务. 在神经网络时代, Word2Vec 词嵌入模型, BERT 等上下文相关语言模型为词语, 句子乃至篇章的分布式语义提供了有效的建模手段; 编码器-解码器架构和注意力机制提升了文本生成的能力; 相比传统自然语言处理所遵循的词法-句法-语义-语篇-语用分析级联式处理架构, 端到端的神经网络训练方法减少了错误传播, 极大提升了下游任务的性能. 不过, 神经网络方法仍然遵循监督学习范式, 需要针对特定任务, 给定监督数据, 设计深度学习模型, 通过最小化损失函数来学习模型参数. 由于深度学习也是一种机器学习方法, 因此从某种程度上, 基于神经网络的方法和基于机器学习的方法并无本质区别.

然而, 不同于通常的深度学习方法, 以 ChatGPT 为代表的生成式大模型, 除了能高质量完成自然语言生成类任务之外, 还具备以生成式框架完成各种开放域自然语言理解任务的能力. 只需要将模型输出转换为任务特定的输出格式, 无需针对特定任务标注大量的训练数据, ChatGPT 即可在少样本乃至零样本上, 达到令人满意的性能, 甚至可在某些任务上超过了特别设计并使用监督数据进行训练的模型. 因此, ChatGPT 对各种自然语言处理核心任务带来了巨大的, 不可避免的冲击和影响, 也酝酿着新的研究机遇. 接下来, 针对各种自然语言处理核心任务, 我们将首先介绍其任务需求和主流方法, 然后分析大模型对其主流研究范式所带来的影响, 并探讨未来研究趋势.

文本分类
结构化预测
语义分析
知识图谱与文本信息抽取
情感计算
文本生成
自动文摘
机器翻译
对话系统
信息检索
自动问答

ChatGPT 等大型语言模型, 对文本分类, 结构分析, 语义分析, 信息提取, 知识图谱, 情感计算, 文本生成, 自动文摘, 机器翻译, 对话系统, 信息检索和自动问答各种核心的自然语言理解和生成任务均产生了巨大的冲击和影响. ChatGPT 在大规模预训练过程中习得广泛的语言和世界知识, 处理自然语言任务时不仅能在少样本, 零样本场景下接近乃至达到传统监督学习方法的性能指标, 且具有较强的领域泛化性. 这将激励, 促进研究者们打破固有思维方式的樊篱, 学习, 借鉴 ChatGPT 等大模型的特点和优势, 对自然语言处理的主流研究范式进行变革, 进一步提升自然语言核心任务的能力, 例如以生成式框架完成各种开放域自然语言处理任务并减少级联损失, 通过多任务学习促进知识共享, 通过扩展上下文窗口提升理解能力, 通过指令遵循和上下文学习从大模型有效提取信息, 通过思维链提升问题拆解和推理能力, 通过基于人类反馈的强化学习实现和人类意图对齐等. 长期以来, 自然语言处理分为自然语言理解和自然语言生成两个领域, 每个领域各有多种核心任务, 每种任务又可根据任务形式, 目标, 数据等进一步细分, 今后在各种应用任务的主流架构和范式逐渐统一的情况下, 有望进一步得到整合, 以增强自然语言处理模型的通用性, 减少重复性工作. 另一方面, 基于大模型的强大基座能力, 针对具体任务进行按需适配, 数据增强, 个性化, 拟人交互, 可进一步拓展自然语言处理的应用场景, 为各行各业提供更好的服务.

4 大模型时代的自然语言处理共性问题

在自然语言处理研究领域中, 除了各种核心任务之外, 还有可解释性, 公平性, 安全性, 可靠性, 能耗, 数据质量和评价等一些共性问题. 这些问题不是某种任务所特有的, 而是广泛存在于各种自然语言理解和生成任务中. 围绕这些共性问题进行针对性研究, 分析其成因和机理, 设计应对措施, 对确保自然语言处理任务的性能, 效率, 稳定性和领域适用性至关重要. 大模型自身同样存在着自然语言处理的共性问题, 如模型可控性, 多样性, 鲁棒性和可解释性仍需提升, 训练和使用成本过高, 语言数据质量缺乏保障, 评价方法单一等. ChatGPT 的一项亮点技术是 “与人类意图对齐”, 其目的除了理解用户意图之外, 还需要拒绝不合理的请求, 给出负责的, 合乎人类道德准则和伦理规范的答案. 由于大模型的结构复杂, 参数庞大, 生成过程难以解释, 生成文本时经常面临幻觉生成, 错误知识, 前后不一致等问题, 人们对于从系统获取信息的准确性无从感知, 给系统的广泛实际应用带来了极大的潜在风险. 因此, 如何提升模型的公平性, 无害性, 有益性和鲁棒性, 确保大模型拥有正确的价值观, 保障大模型生成内容的信息准确性变得愈发重要. 随着以 GPT-3 为代表的大模型技术逐渐发展, 模型的参数数量, 计算时延, 训练所需的资源等都在显著增加. 在语言建模能力不断增长的同时, 模型的计算成本与能耗指标也成为当前大模型成功应用的一大门槛. 大规模高质量文本数据资源在模型的构建过程中扮演了极其重要的作用, 训练数据规模越大, 种类越丰富, 质量越高, 所得到的大规模语言模型的性能越好, 而训练数据中的瑕疵数据, 可能会对模型的表现产生负面影响; 相较于以前的单一类型或少数任务驱动的基准评测, 针对大规模语言模型的评测需覆盖的问题场景范围更广, 复杂度更高, 难度也更大, 需要探索更有效合理的任务评价指标. 总之, 这些由大模型所强化的真实需求, 将极大地加强模型分析和可解释性, 伦理问题与安全性, 信息准确性, 计算成本与能源消耗, 数据资源和模型评价等各种共性问题的研究热度.

5 讨论

前两节我们探讨了大模型对各种自然语言理解和生成核心任务将带来哪些冲击和影响, 分析了大模型将如何加强自然语言处理共性问题的研究. 本节首先将聚焦大模型自身, 探究如何从模型规模, 学习方法, 个性化等角度进一步提升大模型的内在能力; 其次, 从工具学习, 多模态, 具身智能的角度, 讨论如何进一步延伸和扩展大模型的感知, 计算, 推理, 交互和控制能力, 使大模型成为通用人工智能的基座; 最后, 介绍 ChatGPT 等大型语言模型将催生哪些应用场景, 为各行各业带来哪些自然语言处理新应用.

6 总结与展望

综上所述, ChatGPT 等大型语言模型, 对传统自然语言处理核心任务产生了巨大的冲击和影响. 这些核心任务普遍遵循监督学习范式, 需要针对特定任务, 给定监督数据, 设计和定制机器学习和深度学习模型. 相比之下, 利用 ChatGPT 完成自然语言处理任务, 不仅能在少样本, 零样本场景下接近乃至达到传统监督学习方法的性能指标, 且具有较强的领域泛化性. 虽然如此, 面对大型语言模型所带来的冲击, 研究者们完全无需产生 “自然语言处理已经不存在了” 等悲观情绪. 首先, ChatGPT 等对话式大模型, 并非横空出世, 而是沿着神经语言模型的发展路线, 利用海量算力, 基于大规模高质量文本数据所实现的大型全注意力模型. 未来研究者们能够将大模型作为研究方法和手段, 更能够学习, 借鉴生成式无监督预训练, 多任务学习, 上下文学习, 指令遵循, 思维链, 基于人类反馈的强化学习等大型语言模型的特点和优势, 进一步提升自然语言核心任务的能力.

大模型为自然语言处理带来了架构通用化, 任务统一化, 能力按需化, 模型定制化等变化趋势. 今后在各种自然语言理解和生成任务的主流架构和范式逐渐统一的情况下, 一方面，各种自然语言处理任务有望进一步得到整合, 以增强自然语言处理模型的通用性, 减少重复性工作; 另一方面, 基于大模型的强大基础能力, 针对具体任务进行按需适配, 数据增强, 模型压缩与轻量化, 跨模态和多模态融合, 加强自然语言处理模型方法的可控性, 可配性, 领域适应性, 多样性, 个性化和交互能力, 将进一步拓展自然语言处理的应用场景.

大模型时代的自然语言处理, 存在算法模型的可解释性, 公平性, 安全性, 可靠性, 能耗, 数据质量和评价等一些共性问题, 这些问题也是妨碍大模型能力提升和服务质量的主要因素. 未来, 针对模型分析和可解释性, 伦理问题与安全性, 信息准确性, 计算成本与能源消耗, 数据资源和模型评价等各种自然语言处理共性问题的研究将越来越深入.

自然语言处理是人工智能的重要组成部分, 是人工智能从感知智能上升到认知智能的主要手段. ChatGPT 的出现, 已经打开了通向通用人工智能的大门. 未来, 以大模型作为基座, 利用工具学习, 多模态融合, 具身智能拓展其感知, 计算, 推理, 交互和控制能力, 自然语言处理技术将进一步助力通用人工智能的发展, 促进各行各业的生产力进步, 更好地为人类社会服务.

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”