前言
第 19 届 CNCC 于2022年12月8-10日召开,本届大会为期三天,首次采取全线上举办形式,主题为“算力、数据、生态”,重点在保持多样性、聚焦热点前沿话题、平衡学术界和产业界参与等维度展开讨论。大会由CCF会士、中国科学院院士、国防科技大学教授王怀民担任主席,共设有 14 个特邀报告、3 场大会论坛、118 个涉及 30 多个领域方向的技术论坛以及特色活动,共有图灵奖获得者、田纳西大学教授Jack Dongarra,中国科学院院士、北京航空航天大学计算机学院教授钱德沛,中国科学院院士、西安交通大学教授管晓宏,中国工程院院士、北京邮电大学教授张平等七百余位计算领域讲者作报告。本文对本次大会中NLP相关的两个报告进行下述总结。
报告1——少标注NLP讨论
目前主流的自然语言处理模型均高度依赖大规模标注数据,然而由于自然语言处理任务具有标注难度高、任务种类多、领域差异大且层出不穷等特点,导致针对特定任务的标注数据量往往较少。因此,研究如何基于少量标注数据构建高精度自然语言处理系统具有重要意义。但是由于自然语言处理还具有知识的依赖性、表示的符号性、任务的多样性等特点,使得现有少标注学习方法在面向自然语言处理问题时往往显得力不从心。本论坛将邀请多位自然语言处理专家,就少标注自然语言处理理论以及方法的最新研究进展、未来发展方向进行深入探讨。
本报告由哈尔滨工业大学的车万翔教授主持,共有4场子报告,分别由西湖大学张岳教授、浙江大学陈华钧教授、清华大学刘知远教授和复旦大学邱锡鹏教授主讲。
-
第一场报告中,张岳老师提到语言模型在跨域场景下的鲁棒性问题,首次尝试使用提示学习(Prompt Learning)做命名实体识别工作,此外,使用数据增广的方式可以大大提升模型在同分布和跨分布场景下的小样本学习能力。
在本报告结束后,车万翔老师提出一个模型能力跃迁的问题:大模型是否会自动处理OOD等问题?张岳老师表示这一问题值得持续关注。
个人思考:语言模型在训练过程中如果找到Shortcut,就会投机取巧,泛化性则相应下降,那是不是对于安全性较低(如容易植入后门)的模型,根据其泛化性可以对其进行识别?
-
第二场报告中,陈华钧老师围绕知识图谱(Knowledge Graph)与低资源学习(Low Resource Learning)两个概念延伸出 LRL4KG 以及 KG4LRL 两大任务,并针对 KG4LRL 场景总结为:大样本靠机器学习,小样本靠知识推理,由此可见知识在低资源场景下的重要性。
-
第三场报告中,刘知远老师围绕“Delta Tuning:大模型的小参数高效微调”这一主题,针对“预训练+微调”这一范式,对 Fine-tuning 与 Prompt-learning 的区别进行对比,就如何在小范围微调参数的前提下将大模型更好地应用于下游任务展开报告。
关于OpenDelta相关工作,具体论文见:Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models(arXiv, 2022)
-
第四场报告中,邱锡鹏老师以“语言模型及服务”(Language Model as a Service,LMaaS)展开报告,主要有两个挑战:(1)构建一个适用于所有nlp任务的模型,即 One Model Fits All 任务(2)设计不同微调方法,如报告中提到的y-Tuning、Black Box-Tuning等研究工作。
相关论文:
- Y \mathcal{Y} Y-Tuning: An Efficient Tuning Paradigm for Large-Scale Pre-Trained Models via Label Representation Learning(arXiv, 2022)
- Black-Box Tuning for Language-Model-as-a-Service(ICLR, 2022)
本场报告中,几位老师都不约而同提到了大模型时代,知识对于语言模型的重要性。语言模型的训练离不开支知识的加持,在语言模型尤其是大规模模型发展过程中,大量知识的支撑是必不可少的,这也是大势所趋。
报告2——现代文本摘要技术研究
近些年来预训练语言模型的出现极大推动了自然语言处理领域的进步,文本摘要作为自然语言处理领域最经典任务之一,又发生了哪些技术变革?事实一致性、低资源成为新的研究热点;同时,谷歌、亚马逊等互联网公司相继推出面向不同领域的在线摘要服务,为摘要技术的发展建立了新的应用场景,科研人员也对科学文献、对话等全新领域掀起了新的探索热潮。 本次“现代文本摘要技术研究”论坛即是希望针对摘要技术最新问题进行研讨,也是希望在大模型技术加持下,摘要任务如何构建具有其自身特色的科学问题和方法模型深入挖掘。为此,特邀五位嘉宾从多个维度入手,分别就:自然语言生成技术、科学文献摘要、摘要的事实一致性研究、对话摘要和低资源文本摘要技术等几方面进行交流探讨。
本报告由哈尔滨工业大学的秦兵教授和北京大学的万小军教授共同主持,共有5场子报告,分别由清华大学黄民烈教授、百度肖欣延博士、哈尔滨工业大学冯骁聘教授、北京理工大学高扬副教授和中国人民大学严睿副教授主讲。
-
第一场报告中,黄民烈老师以ChatGPT开篇,就“自然语言生成的未来”展开报告。大纲如下:
-
NLG 挑战和机遇
- 挑战:
- 难以提高模型性能
- 模型的时效性(模型迭代加快)
- 资源和时间成本递增
- 机遇:
- 新的任务、应用场景
- 新的生成方法
- 挑战:
-
Universal LM(预训练语言模型的理解)
- Understanding:探索预训练语言模型学到的知识,便于更好地完成下游任务
- Universality:模型的可解释性——为何预训练语言模型能够适配很多下游任务
- Reliability:Prompt的探索,选择最佳的prompt
-
长文本生成:面临问题包括(1)可控性(2)重复(3)连贯性(4)冲突
-
非自回归生成(Non-Autoregressive Text Generation,NATG):生成的文本同时解码,推断速度加快,而且无暴露偏差,更灵活的解码方式
未来方向:机器翻译 ➡️ 通用文本生成如对话生成 -
Evaluation(文本生成的评估)
-
总结:
- 生成模型大规模线上部署面临两大瓶颈:(1)算力消耗(2)解码速度
- 安全性和可控性问题有待解决:检测算法、生成更安全
-
此处推荐试玩小程序“AI乌托邦”,人格化AI创建引擎
-
第二场报告中,百度肖欣延老师就“面向事实一致性的可靠文本生成”为主题展开报告。事实一致性即可靠性,未来展望:可靠文本生成与评测方法。
-
第三场报告中,冯骁聘老师就 “知识指导的对话摘要技术研究”为主题展开报告。关于对话摘要,产业界已有一些落地应用如 Google:Conversation Summary & Amazon:Call Summarization & Microsoft:Call Summarization & Headroom:Meeting Summarization.
对话摘要 = 对话理解 + 摘要生成。对话摘要示例:输入文本:
输出文本:
与传统的文本摘要任务不同,对话摘要面临对话为源内容,数据稀缺、对话建模、场景理解等挑战。此外,报告中提到主题漂移现象,即对于输入的长对话文本,可能具有多个主题,这时首先需要对主题进行提炼。未来方向:多模态、多领域、多语言、可靠性对话摘要
-
第四场和第五场报告中,高扬老师和严睿老师分别就 “面向低资源的文本摘要生成技术”和“Learning towards Abstractive Text Generation”为主题展开报告。由于这两个报告介绍的研究工作比较具象,没有详细记录。
此外,在大会的其他报告中了解到一个概念:MLOps,MLOps 是 Machine Learning Operations 的缩写,是一门工程学科,旨在统一 ML 系统开发(dev)和 ML 系统部署(ops),以标准化过程生产高性能模型的持续交付。详细介绍参见这篇博客。
参考资料
- 2022 中国计算机大会(CNCC 2022)
- 2022 中国计算机大会(CNCC 2022) 大会手册
- 揭秘大模型背后的机理,清华49页长文全方位分析参数高效微调方案Delta Tuning - 腾讯云开发者社区-腾讯云 (tencent.com)
- “语言模型即服务”必读论文 - 知乎 (zhihu.com)