参会记录|2022 CNCC 中国计算机大会参会总结

前言

第 19 届 CNCC 于2022年12月8-10日召开,本届大会为期三天,首次采取全线上举办形式,主题为“算力、数据、生态”,重点在保持多样性、聚焦热点前沿话题、平衡学术界和产业界参与等维度展开讨论。大会由CCF会士、中国科学院院士、国防科技大学教授王怀民担任主席,共设有 14 个特邀报告、3 场大会论坛、118 个涉及 30 多个领域方向的技术论坛以及特色活动,共有图灵奖获得者、田纳西大学教授Jack Dongarra,中国科学院院士、北京航空航天大学计算机学院教授钱德沛,中国科学院院士、西安交通大学教授管晓宏,中国工程院院士、北京邮电大学教授张平等七百余位计算领域讲者作报告。本文对本次大会中NLP相关的两个报告进行下述总结。

CNCC 2022 中国计算机大会


报告1——少标注NLP讨论

目前主流的自然语言处理模型均高度依赖大规模标注数据,然而由于自然语言处理任务具有标注难度高、任务种类多、领域差异大且层出不穷等特点,导致针对特定任务的标注数据量往往较少。因此,研究如何基于少量标注数据构建高精度自然语言处理系统具有重要意义。但是由于自然语言处理还具有知识的依赖性、表示的符号性、任务的多样性等特点,使得现有少标注学习方法在面向自然语言处理问题时往往显得力不从心。本论坛将邀请多位自然语言处理专家,就少标注自然语言处理理论以及方法的最新研究进展、未来发展方向进行深入探讨。

本报告由哈尔滨工业大学的车万翔教授主持,共有4场子报告,分别由西湖大学张岳教授、浙江大学陈华钧教授、清华大学刘知远教授和复旦大学邱锡鹏教授主讲。

  • 第一场报告中,张岳老师提到语言模型在跨域场景下的鲁棒性问题,首次尝试使用提示学习(Prompt Learning)做命名实体识别工作,此外,使用数据增广的方式可以大大提升模型在同分布和跨分布场景下的小样本学习能力。

    在本报告结束后,车万翔老师提出一个模型能力跃迁的问题:大模型是否会自动处理OOD等问题?张岳老师表示这一问题值得持续关注。

    个人思考:语言模型在训练过程中如果找到Shortcut,就会投机取巧,泛化性则相应下降,那是不是对于安全性较低(如容易植入后门)的模型,根据其泛化性可以对其进行识别?

  • 第二场报告中,陈华钧老师围绕知识图谱(Knowledge Graph)与低资源学习(Low Resource Learning)两个概念延伸出 LRL4KG 以及 KG4LRL 两大任务,并针对 KG4LRL 场景总结为:大样本靠机器学习,小样本靠知识推理,由此可见知识在低资源场景下的重要性。

  • 第三场报告中,刘知远老师围绕“Delta Tuning:大模型的小参数高效微调”这一主题,针对“预训练+微调”这一范式,对 Fine-tuning 与 Prompt-learning 的区别进行对比,就如何在小范围微调参数的前提下将大模型更好地应用于下游任务展开报告。

    关于OpenDelta相关工作,具体论文见:Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models(arXiv, 2022)

  • 第四场报告中,邱锡鹏老师以“语言模型及服务”(Language Model as a Service,LMaaS)展开报告,主要有两个挑战:(1)构建一个适用于所有nlp任务的模型,即 One Model Fits All 任务(2)设计不同微调方法,如报告中提到的y-Tuning、Black Box-Tuning等研究工作。

    相关论文:

本场报告中,几位老师都不约而同提到了大模型时代,知识对于语言模型的重要性。语言模型的训练离不开支知识的加持,在语言模型尤其是大规模模型发展过程中,大量知识的支撑是必不可少的,这也是大势所趋。


报告2——现代文本摘要技术研究

近些年来预训练语言模型的出现极大推动了自然语言处理领域的进步,文本摘要作为自然语言处理领域最经典任务之一,又发生了哪些技术变革?事实一致性、低资源成为新的研究热点;同时,谷歌、亚马逊等互联网公司相继推出面向不同领域的在线摘要服务,为摘要技术的发展建立了新的应用场景,科研人员也对科学文献、对话等全新领域掀起了新的探索热潮。 本次“现代文本摘要技术研究”论坛即是希望针对摘要技术最新问题进行研讨,也是希望在大模型技术加持下,摘要任务如何构建具有其自身特色的科学问题和方法模型深入挖掘。为此,特邀五位嘉宾从多个维度入手,分别就:自然语言生成技术、科学文献摘要、摘要的事实一致性研究、对话摘要和低资源文本摘要技术等几方面进行交流探讨。

本报告由哈尔滨工业大学的秦兵教授和北京大学的万小军教授共同主持,共有5场子报告,分别由清华大学黄民烈教授、百度肖欣延博士、哈尔滨工业大学冯骁聘教授、北京理工大学高扬副教授和中国人民大学严睿副教授主讲。

  • 第一场报告中,黄民烈老师以ChatGPT开篇,就“自然语言生成的未来”展开报告。大纲如下:

    • NLG 挑战和机遇

      • 挑战:
        1. 难以提高模型性能
        2. 模型的时效性(模型迭代加快)
        3. 资源和时间成本递增
      • 机遇:
        1. 新的任务、应用场景
        2. 新的生成方法
    • Universal LM(预训练语言模型的理解)

      • Understanding:探索预训练语言模型学到的知识,便于更好地完成下游任务
      • Universality:模型的可解释性——为何预训练语言模型能够适配很多下游任务
      • Reliability:Prompt的探索,选择最佳的prompt
    • 长文本生成:面临问题包括(1)可控性(2)重复(3)连贯性(4)冲突

    • 非自回归生成(Non-Autoregressive Text Generation,NATG):生成的文本同时解码,推断速度加快,而且无暴露偏差,更灵活的解码方式
      未来方向:机器翻译 ➡️ 通用文本生成如对话生成

    • Evaluation(文本生成的评估)

    • 总结:

      • 生成模型大规模线上部署面临两大瓶颈:(1)算力消耗(2)解码速度
      • 安全性和可控性问题有待解决:检测算法、生成更安全

此处推荐试玩小程序“AI乌托邦”,人格化AI创建引擎

AI乌托邦,人格化AI创建引擎

  • 第二场报告中,百度肖欣延老师就“面向事实一致性的可靠文本生成”为主题展开报告。事实一致性即可靠性,未来展望:可靠文本生成与评测方法。

  • 第三场报告中,冯骁聘老师就 “知识指导的对话摘要技术研究”为主题展开报告。关于对话摘要,产业界已有一些落地应用如 Google:Conversation Summary & Amazon:Call Summarization & Microsoft:Call Summarization & Headroom:Meeting Summarization.
    开放式文本生成(按文本长度划分)
    对话摘要 = 对话理解 + 摘要生成。对话摘要示例:

    输入文本
    对话摘要输入文本
    输出文本
    对话摘要输出文本
    与传统的文本摘要任务不同,对话摘要面临对话为源内容,数据稀缺、对话建模、场景理解等挑战。此外,报告中提到主题漂移现象,即对于输入的长对话文本,可能具有多个主题,这时首先需要对主题进行提炼。

    未来方向:多模态、多领域、多语言、可靠性对话摘要

  • 第四场和第五场报告中,高扬老师和严睿老师分别就 “面向低资源的文本摘要生成技术”和“Learning towards Abstractive Text Generation”为主题展开报告。由于这两个报告介绍的研究工作比较具象,没有详细记录。


此外,在大会的其他报告中了解到一个概念:MLOps,MLOps 是 Machine Learning Operations 的缩写,是一门工程学科,旨在统一 ML 系统开发(dev)和 ML 系统部署(ops),以标准化过程生产高性能模型的持续交付。详细介绍参见这篇博客。


参考资料

  1. 2022 中国计算机大会(CNCC 2022)
  2. 2022 中国计算机大会(CNCC 2022) 大会手册
  3. 揭秘大模型背后的机理,清华49页长文全方位分析参数高效微调方案Delta Tuning - 腾讯云开发者社区-腾讯云 (tencent.com)
  4. “语言模型即服务”必读论文 - 知乎 (zhihu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40101.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在EXCEL中运行ChatGPT,从此不再需要记函数【二】

文章目录 目录 文章目录 序言 从此不需要在记函数 最后总结 序言 Excel是处理大量数据非常有用的工具。然而,找到并实施正确的公式有时可能是一个复杂和令人沮丧的经历。幸运的是,ChatGPT可以成为一个优秀的助手,帮助克服这些挑战。 借助…

chatgpt赋能Python-pycharm怎么关联

Pycharm怎么关联——提高Python开发效率的关键步骤 作为一名有10年Python编程经验的工程师,我深知在日常开发中如何提高Python的编程效率至关重要。而Pycharm则是Python领域最常用的IDE之一,其强大的代码编辑和调试功能,深受开发者的喜爱。 …

双色球(过滤历史数据+过滤连号+红球包含+篮球包含+大小分布)

1.彩票官网复制历史数据,存入文件 2.基本处理逻辑 1.红球组合 2.排除红球连号(自定义3、4、5、6个连续) 3.红蓝组合(自定义蓝球出现的可能,比如我想蓝号只出1或者12…) 4.解析历史数据,排除这些数据 5.定义大小分布,以一个数为中间数,大于他包含几个,小于他的包含几…

剧本杀游戏app开发

剧本杀游戏app开发通常会涉及以下技术: 开发语言:剧本杀游戏app可以使用各种编程语言进行开发,例如Java、Kotlin、Swift等。 游戏引擎开发:为了实现游戏过程中的角色扮演、对话、动画等效果,需要使用适当的游戏…

计算机SCI论文重复率高,有什么降重技巧? - 易智编译EaseEditing

不管是计算机还是其他的专业,论文重复率高,就要进行论文降重。 有一些简单的降重的技巧可以分享一下: “中英中”互换法 用翻译软件先翻译成英文, 再翻译回中文,之后手工修改润色一下, 这样换了一种表达句…

SCI论文重复率与降重

SCI论文重复率与降重 觉得有用的话,欢迎一起讨论相互学习~ 首先声明,个人自己经验和网上资料总结,部分文字和观点来自于网上,本人非营销号也没打广告,侵权删除,谢谢!审核的大凶弟再说我打广告我生气了! 我…

手机号码归属地查询,免费API

接口地址: https://api.kertennet.com/tool/phoneAttribution 返回格式: JSON 请求方式: GET 请求示例: https://api.kertennet.com/tool/phoneAttribution?phone1782016**** 接口完整地址:跳转 请求参数说明: 返回数据:

APISpace 手机号码归属地和运营商查询API

APISpace 的 中国手机号码归属地和运营商查询API,为您提供最新的中国移动、中国电信、中国联通所有手机号码归属地等功能, 输入手机号码至少前7位,可查该手机号码归属地、所属号段、手机卡类型。 手机号码归属地有三大作用: 代表…

通信模块——虚拟号码

虚拟号码 API 是一种可以让应用程序在不直接暴露真实手机号码的情况下进行短信、语音、验证码等通讯服务的技术。虚拟号码 API 允许开发人员通过 API 调用获取一个虚拟号码,然后使用此虚拟号码与用户进行通讯,保护用户的隐私信息。 虚拟号码 API 的主要…

chatgpt赋能python:如何从Python官网下载Python

如何从Python官网下载Python 如果你正在寻找一种简单又快速的方式来获取Python,那么前往Python官网就是一个不错的选择。Python官网向世界各地的用户提供了下载Python的途径,同时还提供了有关Python程序语言的资源和信息。如果你想了解如何从Python官网…

chatgpt赋能python:Python免费下载安装教程

Python免费下载安装教程 Python语言非常受欢迎,因为它易于学习,具有强大的功能和广泛的用途。如今,越来越多的人选择学习Python,这也是为什么我们要为您提供这个免费下载安装Python的指南。 1. 为什么选择Python Python是一种高…

chatgpt赋能python:Python下载流程:从安装到运行

Python下载流程:从安装到运行 作为一门流行的编程语言,Python为我们提供了强大的编程工具和丰富的库。如果你还没有体验过Python,那么这篇文章将带你了解从下载到运行Python的详细流程。 下载Python 想要在本地电脑上运行Python程序&#…

给大家做了一个Python 抖音机器人,可以在抖音上直接找到漂亮集美 ǃ

如何在抖音上找到漂亮小姐姐----抖音机器人 最近沉迷于抖音无法自拔,常常花好几个小时在抖音漂亮小姐姐身上。 为了高效、直接地找到漂亮小姐姐,我用 Python ADB 做了一个 Python 抖音机器人 Douyin-Bot。 特性 [x] 自动翻页[x] 颜值检测[x] 人脸识别…

字节跳动抖音推荐算法实习生一面凉经

面试大概50分钟 本来投的是头条开发岗位,不知为何被捞到了推荐算法岗位。多位推荐算法hr一直约我面试,说经历和他们部门契合。我从年底推到年后,最后答应面试,这也是读研以来第一次面试。大概是自己准备不充分,一面就…

抖音算法揭秘,百万粉丝的背后逻辑

抖音算法揭秘,百万粉丝的背后逻辑 抖音如何让上热门? 百度有百度的算法、微信有微信的算法、头条也头条的算法,算法是任何平台必不可少的机制,今天就来分享一下抖音的算法机制。 一、科普 算法是什么? 简单通俗的讲…

抖音算法机制,抖音算法规则,抖音算法逻辑

抖音是一个强运营的平台,官方对于抖音的把控很严,不像公众号一样对于运营者几乎处于放养的状态,也就是说,抖音上视频的播放量不是由粉丝决定的;抖音对平台实施的是“计划经济”,流量都是由官方负责分配的。…

抖音算法推荐机制详解

抖音算法推荐机制详解!(科普向) 众所周知抖音的流量分配是去中心化的,这种去中心化算法,让每个人都有机会爆红,可为什么别人几个粉玩抖音,就能轻松获得10w点赞?而你怒拍几十条也枉然? 抖音的…

算法视角揭秘抖音短视频如何实现精准推荐?为何能产生100w+

经常听身边的一些朋友感叹 “抖音有毒”,一刷就是几个小时,可想而知它的用户黏性有多强。 抖音的算法极具魅力,这个魅力在于,抖音的流量分配是去中心化的。 在公众号上,如果你的粉丝寥寥无几,那你发的内容…

抖音推荐机制算法,抖音算法推荐模式,抖音算法机制流程图

大家好!我是依然,不同的平台有不同的算法规则和玩法,抖音平台的算法规则是指引大家创作视频内容的风向标,也是打造爆款视频必不可少的入门钥匙。如果在创作内容的过程中忽略了这些算法规则和推荐机制,那么个账 号的建立和运营基本上是在白费功夫。 1.中心化 Vs去中心化 在…

今日头条、抖音推荐算法原理全文详解

点击上方“开发者技术前线”,选择“星标” 13:21 在看 真爱 来源:运营大叔 | 编辑:开发者前线可可 本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。 一、系统概览 推荐系统…