哈工大车万翔:ChatGPT时代,NLPer 的危与机

note

ChatGPT的诞生,源于研究者「暴力美学」的手段。

如果大胆预测,ChatGPT能火几年,我猜可能是2到3年的时间,到2025年大概又要更新换代了。

工业界相较于学术界拥有巨大优势。这种「AI 的马太效应」会造成胜者通吃的局面。更加危急的是,任务、甚至研究领域之间的壁垒被打破了,所有的问题都可以转化为一个「Seq2Seq」问题,计算机视觉等领域的研究者也会逐渐涌入该领域。

与搜索引擎时代类似,如果将 OpenAI 比作当年的 Google,国内也一定会出现 ChatGPT 时代的「百度」。在这之前,许多机构和企业都有机会放手一搏,做出自己的大模型。相较于其它领域的研究者,NLPer 的真正优势可能在于更加了解语言。

文章目录

  • note
  • 一、从NLPer视角大胆预测:ChatGPT还能火多久
  • 二、ChatGPT的核心技术
  • 三、NLP学术界如何应对ChatGPT的挑战

一、从NLPer视角大胆预测:ChatGPT还能火多久

自然语言处理领域的发展历史大致可以分为四个阶段:
基于规则的小规模专家知识(1950-1990)
浅层机器学习算法(1990-2010)
深度学习算法(2010-2017)
大规模预训练模型(2018-2023)

ChatGPT正是遵循着这样一条路,时间线上有一个有趣的预测,每一个阶段的发展的时间,大概是上一个阶段发展时间的一半,基于规则发展了40年,浅层学习做了20年,之后深度学习做了10年,所以预测大规模训练模型发展的时间是5年,恰好到2022年底2023年初,产生了ChatGPT,以及GPT-4即将发布,标志着一个时代的结束。如果大胆预测,ChatGPT能火几年,我猜可能是2到3年的时间,到2025年大概又要更新换代了。当然这是半开玩笑的说法。

在这里插入图片描述
大规模预训练模型依赖于大模型,大数据、大算力。以 GPT-3 为例,该模型在没有经受过任何特定任务训练的情况下,可以通过样例学习完成十余种文本生成任务。
在这里插入图片描述
然而,相较于 ChatGPT,OpenAI 两年前发布的GPT-3 并没有引起如此之大的关注度。究其原因,其中之一可能是该模型缺乏知识推理能力,可解释性也欠佳。该模型的原始论文指出,该模型在「故事结尾选择」任务上的能力比哈工大丁效老师等人所提出的具有知识推理能力的模型性能低 4.1%。GPT-3 此类预训练语言模型在深层次语义理解能力上与人类认知水平还有很大差距。

为了解决该问题,一些研究者考虑向模型中引入知识;另一些研究者则采取「暴力美学」的手段,并发展出了如今的 ChatGPT。

在这里插入图片描述
如上图所示,ChatGPT 的效果惊艳,不仅能够给出正确的答案,还具有一定的可解释性。

在这里插入图片描述
ChatGPT 的成功本质上反映了人们对知识的表示和调用方式产生了重大变革。

在关系型数据库时代,符号化的知识表示精度很高,但是需要使用 SQL 语句调用,较为复杂且不自然,代表性的应用为 DBMS,代表公司为Oracle和微软。

在互联网时代,知识以文字、图像、音频、视频等形式存在,我们通过输入查询关键词来调用知识,代表性的应用为搜索引擎,这个阶段代表公司有谷歌和微软。

在大模型时代,知识表示为大模型及其参数,大模型相当于一个知识库,其知识表示精度较低。在 GPT-3 刚出现时,尽管蕴含大量的知识,但是其调用方式并不自然(构建 Prompt)。ChatGPT 则实现了使用自然语言指令调用知识,这种知识的表示和调用方式是一种根本性的变革。代表公司为OpenAI,微软谷歌以及百度等国内公司也在陆续发力。

二、ChatGPT的核心技术

在这里插入图片描述
细数语言技术的四个阶段,以 Bert 为代表的预训练语言模型主要解决了语义匹配的问题;ChatGPT 相对较好地解决了推理任务;下一阶段,自然语言处理算法需要考虑语用问题,对于同样的语言输入,模型需要理解不同语气、表情、语音、语调所蕴含的不同意义。

具体技术进展方面,ChatGPT 的核心技术主要包含以下四点:

  • 大规模预训练模型:涌现出推理能力;
  • Prompt/Instruction Tuning:通过 Prompt 统一各种任务,在众多类型任务的标注数据上精调语言模型,处理未见任务;
  • 在代码上进行继续预训练:涌现出逐步推理能力,代码分步骤、分模块解决问题,代码语言模型需要更长的上下文;
  • 基于人类反馈的强化学习 RLHF:结果更符合人类预期,利用真实用户的反馈。这些技术的融合形成了惊艳的效果。

在这里插入图片描述

三、NLP学术界如何应对ChatGPT的挑战

在 ChatGPT 时代,自然语言处理领域的发展趋势与早年间的信息检索领域类似。随着搜索引擎的出现,这种系统级别的研究为学术界带来了巨大的危机,学术界可做的研究越来越少。信息检索领域的顶会 SIGIR 相较于其它 AI 顶级会议的论文发表数量要少得多。与此同时,工业界由于掌握了大量的计算资源、用户数据、用户反馈,相较于学术界拥有巨大的优势。这种「AI 的马太效应」会造成胜者通吃的局面。更加危急的是,任务、甚至研究领域之间的壁垒被打破了,所有的问题都可以转化为一个「Seq2Seq」问题,计算机视觉等领域的研究者也会逐渐涌入该领域。
在这里插入图片描述
为了应对当前的挑战,自然语言领域的研究者可以借鉴信息检索研究者的经验。首先,学术界可能不再进行系统级别的研究,主要集中在相对边缘的研究方向上;其次,使用工业界巨头提供的数据进行实验,并不一定能得出可靠的结论,由于存在隐私问题,数据的真实性存疑;通过调用公司提供的 API 进行研究,一旦模型被调整,其结论有可能也会改变。

与搜索引擎时代类似,如果将 OpenAI 比作当年的 Google,国内也一定会出现 ChatGPT 时代的「百度」。在这之前,许多机构和企业都有机会放手一搏,做出自己的大模型。相较于其它领域的研究者,NLPer 的真正优势可能在于更加了解语言。

本文整理自「青源Workshop(第20期)|LLM and Chatbot: Endgame, Worse is Better, How to Win Big 」闭门研讨会的引导报告环节,哈尔滨工业大学教授车万翔介绍了ChatGPT效果惊艳的原因,以及ChatGPT时代NLP研究者面临的机遇与挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9660.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每一个人都应该明白的ChatGPT所带来的意义

每一个人都应该明白的ChatGPT所带来的意义 ChatGPT的横空问世,因其更高的智能程度、更宽泛的领域知识、更灵活的响应能力、更自然的对话语境使整个互联网都受到极大的冲击。 我本人试用了一段时间后,并结合在网上看到的文章、评论、观点,想说…

ChatGPT实现数据集模拟生成,ChatGPT实现密码生成

数据集模拟生成 之前章节我们已经演示过ChatGPT 如何根据 prompt 编写文章或续写文章,文本生成的作用不仅仅在语文方面有用,本节我们演示另一种场景,利用 ChatGPT 来生成数据。看似作用差不多,其实这是目前开源社区非常常用的大语…

将ChatGPT变成Midjourney提示生成器

已经有人总结过可以让ChatGPT作为Midjourney图像生成的模板。在本文中,我们将展示如何根据个人用例创建这些提示,这可以让ChatGPT生成的提示可控性更高。 选择提示模板 Midjourney的模板结构性很强,所以我们这里使用一下的结构: …

telnet登录并使用SMTP和POP收发邮件(QQ邮箱)

目录 一、POP3、SMTP和IMAP协议原理1、POP协议2、SMTP协议3、IMAP协议4、POP3与IMP3的差异 二、开启QQ邮箱的SMTP服务1、登陆QQ邮箱2、找到“POP3/SMTP服务”和“IMAP/SMTP服务”项3、需要发送短信到下面号码4、开启之后,系统会给你一个“授权码” 三、开启TELNET客…

首批 ChatGPT 应用将打响 To B 的编程应用争夺战!

整理 | 王启隆 何苗 出品 | CSDN(ID:CSDNnews) “ChatGPT 爆发意味着 AI 的 iPhone 时刻来了,下一步就是应用时刻,新应用时代将来临。那程序员怎么办呢?会被替代吗?我认为不会,但程序…

SQL优化这么做就对了

作者 | 狼爷 来源 | https://www.cnblogs.com/powercto/p/14410128.html 前言 在应用开发的早期,数据量少,开发人员开发功能时更重视功能上的实现,随着生产数据的增长,很多SQL语句开始暴露出性能问题,对生产的影响也越…

Oracle 如何使用 SQLT 进行 SQL 调优

作者 | JiekeXu 来源 |公众号 JiekeXu DBA之路(ID: JiekeXu_IT) 如需转载请联系授权 | (个人微信 ID:JiekeXu_DBA) 大家好,我是 JiekeXu,很高兴又和大家见面了,今天和大家一起来看看 Oracle 如何使用 SQLT 进行 SQL 调优&#xff…

SQL优化怎么做?大量数据实战分析

如果你对sql优化不了解,请认真看完这篇文章,并跟着文章动手操作一下,这篇文章讲解了所有方面的优化技巧 一:基础数据准备 二:五百万数据插入 上面插入几条测试数据,在使用索引时还需要插入更多的数据作为…

一次简单的postgreSQL的SQL语句优化实际案例

文章目录 业务背景初版查询SQL这段SQL有什么问题呢执行计划实际执行 初次优化执行计划2实际执行 继续优化再次优化的SQL执行计划3实际执行 疑问 业务背景 我上篇文章介绍了一个规则引擎的简单使用,主要就是为了众包业务批量录入数据的一些校验的统一管理&#xff0…

PostgreSQL之如何进行SQL优化?

文章目录 一、明确主题二、目标三、如何进行SQL优化?3.1 pg_stat_activity系统内置活动视图视图主要字段wait_event_typestate 3.2 pg_stat_statement SQL执行统计视图3.2.1 pg_stat_statements 视图详细说明中文版(简版) 3.2.2 常见案例 Top SQL 3.3 大表的索引使用…

以防作弊,ChatGPT 遭教育部「拉黑」:师生禁用!

来源:FUTURE远见 选编:FUTURE | 远见 闵青云 CSDN(ID:CSDNnews) 文 上个月,弗曼大学哲学助理教授 Darren Hick 逮到一个用 ChatGPT 写论文的作弊者后,就感慨:「ChatGPT 太先进了&am…

ChatGPT国产化:ChatYuan元语对话大模型升级

国产自研功能对话大模型元语 ChatYuan 于 2022 年 12 月发布测试版本后,引起社会各界人士的广泛讨论,并且收到了用户的大量反馈和宝贵建议。元语智能团队已于近日对元语 ChatYuan 进行了模型效果优化和版本功能升级,现已开放内测。 &#xff…

体验联网版 ChatGPT:优点和缺点同样明显,还藏着无限可能

ChatGPT 有点像古希腊的阿喀琉斯:它很强大,却有个致命的弱点——无法联网,这注定了它只能是一个停留在 2021 年的超人。 但很快,我们将等到一个「鱼和熊掌兼得」的时刻。 通过插件集的 Web browsing 功能,ChatGPT 就…

教你写接口需求文档

作者:果果 转载已取得作者授权 一、什么是接口 百科上对接口的定义:API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的…

什么是反向代理,开放的反向代理软件使用方法

什么是反向代理呢?其实,反向代理也就是通常所说的WEB服务器加速,它是一种通过在繁忙的WEB服务器和Internet之间增加一个高速的WEB缓冲服务器(即:WEB反向代理服务器)来降低实际的WEB服务器的负载。 Web服务器…

反向正向代理

https://www.zhihu.com/question/36412304

宝塔反代教程

近期有网友问宝塔如何设置反向代理,小编这里介绍一种简单的操作方法,就是使用宝塔官方软件面板自带的反向代理功能来实现。首先您要先安装宝塔面板,当Nginx或LNMP环境配置完成后,便可开始设置反向代理了,下面来看下操作…

[转发]图示说明正向代理和反向代理

关于代理 说到代理,首先我们要明确一个概念,所谓代理就是一个代表、一个渠道; 此时就设计到两个角色,一个是被代理角色,一个是目标角色,被代理角色通过这个代理访问目标角色完成一些任务的过程称为代理操…

Linux宝塔面板反向代理设置教程

此方法最简单快捷,没有复杂步骤,不容易出错,即最简单,零代码、零部署的方法。 实现准备 一台服务器安装宝塔面板OpenAI官方的API_KEYChatGPT网站系统源码 ChatGPT网站系统源码,大家可以看看另一篇文章介绍&#xff…

网关V.S反向代理

简介 网关主要服务于微服务/API,偏向研发人员反向代理主要面向传统静态web应用,偏向运维而未来趋势是DevOps网关和反向代理再次融合 发展趋势 WEB1.0/2.0时代,使用前置反向代理,由运维负责 nginx,进行反向代理和负载…