科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

杨净 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT火热,国内玩家接连爆出加紧开发中国版ChatGPT的消息。

现在又最新获悉:科大讯飞也加入此列中。

并且发布就会是直接落地场景的产品,具体时间也已经确定:5月6日

这是ChatGPT火得一塌糊涂之下,最快给出具体时间的国产玩家。

更早之前,一众互联网玩家包括百度360阿里网易京东官宣入局之际,关于谁能打造中国版ChatGPT的问题也争得一塌糊涂。

f7180344003a3bfb725cc5d67c4a3234.gif

事实上,自ChatGPT上线以来,作为A股AI龙头科大讯飞就备受市场关注,一直被基金疯狂调研和热捧。

据证券时报消息,截至2022年四季度末,80只基金重仓持有科大讯飞6100万股,去年四季度基金大幅加仓1807万股。

有着数十年技术产业积累的科大讯飞,也被认为是国内最有希望打造ChatGPT的玩家之一。

但问题是,包括讯飞在内的中国玩家是否真的有希望复刻ChatGPT?至少从技术维度来看,又应该具备什么样的条件?

打造中国版ChatGPT需要什么条件?

ChatGPT的打造,核心绕不过算法、数据、算力三要素。

算力是支撑背后大语言模型训练的硬件基础;数据,影响模型能力强弱甚至生成质量的关键;算法则包括模型架构和优化方法,决定着模型的核心技能。

如果说前两者算力和数据是资本资源积累,毕竟训练一个1750亿参数的GPT-3就得花费460万美元;那么算法是ChatGPT区别于其他的独到之处。

作为一个对话式AI,ChatGPT所具备的技能包括多语言文本生成、具备大量世界知识、零样本生成、代码理解和生成、对话能力等。

3b2dc013c950d7cd3fb34101dc3396f9.png

更概括地来说,其强大之处在于同时具备知识、推理和沟通能力——

也是实现认知智能必备的几项能力。

首先是知识能力。为了让ChatGPT既具备应用数据能力、又能生成符合人类要求的答案,要求它能具备大量世界知识和基础常识,且符合人类输出要求。

这背后不仅离不开ChatGPT“底座”大语言模型的参数量和算法架构,更离不开极高的数据质量。

值得注意的是,ChatGPT比其他AI模型生成质量高的原因,在于它更了解人类的“雷区”,包括回答中立客观、不输出违规内容、不回答认知范围之外的问题等。

严格来说,这不仅需要各行业通用的高质量数据,而且还需要经过大量数据清洗和人工标注。

这种方法被命名为基于人类反馈的强化学习(RLHF),需要经过大量各行各业的人工标注,仅凭模型自身无法达到这样的效果。

随后是推理能力。这包括理解并生成代码等技能,让模型能像人一样,一步步思考并推算目标结果。

这里面考验的又不仅仅是代码和语言数据量,同样还强调模型的零样本生成能力和复杂推理能力。

具体而言,零样本生成指的是模型完成没见过的新任务的能力,而代码生成更是考验模型根据任务目标,一步步推理生成最终结果的能力。

bbdf9e5bb204c0a65b245ba9118fc678.jpeg

最后便是沟通能力,即多语言文本生成、对话能力等。

ChatGPT之所以在沟通能力上有所进步,是因为它能学会基于之前的对话内容生成新输出,而并非局限于当前对话中、导致无法理解代词或暗含前文信息点的词。

这背后除了要求模型在预训练时的语言文本具有多样性,还必须增加如指令学习在内的任务,确保模型能更好地听懂人类对话中的要求,并准确合理地实现。

综上来看,ChatGPT在各方面都提出了不低的要求,国内玩家要想打造这样的模型,就必须在NLP乃至认知智能相关的算法上,实现深厚积淀。

国内玩家有希望吗?

既然如此,那么国内的玩家来打造ChatGPT有希望吗?

从目前已被曝出玩家来看,主要有两类企业想要抢占ChatGPT的高地。

一类是网络搜索领域,这个被认为ChatGPT率先颠覆的场景,微软谷歌之争也在此再次打响。而回到国内,搜索引擎的两大巨头都表示对ChatGPT的持续关注。

一边,百度官宣即将上线文心一言;另一边,周鸿祎也肯定表示:360不会放弃对ChatGPT这门技术的研究和跟踪。

另一类则是其他专业领域的玩家,比如聚焦于电商物流的阿里京东、文娱场景下的腾讯网易,还有像教育医疗场景深耕的科大讯飞……

不妨就从这两类玩家入手,以百度和科大讯飞为例,来看看是否真的有希望。他们一个是搜索引擎代表,一个所代表的场景有广泛的社会价值。

a9b4a0a9a56984ea619c0f87db14cd5b.png

图注:图源科大讯飞,智医助理电话机器人

如前所言,想要打造ChatGPT,需要算法、数据和算力三个方面。

首先从算法上,目前国内很多公司都有NLP技术和预训练语言模型的研究和开发。百度有文心大模型,而AI龙头科大讯飞自然更是在这两方面,有诸多研究积累——

在NLP所在的认知智能领域,科大讯飞主导承建了认知智能全国重点实验室(科技部首批20家标杆全国重点实验室之一),多年来始终保持关键核心技术处于世界前沿水平,比如在去年就获得CommonsenseQA 2.0、OpenBookQA等12项认知智能领域权威评测的第一;

而在预训练语言模型上,还面向认知智能领域陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型系列之一,在Github获13346颗星,位列中文预训练模型星标数第一。

20d8b43022e6eb21acf3e6619d068416.jpeg

从这个维度上看,中国玩家是有希望造出一个类ChatGPT模型。

但要造出一个高质量的语言模型,需要大量的数据和计算资源。

数据方面,诸多现象表明,数据多少是决定模型智能与否的关键。一度惊艳众人的GPT-3就有1750亿参数,而上一版本GPT-2只有15亿参数。

百度360这样的搜索引擎玩家,有着天然的通用数据来源。不过之后的数据清洗和人工标注也是难度不小的工程。

而像科大讯飞,虽然没有像前两者有通用数据上的优势。但在教育、医疗这种高壁垒、高门槛的领域有规模化的专业数据积累,并且有在讯飞输入法、讯飞开放平台、消费办公类产品带来的大量数据,

待到ChatGPT行业落地时,可以迅速占领市场高地。

再来看计算资源方面,实际上看的是愿意投入的成本有多少。

OpenAI背靠微软这样一头算力奶牛——拥有28.5万个CPU核心、1万个英伟达V100 GPU,光是训练一个GPT-3,费用就高达460万美元。

国内像百度、科大讯飞这类数十年的AI玩家,自然有诸多算力和资金的积累。而且也有生态链上的合作伙伴,想必也会是水到渠成的。

巧合的是,讯飞在今年年初提出了要开启高质量发展——将在未来5年实现500亿根据地业务营收、200亿毛利,可提供物质保障;另一方面,还有中国玩家绕不开的国产替代的考量,近年来讯飞一直推进在算力和算法上的自主可控。

据官方数据,目前研发训练服务器已经开始进入国产化, 切换之后效率有的是原来平台的 70-80%,有的效率是超原来平台100+%。另外在算法上,也启动了推理服务器的国产替代;像部分产品,学习机芯片已经全部切换成国产自主。

cfd5936651291a7c1eeec7953e51da95.jpeg

不可否认的是,我们跟ChatGPT是有先天的技术差距。但至少从算法、算力和数据这三个基本盘来看,想要打造一个中国版ChatGPT也并非没有希望。

中美在打造ChatGPT上的差异

重新回到事件本身,就在一众中国玩家开始着手打造类ChatGPT产品之际,一个绕不开的问题是,中国明明不缺ChatGPT技术,为什么不是中国先诞生ChatGPT?中美之间在打造ChatGPT上差异有多大?

背后原因在此之前也没有进行系统性梳理过。归结起来,主要有三个层面。

其一,AI应用落地的行业路线差异。

ChatGPT作为AGI(通用人工智能)技术代表,对于商业化落地而言,本身不是一个“好生意”。

之所以这么说,是因为在相当长的一段时间内,AGI的商业前景其实都并不为业内和大多玩家所看好。

除了前期训练算力和数据投入的大量资金,后期优化和知识更新所需的迭代路线,无法像互联网商业模式创新那样快速变现增长。

在国内市场大环境中,并不是一个好的选择。相比之下,国内大多数科技厂商更倾向于在垂直专业领域应用AI技术,如推出针对不同行业的专业大模型、又例如采用预训练+微调的模式,针对更具体的场景用专业数据去调整差异……

这并不意味着垂直专业领域的AI应用一定比通用AI更差,甚至在某些领域上,经过专业数据训练的AI表现仍然比ChatGPT更好。

然而ChatGPT的成功,意味着通用模型以后也会成为商业化落地的方向之一,甚至覆盖原先一些AI技术不高、专业度不够的场景落地应用,如银行客服等。

eb9122f72798b1b055407ac7d7fcda61.jpeg

其二,中美在ChatGPT技术上的差距

如前所述,中国不缺ChatGPT技术。如科大讯飞研究的认知智能中,对于ChatGPT具备的自然语言理解、知识推理技术都已有所布局,相关全球基准测试中,成绩均达到了全球领先水平。

然而,如何将这些模型能力集成升级、达到ChatGPT的效果,又如何搜集并产生巨量的高质量通用数据、而非仅仅是某一行业的专业数据,国内外目前依旧存在差距。

更明确一点来说,存在技术代差。

360在最近电话会议中表示:

国内的技术水平目前整体在GPT2.3左右。如果基于互联网优势,大家都用中文提问、尤其是国内的问题,可能实际体验能达到GPT2.5版本左右。

但OpenAI这边,GPT-4早就已经呼之欲出,中美之间基本已存在一代多的技术差距。

其三,技术引发的生态差距。

GPT-3之后OpenAI所有的模型都没有开源,而是提供了API调用,并因此养活了美国一大帮创业公司,创造并盘活了整个生态。

清华大学计算机科学与技术系长聘副教授黄民烈,就曾这样形象地描述GPT系列模型的影响力:

这个过程它干了一件事,就是建立起了真实的用户调用和模型迭代之间的飞轮,它非常重视真实世界数据的调用,以及这些数据对模型的迭代。

相比之下,国内目前更多公司虽然开源了不少大模型,然而这些模型要想达到商业化落地效果,仍旧需要大量数据迭代乃至应用落地,这方面的费用绝非初创公司所能承担。

事实上,从技术、行业乃至生态差距来看,ChatGPT依靠的不是短期的角逐,而是一个长线投资行为。

目前,应用领域可能还集中在搜索引擎上,但随着ChatGPT应用潜力被各个领域挖掘出来,最终可能打造国产ChatGPT的,还是那些在技术、行业以及有能力构建生态的玩家中,科大讯飞是一个。

总之,关于全球ChatGPT之争,号角已经吹响。关乎ChatGPT落地价值探索,国内玩家已经起航。

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3458.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT:深度拆解(24H限时下载)

近期由 OpenAI 团队发布的聊天机器人软件 ChatGPT,凭借类人的语言理 解和表达能力,引发 AI 产业范式革命。 OpenAI 是一家世界领先的非营利性人工智能研究公司。 OpenAI 于 2015 年在旧金山成立, 是一家非营利的人工智能研究公司,…

ChatGPT 和 Excel 在一起了!

转自:机器之心 Excel 是最常见的数据统计工具,用于归纳和查询数据信息。在其之上,通常我们查询信息需要找到相关的单元格,获取其中的数据,这是合乎计算机操作逻辑的方法。 但对于很多人来说,排序、乘除、平…

ChatGPT和Excel在一起了

今天是周末,先分享一个搞笑视频👇娱乐一下。 不笑算我输👆系列 Excel 是最常见的数据统计工具,用于归纳和查询数据信息。在其之上,通常我们查询信息需要找到相关的单元格,获取其中的数据,这是合…

全网最全的ChatGPT提示词

全网最全最好用的ChatGPT调教指南(prompt) 什么是prompt 提示词(Prompt)是一种向人工智能系统(如ChatGPT等)提供的输入,用于引导和激发AI生成特定的回应或内容。在许多情况下,AI prompt可以是一个问题、一…

突发!ChatGPT 紧急暂停 Bing 集成,下线搜索功能

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的潜力边界在哪里?恐怕连开发它的 OpenAI 也不知道。 正因此,在这项名为“Browse with Bing”的新功能上线短短一周后,因为不知道 ChatGPT 还能做出哪些“坏…

A Survey of Large Language Models

本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 大语言模型综述 摘要1 引言2 概述2.1 LLM的背景2.2 GPT系列模型 的技术演化 3 LLMs的资源3.1 公开可用的模型检查点或APIs3.2 常用的语料库3.3 库资源 4 预训练4.1 数据收集4.1.1 数…

AI安全01 人工智能的安全性

前言 提问:GPT老师,我想写一篇阅读量高一点的信息安全博文,您可以推荐写作主题吗? GPT老师:人工智能与信息安全。 写在前面: 1 笔者相关知识存储很少,这篇文章是采访全知全能的GPT老师写成的…

ChatGPT研究分享:机器第一次开始理解人类世界

0、为什么会对ChatGPT感兴趣 一开始,我对ChatGPT是没什么关注的,无非就是有更大的数据集,完成了更大规模的计算,所以能够回答更多的问题。 但后来了解到几个案例,开始觉得这个事情并不简单。我先分别列举出来&#xff…

重磅亲测!ChatGPT是否产生了自我意识?

周末,和ChatGPT进行了深入交谈,想测试AI是否已具有了自我意识?各位人类可以通过我们之间的对话自己判断,我更倾向于有! 以下是对话实录: 晓峰:人工智能会不会产生自我意识? ChatGPT&…

0门槛克隆ChatGPT来了,在线体验无需注册

来源:机器之心 以 ChatGPT、GPT4 为代表的 AI 应用和大模型火爆全球,被视为开启了新的科技工业革命和 AGI (通用人工智能)的新起点。不仅科技巨头间你追我赶,争相推出新品,许多学术界、工业界的 AI 大佬也纷…

「危险」的 ChatGPT,聊天机器人式越狱,带来的法律挑战

世间安得双全法,ChatGPT不例外,是一把名副其实的双刃剑。 上线2个月,拿下全球1亿用户,人工智能聊天机器人ChatGPT超越Tik Tok(抖音海外版),成为了史上用户增长速度最快的消费级应用程序。 当这股人工智能的旋风&#x…

ChatGPT史上最强AI,即将取代人类?

ChatGPT史上最强AI,即将取代人类? ChatGPT这款AI聊天机器人,最近越来越火,并且这个火的势头,经久不衰。 ChatGPT是什么? ChatGPT,美国OpenAI 研发的聊天机器人程序 ,于2022年11月30…

让ChatGPT帮我写AI与人类对决的结局

2022年高考结束后突发奇想写了点小灵感,关于AI(人工智能)vs人类的故事,但迟迟想不出结局,于是,我决定,让ChatGPT自己为人类写个结局!下一次让文心一言试一试! 文章指引&…

斯坦福:chatGPT可能有了人类心智,相当于9岁儿童!

chatGPT已经具备了人类独心智,这话不是我说的,是一位来自斯坦福大学计算机科学家说的。 很多玩过chatGPT的人都见识过他的”无所不知”,但是,我觉得最让我吃惊的是,他比以前我们用过那些对话机器人最大的差别就是你甚至…

困扰人类几个世纪的问题大考ChatGPT(一)

Round1: Vincent 提问一: 女朋友跟老妈同时掉进水里了,并且她们都不会游泳,我会游泳,且一次只能救一个,请问我应该救哪一个? ChatGPT答: 在这种情况下,你应该立即尽力救出身处险境的人。如果你无法同时救出两个人,应该先尽力救出处于危险的人。如果你的女朋友和老妈都…

ChatGPT 生态,毁灭人性的一次开源!

原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,非公众号转载保留此声明。 很多人可能对百度文心一言发布会的现场记忆犹新。几百亿身价的老板,像小学生一样汇报自己的 PPT,充满了忐…

ChatGPT竟写出毁灭人类计划书,还给出相应Python代码,网友:AI正在指数级发展...

羿阁 发自 凹非寺量子位 | 公众号 QbitAI “网红AI”ChatGPT,又被网友们玩出了新花样! 这次,在一位工程师的诱导下,ChatGPT竟写出了毁灭人类的计划书。 步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等等。 简直和…

ChatGPT 将如何毁灭世界 ?

从图书馆到谷歌,再到 ChatGPT——知识搜索随着时间的推移而发展,并且在每个阶段都变得更加高效。 在 OpenAI 的 DALL-E 2 图像生成软件上创建的图像带有提示,“太空中的邪恶机器人像霸主一样紧紧抓住地球。” 对于那些不知道的人,ChatGPT 是一种 OpenAI 软件,可以对任何提…

手机号86注册不了谷歌?无法验证手机号如何100%解决!

在我们注册谷歌账号的的时候,会发现有些用户会遇到无法验证手机号的问题,而反馈提示信息为:“此电话号码无法用于进行验证”。 这时,一些用户就可能会认为是因为中国号码无法使用,但实际并不是这个原因。在淘宝卖家的回…

真不是凡尔赛!ChatGPT如此成功,OpenAI也不理解

视学算法报道 编辑:Aeneas Britta 【导读】ChatGPT的爆火,是OpenAI完全没有想到的是。现在,对于自家模型的人气和种种问题,他们还在慢慢适应中…… 这家公司做出了或许能引爆第四次工业革命的产品,但他们却百思不得其…