【重磅】OpenAI最新解密,ChatGPT的本质是无损压缩器

5ee3278da6d1d8fb0898a9b7d992a376.png

作者 | 费斌杰 熵简科技CEO

自从去年12月ChatGPT问世以来,AI的发展正式进入快车道,整个行业开始“按日迭代”。从1957年以来,人类在经历了数轮AI浪潮后,这次通用人工智能(AGI)是真的要来了。

我们团队在2月发表了对ChatGPT技术原理的深度剖析,得到了业内专家朋友们的广泛认可。但随着研究的深入,越来越多的问题浮出水面:

  • ChatGPT强大的一个重要原因是大语言模型的涌现能力(Emergent Abilities),那么涌现能力究竟为何产生呢?

  • GPT-5会有哪些意想不到的性能表现?

  • AGI会走向何方,对社会经济活动又会产生怎样的影响?

在这篇文章中,我们针对以上问题进行深入探讨,并且给出尽可能详实的分析过程。本文浓缩了我们团队的研究成果,共分为以下四个部分:

  1. 大语言模型的本质:性能强大的无损压缩器

  2. 视觉信息是知识的富矿:从文本走向多模态

  3. 大数据时代的数据荒:运用合成数据破局

  4. AGI对人类社会经济活动影响:展望与思考

写在前面:熵简科技是一家专注于帮助资管机构实现投研数字化的科技公司,主要客户包括中金、中信、广发、建投、国信、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券与基金公司。我是熵简科技的创始人费斌杰,但在写下这篇文章的时候,我更多是纯粹作为一个在新技术浪潮下,既兴奋又紧张的见证者和参与者,尽可能客观地评述分析这项新技术对我们行业会带来怎样的影响与冲击。以下分享是我们熵简团队的研究成果,LLM技术发展日新月异,当前时点的分析难免错漏,欢迎各位指正。

01

大语言模型的本质:性能强大的无损压缩器

在最近OpenAI的学术分享会中,Jack Rae提出了一个重要的论断:大语言模型的本质,其实是一个性能强大的数据无损压缩器。

LLM = Compression

这个论断并不是很直观,但却揭开了“通用人工智能”非常重要的一角,值得高度重视。为了让大家理解这个观点,我们从“学习”这件事本身来探讨。

上个世纪以来,人类普遍认为“学习”是一种人类特有的才能,机器无法真正地掌握“学习能力”。随着深度神经网络技术的发展,人们通过构建“人工神经元”来模拟大脑中的“生物神经元”,从而使得机器开始具备一定的学习能力

4fa36b183bf55df520d62f3d1eaa347a.png

图:生物神经元(左)与人工神经元(右)对比

而现在,OpenAI得出了关于“学习”的最新结论:“学习”这件事本身,可以理解为对有效信息进行无损压缩的过程

为了更好地理解这个观点,让我们来做一个思想实验。假设我们需要搭建一个模型,用来处理英译中的翻译任务。

最简单粗暴的方式,就是列举出每个英文单词对应的中文,即rule-based mapping。假设我们枚举完了所有英文单词的中文对照表,写出了一本1000页的词典。

但通过这本词典,我们真的能够有效完成所有英译中的翻译任务吗?答案是否定的。因为基于规则的映射系统是非常脆弱的,只要在翻译过程中遇到一个之前没有遇到过的新单词,系统就崩溃了。

因此,这个模型的翻译性能是很弱的,可以理解为“该模型没有真正学会翻译”。

重点来了,现在请你把这本1000页的词典,“无损压缩”成一本200页的手册。字数减少了,但是信息量不能少,因此你不能简单地从1000页中抽取200页构成一本“小词典”,而需要通过对数据进行高维编码,从而实现无损压缩

经过压缩后的这本200页的手册中,不再是简单的单词映射,而是包含了主谓宾、定状补、虚拟语气、时态、单复数在内的英语语法。相比于一本“词典”来说,它更像是一本“教材”

4e9f60b1ea62f4730f76a179f76de2ef.png

图:降低任务描述长度等价于增加对任务的理解

注意,在这个压缩的过程中,“学习”作为一种隐式的过程,起到了知识编码的作用。通过把一本1000页的词典压缩成一本200页的手册,模型“学会”了英语语法,掌握了英译中的知识。通过这个例子,不难发现:学习的本质,可以理解为对有效信息进行无损压缩的过程。压缩率越大,学习的效果就越好。

根据OpenAI的最新观点,基于GPT的大语言模型的是性能卓越的数据压缩器语言模型的本质,是不断预测下一个词的概率分布,从而完成生成式任务。

但是从“无损压缩”的角度来看,如果模型对下一个词的预测更加准确,就意味着其对知识的理解更深,从而获得对这个世界更高的分辨率。随着模型规模的提升,基于信息熵计算出的压缩率也会逐渐提升这就解释了为什么模型的性能会随着规模的增加而增加。

而提升模型的压缩率并不只有“增加规模”这一种方法,正如Jack Rae所言:Scaling is not all you need更好的算法架构、基于Plugin的工具集成、合成数据的运用都能够有效提升模型的压缩率,从而实现模型性能的进一步提升。

5cdba425e5f75fb39986a984bb3c944d.png

图:提升模型压缩率的几种方法

02

视觉信息是知识的富矿:从文本走向多模态

既然大语言模型发展的目标,是不断提升对有效信息的压缩率。那么自然地,如何获取尽可能多的有效信息,就成为了一个重要命题

人类是一种拥有语言能力的视觉动物,我们大脑皮层中约有三分之一的区域是用于视觉信息解析的。因此,视觉信息是人类知识的富矿

e3b518f27fb28ff7117152148599ebbc.png

图:大脑皮层中的视觉信号中枢

举个例子,我们都知道“太阳从东边升起,西边落下”,这是一个常识。但如果分析一下我们是如何学到这个知识的,我相信绝大多数人是通过眼睛亲眼看到的,而不仅仅是通过书本学习到的。

推而广之,视觉信息往往是人类知识的源头。由于人类具备语言和写作能力,人们会把通过视觉获取到的信息慢慢地转变为文本形态传播出来。

因此,如果把人类已获得的全部知识看作一座冰山,那么以“文本”为载体的数据只是冰山一角,而以“图像”、“视频”为载体的数据才是人类知识真正的富矿这也是OpenAI的GPT-5会基于海量互联网视频进行学习的原因。

具体而言,如果给模型看大量的天文观测视频,模型有可能学习出一个隐式的开普勒定律;给模型看大量的带电粒子运动轨迹,模型可能会学习出洛伦兹力的数学表达;当然,我们也可以更大胆一些,如果给模型学习强子对撞机的海量实验数据,模型是否可以解开希格斯玻色子的秘密,从而解答物质的“质量”之谜,这一切都相当值得期待。

d607b45024131deb2a0da244cd1de3df.png图:基本粒子模型与上帝粒子

03

大数据时代的数据荒:运用合成数据破局

虽然人类社会早已进入了大数据时代,全球经济活动产生了大量数据资产,但是LLM所需的训练集膨胀速度更快。根据预测,到2026年文本数据将被训练完,图像数据将在2040年左右用完。

310b09255b2e492804d9f245335cb380.png

图:大语言模型对互联网存量数据消耗的预测

这对于“大力出奇迹”的大语言模型来说,并不是个好消息。如果训练集体量不够,模型便无法继续scaling up,从而不断提升性能天花板。

这个时候,“合成数据”成为了重要的破局方法。顾名思义,“合成数据”(Synthetic Data)指的是通过算法生成的训练集,而非从现实世界中采集到的样本

根据Gartner的预测,2026年模型训练数据中的50%将由合成数据构成;2030年合成数据的质量将全面超过人类标注的真实数据。

2b03fd82d41bf2b084a4e967200328eb.png

图:Gartner对合成数据发展的预测

OpenAI在GPT-4的技术文档中重点提到了合成数据的应用,可见OpenAI对该领域的重视。

56a114299c741e47ad417954cc37e8c4.png

图:GPT-4技术报告中对合成数据应用的探讨

更进一步来看,如果合成数据的质量能够全面超越人类标注的质量,那么未来AGI便可以自我迭代,进化的速度会大幅提升。到这时,人类可能就成为AGI的启动脚本(Boot Loader)了。

这不禁让我联想到马斯克曾在2014年做出的预言。他认为从“物种进化的尺度”来看,以人类为代表的“碳基生命”可能只是以“AI”为代表的“硅基生命”的启动脚本

这个预言令人毛骨悚然。放在14年那会儿,绝大部分人会认为这是危言耸听。但是当下我们再回头审视这个判断,不难发现这与“合成数据”的发展目标不谋而合。

合成数据领域的突破,可能成为AGI跨过奇点的重要里程碑,让我们拭目以待。

55783eecb55659a24763270ab2a8ddfa.png

图:Musk在14年对AI发展的判断

04

AGI对人类社会经济活动影响:展望与思考

在刚结束的GTC大会上,NVIDIA的CEO黄仁勋将ChatGPT的诞生类比为移动互联网的iPhone时刻。但从人类科技发展史的尺度来看,我认为ChatGPT的诞生更像是拉开了“第四次工业革命”的序幕,会带来社会生产力和生产关系的质变

虽然有点不恰当,但如果把人类看作一台“生物化学计算机”,我们不妨比较一下人类与AGI的效率异同:

首先,从“通信效率”的角度来看,人类之间的数据传输主要依靠交流,而交流的本质是以空气为媒介的机械波。与此相对,AGI之间的数据传输则主要通过GPU之间的NVLink,数据传输的带宽显著提升

其次,从“工作效率”的角度来看,人类受限于生物体内复杂的免疫机制、神经元修复机制等原理,需要保持充足的睡眠,才可以换取白天良好的工作状态。但是AGI只需要有充足的能源供给,便可以做到7*24的高强度作业,工作效率显著提升

再次,从“协作效率”的角度来看,由100个人组成的团队整体的工作效率往往会低于10人小组产出总量的10倍。随着组织人员规模的增加,人均产出不可避免的下降,需要通过“富有经验的管理艺术”才能激发团队协作的活力。相反,对于AGI来说,增加运算节点便可以扩大产能,并不会出现边际效用递减的管理与协作难题

209da9a61c5aa4a80616e5f8c2602a6b.png

图:人工智能与人类智能的发展曲线

以上分析了相比于人类而言,AGI的生产力优势。但是人类在以下几个重点方面依然具备着不可替代的价值:

首先,虽然AGI在知识的广度上会远超人类,但是具体领域的知识深度,人类目前依然占据优势。

以金融投资为例,一位资深的投资经理可以根据不完整的市场信息做出模糊推断,从而获得超额收益;以科学研究为例,一位优秀的科学家可以从看似无关紧要的实验误差中推断出全新的理论体系。这些都是当前AGI难以企及的。

其次,社会经济活动的运转,高度依赖于人与人之间的“信任”,这种信任是AGI难以取代的。比如当你去医院看病的时候,即使AGI能够根据你的症状描述做出相当准确的诊断,你依然大概率会拿着诊断结果去咨询边上的人类医生,寻求一个值得信任的诊疗建议。类似的“信任机制”构成了医疗、教育、金融等领域中经济活动的重要基石。

随着AGI的发展,许多经济活动的游戏规则会悄然发生改变,而这个规则改变的契机,则会以AGI在该领域超过人类中的最强者作为分界线,正如AlphaGo的诞生彻底改变了围棋界的规则一样。

05

结语

这是最好的时代,也是最坏的时代。悲观者可能永远正确,但确实毫无意义。

纵观历史,人类科技史的发展并不是连续的,而是跳跃的。或许我们正在经历的正是一次人类科技水平的跳跃,无论如何,能够亲眼见证并参与其中,我们都是幸运的。

最后,分享一句我特别喜欢的话,这是OpenAI的CEO Sam Altman在30岁生日时给自己的人生建议:

The days are long but the decades are short.

06

关于我们

熵简科技成立于2017年,致力于运用数据智能相关技术帮助资管机构实现投研数字化升级,构建金融行业新一代数字化基础设施。目前公司已服务于国内超过70家一线资管机构,主要客户包括中金、中信、广发、建投、国信、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券与基金公司。

如需垂询商务合作,欢迎通过企业邮箱咨询:contact@entropyreduce.com

6c53a4c7d5493173ec8b0d77898b910b.png

图:熵简科技的资质与荣誉

b472e58e7a604d56e219bd312cecb4c9.png

图:熵简科技的部分重要客户与合作伙伴

参考文献

[1] Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." arXiv preprint arXiv:2201.02177 (2022).

[2] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).

[3] Eloundou, Tyna, et al. "Gpts are gpts: An early look at the labor market impact potential of large language models." arXiv preprint arXiv:2303.10130 (2023).

[4] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 (2023).

[5] Liang, Percy, et al. "Holistic evaluation of language models." arXiv preprint arXiv:2211.09110 (2022).

[6] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

[7] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[8] Zhou, Yongchao, et al. "Large language models are human-level prompt engineers." arXiv preprint arXiv:2211.01910 (2022).

[9] Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

[10] Zellers, Rowan, et al. "HellaSwag: Can a machine really finish your sentence?." arXiv preprint arXiv:1905.07830 (2019).

[11] Barocas, Solon, Moritz Hardt, and Arvind Narayanan. "Fairness in machine learning." Nips tutorial 1 (2017): 2017.

[12] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[13] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19381.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python考点填空:必备知识点

Python考点填空:必备知识点 作为一种流行的编程语言,Python已经广泛应用于人工智能、数据分析、Web应用等领域。在Python编程中,我们时常接触到填空题,这些考点不仅是Python编程中的基础知识点,也是我们必须掌握的必备…

备考公务员2019

参考:https://www.zhihu.com/people/xi-chuan-3-5/posts 找准目标 你想好为什么考公务员了吗?这是准备公考的第一步也是最重要的一步。如果目标坚定,则遇到时间的紧张、复习的痛苦、深夜的孤寂等一系列困难时都能迎刃而解;如果仅仅…

ChatGPT 将冲击数据库!中国数据库开发者报告正式发布

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 经过一批批先行者和企业的努力,国产数据库崭露峥嵘,逐渐走上国际舞台,譬如:三年前阿里自主研发的金融级分布式关系数据库 OceanBase 在 TPC-C 基准测试中…

这里有一份教你每天用领英获取20个询盘的免费课程,手慢无

于2023年3月22日,我们圆满完成了深圳宝安的外贸分享交流会,时隔两个月即将迎来我们的广州场。 在上次深圳会议,有幸邀请到江西省跨境电商协会会长莅临 给大家分享了: 如何帮助传统制造业从“0”开始做外贸、如何借助平台为企业…

文心一言 VS 讯飞星火 VS chatgpt (27)-- 算法导论5.1 2题

二、请描述 RANDOM(a,b)过程的一种实现,它只调用 RANDOM(0,1)。作为a和b的函数,你的过程的期望运行时间是多少? 文心一言: 假设我们有一个伪随机数生成器,可以生成在[0,1)范围内的随机数。那么我们可以使…

文心一言 VS 讯飞星火 VS chatgpt (31)-- 算法导论5.2 3题

三、利用指示器随机变量来计算掷n 个骰子之和的期望值。 文心一言: 为了计算掷n个骰子之和的期望值,我们需要先了解一个重要的概念:指示器随机变量。 指示器随机变量是一种特殊的随机变量,它只有两个取值:0和1。通常…

Prompt提示工程的艺术: 解码 ChatGPT

随着ChatGPT的横空出世,prompt提示工程突然就成了一个时髦的技能,prompt的核心是制定科学有效的提示,以便于我们可以从大语言模型中得到更精确的输出。简单说,就是如何从任何人工智能模型中获得更好的输出结果。 做到这一点需要两…

一周 AIGC 丨马云回国首谈 ChatGPT,AIGC 用于旅游宣传片

图片来源:由无界AI生成 今天,在海外“流浪”近 1 年的马云回国的消息刷屏,被众多媒体解读为是对中国民营企业的一个重大的标志性事件。眼光一向超前的马云自然不会错过 ChatGPT 话题。他说:“ChatGPT 这一类技术已经对教育带来挑战…

AI怎么把游戏变好玩?米哈游出手了

《原神》发布两年半后,游戏新贵米哈游终于出新,上线了《崩坏:星穹铁道》。新游戏的一大亮点是内置了一个“图生图”的AIGC工具,用户可上传任何图片,生成对应风格的游戏角色“三月七”。 广大玩家脑洞大开,短短一周时间…

游戏人,卷得过AI吗?

将深燃设为“星标⭐” 第一时间收到文章更新 深燃(shenrancaijing)原创 整理 | 李秋涵 2023年,AI的热潮席卷各行各业。相比于大语言模型ChatGPT,AI绘画火得更早,目前看来,在市场上的应用也来的更早。 根据此…

RunningCheese Firefox 71.0 正式版 [1225]

RunningCheese Firefox V10 正式版开发前后经历4年才推出,全新的架构让 Firefox 焕发了第二春,有史以来最棒的 Firefox,高速流畅,一别卡顿。在速度比肩 Chrome 浏览器的同时,还保留了 Firefox 的强大功能,正…

ChatGPT+打印机自动写作业?都是科技与狠活

近日,有网友在Tik Tok上分享了一段视频,他通过ChatGPT加3D打印技术,成功实现了自动写作业。 自动写作业!这不是所有学生的梦寐以求的待遇吗? 小编的脑海中立刻闪过了《哈利波特》中会自动写字的羽毛笔,不过…

“高仿 Twitter” 1 天拿下 3000 万用户,惹马斯克发律师函:你个“山寨货”!...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上线 4 小时用户数破 500 万、7 小时破 1000 万,不到 24 小时破 3000 万……这般势如破竹的用户增长量,来自 Meta 旗下、号称“Twitter 的绝佳代替品”的 Threads。 为此&…

2023-03-13:给定一个整数数组 A,坡是元组 (i, j),其中 i < j 且 A[i] <= A[j], 这样的坡的宽度为 j - i。 找出 A 中的坡的最大宽度,如果不存在,返回 0

2023-03-13&#xff1a;给定一个整数数组 A&#xff0c;坡是元组 (i, j)&#xff0c;其中 i < j 且 A[i] < A[j]&#xff0c; 这样的坡的宽度为 j - i。 找出 A 中的坡的最大宽度&#xff0c;如果不存在&#xff0c;返回 0。 示例 1&#xff1a; 输入&#xff1a;[6,0,8,…

目前工资最高的几家外包公司汇总!(2023最新版)

点击上方“芋道源码”&#xff0c;选择“设为星标” 管她前浪&#xff0c;还是后浪&#xff1f; 能浪的浪&#xff0c;才是好浪&#xff01; 每天 10:33 更新文章&#xff0c;每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路&#xff0c;很肝~中文详细注释的开源…

机器人语音生成技术的发展是否存在潜在风险?

机器人语音生成技术的发展引发了广泛的关注和期待&#xff0c;它使得机器可以像人类一样流利地说话。Meta、谷歌和其他科技公司的AI模型正在不断演进&#xff0c;能够从文本中生成逼真的语音。然而&#xff0c;这项技术的快速进步也带来了一些潜在的风险&#xff0c;引发了许多…

科技云报道:ChatGPT应用爆火,安全的大数据底座何处寻?

科技云报道原创。 毫无疑问&#xff0c;AIGC正在给人类社会带来一场深刻的变革。 而剥开其令人眼花缭乱的华丽外表&#xff0c;运行的核心离不开海量的数据支持。 ChatGPT的“入侵”已经引起了各行各业对内容抄袭的担忧&#xff0c;以及网络数据安全意识的提高。 虽然AI技术…

ChatGPT日活超千万/ 小米回应汽车设计图纸泄露/ 疑英伟达RTX 4090 Ti原型显卡曝光…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好&#xff0c;今天是节后复工第二天&#xff0c;1月29日星期日&#xff5e; 和日报君来看看&#xff0c;今天科技圈有哪些新鲜事吧。 小米回应汽车设计图纸泄露&#xff0c;称非最终文件 近日&#xff0c;疑似小米首款车型的设计…

一套系统让打工人瑟瑟发抖,监控员工离职动态。

金磊 杨净 发自 凹非寺量子位 | 公众号 QbitAI 前脚投简历&#xff0c;后脚就被精准裁员。 一位网友最近就爆出了这样一段真实经历&#xff0c;而且还称被领导教育了一通&#xff1a; 别以为你上班干啥我都不知道&#xff0c;你啥时候想走我都一清二楚&#xff01; 随之引发热议…

ChatGPT 有了自己的“电脑”,是机会还是风险?

人工智能即将到来&#xff0c;我们根本不知道结果会是什么&#xff0c;所以我们的责任是推动人工智能取得积极的成果&#xff0c;让我们的生活变得更加美好。 原文链接&#xff1a;https://stratechery.com/2023/chatgpt-learns-computing/ 未经授权&#xff0c;禁止转载&#…