压缩即泛化,泛化即智能

fc94cc13e5a94c2726bfec8f6b167850.png

随着百度文心一言、ChatGPT、GPT4等先进技术的问世,我们或许是历史上首次深刻意识到机器智能已经走到了一个临界点,未来的增长曲线或许会变得非常陡峭。

大家所看到类似ChatGPT产品的底层算法都是GPT(Generative Pretraining Transformer)。虽然对于GPT的介绍已经很多了,但今天我想探讨一下为什么一个只是预测下一个单词的语言模型能够产生如此好的效果,蕴含如此巨大的智能。

数据压缩是探讨这一问题非常重要的视角,但却很少有中文文章涉及。我最近看到了一篇相关的文章,标题是《ChatGPT是网上所有文本模糊的图片》。文章中提到ChatGPT的参数是对于Web的有损压缩,这种说法虽然不算错,但将GPT技术和有损压缩联系起来,不利于人们深入理解GPT的核心训练任务即无损地对训练数据集进行压缩(没错,前面说是有损,后面说是无损,我接下来会详细说明)。

这篇文章有一些偏技术,如果你觉得后面的公式太过抽象,只需记住以下三句话即可,这也是本文的核心思想:

    1.通用人工智能(AGI)的追求在于更强的泛化能力。泛化能力越强,智能水平越高

    2.压缩就是泛化。对于一个数据集最好的无损压缩,就是对于数据集之外的数据最佳泛化

    3.GPT预测下一个token的训练任务,等同于对训练数据进行无损压缩。GPT是目前最好的数据无损压缩算法,因此具备最强的智能

什么是泛化能力? 

泛化就是从已知推到未知的过程。如图所示,我们关心的核心问题是如何从已经观察到的数据中,了解到关于可观察数据外数据的规律(你也可以理解成分布外数据或者测试数据)。一个模型越能够准确预测黄色部分,它的泛化能力就越强。 

dcbf11473c252e46c476f2086c8ebedf.png

对于智能的直观理解

1980年,John Searle提出了一个著名的思想实验《中文房间》。实验过程可以表述如下:

将一个对中文毫无了解,只会说英语的人关在一个只有一个出口的封闭房间里。房间里有一本用英文写成的手册,其中包含了所有可能出现的中文句子及其对应的中文回答。房外的人不断向房间内投递用中文写成的问题,而房间内的人会在手册中找到相应的匹配,并将答案递出房间。

76fd80c40cf2f94d08afc3a826e4a09d.png

这样一个庞大的手册显然代表着非常低的智能水平,因为一旦遇到手册中没有的词汇,这个人就无法应对了。

如果我们能够从大量的数据中提取出一些语法和规则,那么手册可能会变得更加精简,但是系统的智能水平将会更高(泛化能力更强)。

手册越厚,智能越弱;手册越薄,智能越强。就好像公司雇一个人好像能力越强的人,你需要解释得越少,能力越弱,你需要解释得越多。有没有一种更准确的方式来描述甚至是量化智能呢?

压缩就是通用智能

2000 年,计算机教授Marcus Hutter 证明,找到理性主体的最优行为等同于压缩其观察结果。本质上他证明了奥卡姆剃刀,最简单的答案通常是正确答案。

他在2006年发起了一个竞赛,名叫Hutter Prize,鼓励研究和发展更高效的通用数据压缩算法。该竞赛的目标是设计出一个可以在给定数据集上实现最佳压缩率的通用算法。

他在Hutter Prize的官网上说,

...为了压缩数据,必须找到其中的规律,这本质上是困难的,...能够很好地压缩与智能密切相关...

如果Hutter是对的,那我们就可以通过压缩效率来近似量化模型的智能。

LLM是一种无损的数据压缩器

假设你需要将一些数据从遥远的半人马座星系传输回地球,但是带宽非常珍贵,你需要用最少的比特数来传输数据,并且保证另一端可以无损地恢复你的数据。你可以采用以下方法:

首先,准备一个语言模型的训练代码,每次运行时都会生成相同的神经网络模型(使用相同的种子和超参数等)。

其次,在N条数据上运行训练程序,假设batch_size=1,在t时刻,将在所有token概率分布Pt下的,Xt的概率取出,并使用算术编码将其转换为二进制小数,记为Zt。以此类推,得到一个由Z1,Z2,Z3,...,Zn构成的列表。

7a00cefc54ba14a4a5b886ea9c193c6f.png

如果要在另一端无损地还原这N条数据,只需传输以下两个内容:

  1. Z1-Zn的列表。

  2. 语言模型训练代码。

d71f20e148e1b95cf8e291af974819a6.png

在接收端进行解码时,我们使用收到的训练代码初始化网络。在时间戳t时刻,模型使用Pt对Zt进行算术解码得到Xt。需要注意的是,t时刻的token概率分布Pt在发送端和接收端是完全一致的。

d2ab7fb0929318eb7102cfc46464b668.png

整个过程是一个无损的数据压缩过程,基于语言模型的训练代码,我们将N条数据压缩成了Z1-Zn的一串数字,每个压缩后的数据大小为-logp(x)。需要注意的是,在整个过程中,我们不需要发送整个神经网络(几百上千亿参数)。

因此,使用语言模型来压缩数据集D的总比特数可以表示为以下公式:

bd60cdbb95f3453630783e90bbfe125b.png

最小描述长度(MDL)是信息论和统计学中的一个原则,在选择模型的时候,要选择具有最小描述长度的模型。最小描述长度的单位是比特,也就是需要多少比特可以来描述模型。这是一个可以精确计算的数值。

一个基于transformer的模型的描述长度大概在100kb ~ 1MB之间(所有必要的代码大小)。模型的参数不属于模型的描述长度。

LLM是目前最好的无损数据压缩器

a9034f88d87eac7feafaffb113ab0f88.png

根据LLaMA论文中的数据,我们可以计算出具体的模型压缩比。绿色和红色的两个模型在数据集上只训练了1个epoch,处理的数据量相同,模型的描述长度也相同。语言模型f在数据集D上的负对数似然是训练时下一个token的预测损失之和,也就是曲线下方的积分面积。

计算曲线下面的积分面积得到大约400GB,原始训练数据集的大小是5.6TB,因此整体的压缩比约为14倍 (5.6TB/400GB ~= 14x)。目前在Hutter Prize上最好的无损文本压缩器可以实现8.7倍的压缩,LLM是一个比传统压缩算法更好的无损压缩器。

有损vs无损压缩

我们常常觉得chatgpt在关于事实性问题上错误百出,比如说问他刘慈欣是哪个城市的,模型还是会答错。这是因为在训练过程中,模型慢慢地记住了一些训练数据,模型的参数可以看成是一个对于训练数据的有损数据压缩,但这个损失是非常高的。这也是为什么在回答事实性问题的时候,我们需要搜索引擎来帮忙。

还记得我们开始的那张图吗,我们关心的不是红圈里面的内容,而是黄色的部分,因为我们关心的是泛化,而泛化才是智能。

4e547eae88baae7d8fc94615110b65b4.png

几乎所有的大语言模型都能看做是某种文本压缩器,包括最早的n-gram,到RNN到Transformer等等。模型的参数量是已知的可以带来更好压缩比的方法,但scale并不是全部,更好的算法模型还有待于发现。

如果我们能找到更好的算法,能够让loss在开始训练的时候可以下降得更快,或者能够更好地处理不同类型的数据,都将极大地加强我们的压缩能力,也就会实现更好的泛化能力。

写在最后

本篇文章参考了OpenAI大语言模型的团队负责人,Jack Rae在Stanford ML Seminar上的分享,这是我近期听到的最好的talk,好久没有感受过的醍醐灌顶的感觉,原本的内容很长,我重新整理了一下思路,提炼出重点内容做了不影响原意的转述,如果你有兴趣的话,还是希望你去看看原本的视频。

MDL包括所罗门诺夫的归纳推理理论都只是领域内的竞争性的理论之一,在OpenAI没有通过ChatGPT一炮而红之前,关于数据压缩理论是否是通往通用人工智能的最佳方案,学界还有很多不同观点。针对于文本进行压缩,是否缺失了很多世界信息,压缩任务能否帮助到人类关心的任务(总结、分类、推理等等),压缩理论针对于图像其它模态效率很低等问题,也一直存在疑问。ChatGPT的成功也让这个理论在接下来会受到更多人的关注,理解和运用这些理论并不难,但是在不同思路中,如何慧眼独具地看到transformer作为一个通用计算引擎对于压缩数据任务的帮助,并且坚信更好的压缩比可以带来更大的智能,这反映了团队的学术眼光和品味。

Reference

  1. Compression for AGI - Jack Rae | Stanford MLSys #76

https://www.youtube.com/@StanfordMLSysSeminars

2. http://prize.hutter1.net/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36958.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[day5]python网络爬虫实战:爬取Top250电影(Scrapy版)

l> 我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版,欢迎购买。点击进入详情 文章目录 1.开发环境2.第三方库3.Scrapy css 语法4.网页分析5.xx.py6.保存爬取的内容为csv文件7.问题1:"UnicodeDecodeError: utf-8 codec …

在Flutter中使用markdown

最近在写flutter入门的项目,打算把常用的widgets和插件用法总结下,方便后期查找,项目大概是这个样子。 搜索页 widgets属性页面写的时候考虑排版,但是文字居多,如果设计下排版,用widgets把样式写好&#xf…

vvic、小红书API接口调用

本帖只展示部分代码及接口 需了解更多或开发系统请移步注册测试 http://console.open.onebound.cn/console/?iRookie { “item”: { “num_iid”: “5eb1097ba091410953951d17”, “title”: “2020夏季新款韩版女装高腰直筒裤宽松阔腿西装短裤上班穿搭 黑色 M”, “desc_shor…

Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 源码下载

Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 一、技术说明 网易云音乐数据(歌单、用户、歌词、评论)Python爬取Flask框架搭建ECharts、WordCloud可视化项目。系统分为:数据采集模块、数据分析处理模块、数据存储模块、以及数据可视…

【vue3仿网易云音乐app】歌单列表以及歌单界面

实现效果: 实现思路: 异步获取后台api中的歌单信息使用轮播图组件,实现歌单轮播将播放量转换为万、亿单位点击歌单画面,进入单独的歌单详情页 具体实现过程: 1. 异步获取后台api中的歌单信息 在api/index.js中定义获…

【分享】用java和pathon实现小红书(Red Booklet)客服自动回复功能、技术实现分析

技术栈:python、java、android,进程管理、socket通信 客户需求: 客户需要在Red Booklet平台做一个可以24小时自动回复用户私信、评论、回关用户等行为的客服软件。他说他们公司有50个小红书号,十几个客服,急需一款代…

哪家互联网大厂,对离职员工最“狠”?

本文转载自 时代数据,作者 张照 又到一年毕业季。今年高校应届毕业生达到909万人,再创历史新高。 但最让毕业生们焦虑的是,能否顺利进入互联网大厂工作。因为对于他们来说,进入一家互联网大厂工作意味着丰厚的薪水和光明的前景。…

被裁员,HR说要背调阴我!网友说,主动裁员还敢整人?录音留证,必须诉讼!...

HR能卑鄙到什么程度? 一位网友爆料:自己被裁员,HR威胁说要背调阴我,我说:随便! 网友说,主动裁员还敢整人?录音留证,必须诉讼! 有人让楼主威胁回去&#xff0c…

聊聊裁员

大家好!我是韩老师。 从去年下半年开始,无论是大厂还是小厂,不少公司都裁员风波不断。 昨天“微软科技”公众号上,也提及了裁员。 原文链接:预见2023 | 微软侯阳:上半年将在华推出两大服务,始终…

公司通知要大裁员,hr太强势,和所有人吵起来,老板见势不妙,不得不答应大家要求,把HR一起裁掉了!...

在裁员中,hr一般都会代表老板的利益和员工对抗,但如果hr和员工闹翻了,老板会维护hr吗? 一位网友说: 一上班就收到消息要裁员,立马让报上名单面谈,锁电脑关权限。后面那些人面谈的时候吵起来了&a…

谷歌、亚马逊、Meta等多家科技公司被爆员工「假工作」,裁员成最终归宿

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 国际知名商业顾问 Brent Peterson 和 Gaylan Nielson 曾在《Fake Work》中定义 「假工作」—— 在价值幻觉下所做的努力,包括毫无意义的会议、报告和演示。 在科技行业&…

雅思口语高分课程

雅思口语高分课程 雅思口语7的途径 课程英文名:Score High Ielts Speaking 此视频教程共4.0小时,中英双语字幕,画质清晰无水印,源码附件全 下载地址 百度网盘地址:https://pan.baidu.com/s/1eb-XCeEI5p5Z88Soc-hho…

应该如何训练自己的雅思口语?

如何训练自己的雅思口语?这是很多雅思考生在备考的时候遇到的问题,那么接下来就和来看看吧! 第一,用英文简单界定一个东西的技巧。美国人和美国人交谈80%是想告诉对方这个事物是什么。我们的课本尽管词汇难度不断加深,…

雅思口语想考7分,到底该说英音还是美音

在雅思口语考试中 英音和美音到底会不会影响我们的口语成绩 具体区别有哪些 英国人好像一贯有点瞧不起美国英语: 虽然不是女王本人所说(上图是个高仿号,并不是真英国女王),但戏谑也来源于生活,应该多…

不出国,雅思也有大用。来看这篇IELTS雅思考试超详细扫盲贴

文 / 冷玥(微信公众号:王不留) 随着欧美国家陆续开放边境,出国留学的话题也开始热了起来。 我根据周围小伙伴们的经验分享,结合自身经历,整理了一份雅思考试扫盲帖,大约8000字,希望对…

【ChatGPT|AI 应用】AI 助力 Excel ,办公效率倍倍倍增

应用背景 Word、Excel 和 PowerPoint 是办公工作中最基本的三个应用程序,它们可以帮助用户创建、编辑和展示各种文档、电子表格和演示文稿。无论您是为了工作还是学习,使用 Microsoft Office 套件可以提高您的效率并使您的工作更加专业和高效&#xff0…

chatgpt智能提效职场办公--ppt怎么做

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 导入PPT有 1.通过菜单导入 打开PowerPoint 找到菜单栏中的 点击"插入" 总结 最后的最后 以上是chatgpt能力的冰山一角。…

大模型技术发展概述 -(四)

文本内容参考论文《A Survey of Large Language Models》 论文标题:A Survey of Large Language Models 论文链接:https://arxiv.org/pdf/2303.18223v10.pdf 大模型技术发展概述 -(四) 6. 使用方法6.1 上下文学习6.1.1 提示形式6.…

ChatGPT +工业机器人/自动驾驶控制器的一些尝试

ChatGPT 的功能目前已扩展到机器人领域,可以用语言直观控制如机械臂、无人机、家庭辅助机器人等的多个平台。这会改变人机交互的未来形式吗? 你可曾想过用自己的话告诉机器人该做什么,就像对人说话那样? 比如说,只要告…

multimodal prompting

Prompting for Multimodal Hateful Meme Classification 这篇文献探讨了针对hateful memes的分类问题,提出了一种基于提示的方法(PromptHate),该方法利用预训练的语言模型来实现分类。由于hateful memes需要复杂的推理和上下文背…