【大模型llms本质,并分析未来发展反向】

大模型的本质: 是有损压缩后的概率模型

2024年2月28日,OpenAI 的核心研发人员 Jack Rae 在参加 Stanford MLSys Seminar 的访谈时进行了一个名为 Compression for AGI 的主题分享,其核心观点为:AGI的一个关键目标是通过最小描述长度(Minimum Description Length, MDL)的原则来压缩信息。这意味着模型应该能够以最简洁的形式表达观察到的现象,从而实现对世界的深刻理解和泛化能力。尽管这种压缩方法展示了极大的潜力,Rae也指出目前的生成模型在处理复杂任务时仍然存在一定的局限性,例如在理解和处理多模态数据时的能力有限

Ilya Sutskever, OpenAI的联合创始人兼首席科学家,在多次讨论中强调了压缩与无监督学习之间的紧密关系。他提到,一个优秀的压缩器能够识别和利用数据集中共享的模式,这与无监督学习在无标签数据中发现结构的过程非常相似。他将无监督学习视为对最优数据压缩的近似,这意味着大规模神经网络(通过梯度下降训练)实际上是在模拟这种最优的压缩器。通过这种方式,压缩不仅仅是一种技术手段,而是推动人工智能能力极限的重要原则。

举一反三,用简单的道理来描述复杂的世界,往往是智慧的象征。

在程序员的世界里,大家都喜欢用最简短的代码来实现同样的功能,压缩率越高的代码往往意味着程序员的能力越强。同样的,我们可以类比一些经典的例子来理解压缩在科学领域的重要性。比如,在计算1加到10000的总和时,我们可以采用逐一相加的方法,但这显然效率低下。而通过高斯求和公式,我们可以直接得出结果:(1+10000)×10000/2,这种方法通过公式化的压缩,极大地提高了计算的效率,也代表了人类高级智慧的结晶。

🔵 有损压缩(信息的模糊和还原):

这一类压缩常见于图像和视频领域,例如将高分辨率图像压缩为体积更小的低分辨率图像。类似地,大语言模型在生成文本时可能也在进行某种形式的有损压缩,以提高生成速度和效率,但代价是潜在信息的丢失。

🔵 无损压缩(从现象总结为规律,再到推演预测):

无损压缩的经典例子是将文本文件压缩为ZIP文件,压缩后的数据可以完全恢复原状。学者们发现,通过大语言模型进化的压缩算法可以实现更高效的压缩效果,这表明这些模型在本质上是一种高级的无损压缩器,能够捕捉和保留数据中的重要结构和模式。

同样的,通过对事务的初始状态、数学公式、物理规律和逻辑推导,来预测事务的变化,也属于无损压缩的范畴。牛顿在发现万有引力定律时,将复杂的天体运动现象压缩为一个简单的公式,认为这个定律可以解释和预测宇宙中的一切现象。他坚信,通过他的数学公式和物理定律,所有自然现象都可以被精确地计算和预测。
🔵 大模型为什么做不到极限的无损压缩呢?

下图展示了常见大模型的参数量与其训练数据量之间的关系。从中可以看出,不同模型的压缩率存在显著差异,尤其是一些参数量较小的模型,往往表现出更高的压缩率。这意味着,较小的模型通常使用更模糊和抽象的概率分布来模拟原始信息。
在这里插入图片描述
由于这些模型在参数量有限的情况下进行信息压缩,它们在试图还原训练数据中的细节时,准确性往往会降低。这种高压缩率虽然有助于提高模型的效率,但也不可避免地导致信息的丢失,使得模型在处理复杂或细节丰富的任务时,表现出一定的局限性。这表明,虽然有损压缩可以提高模型的处理速度和存储效率,但在保持信息完整性方面仍存在挑战,也就不可能达到100%的准确率。

我们常常会发现,大模型在处理事实性问题时容易出错,例如关于某年某月的新闻事件,或者某个名人的出生年月日及其人物关系。这是因为这些事实性内容往往是高度具体的事实性内容,很难通过压缩算法进行有效的处理。例如,每一个人物的姓名与身份证号码的匹配关系,具有高度的信息量和唯一性这样的内容几乎不可能被压缩,只能通过逐一记忆来实现。

但是我们目前给大模型训练的数据往往是这些具体而又很难被压缩的信息!这些看起来信息量很高的数据对于逻辑推理和寻找规律来说,都是垃圾数据,因为其无法被进一步抽象。
提示:说明需要要逻辑推理强,对事实性的内容要少,现在的大模型训练过程还是太粗糙。
第一语料粗糙,第二是压缩的模型效率还需要提升。因为需要超大算力。

有三个方面可以做工作。1、推理能力和事实能力有在模型里要区分开来,事实性知识进行编码压缩就好。推理规律能力需要压缩,也就是人类大脑的分区,现在的LLMS还是太粗糙了。2、要对语料提高质量,类似于用好的老师教大模型。3、压缩比提高效率,像这样烧算力,烧电力的智慧不可持续。也就是模型结构,损失函数创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415441.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苹果11月推出新款M4 Mac:Mac mini设计焕新 MacBook Pro仅例行更新

据外媒 MacRumors 报道,苹果公司计划在 11 月推出首批 M4 Mac,这一时间表与去年相似,当时苹果公司在同样的时间点中宣布推出搭载 M3 芯片的 MacBook Pro。 ▲ 苹果公司在 2023 年 10 月 31 日推出的 M3 MacBook Pro 同时根据古尔曼爆料称苹果…

安宝特科技 | AR眼镜在安保与安防领域的创新应用及前景

随着科技的不断进步,增强现实(AR)技术逐渐在多个领域展现出其独特的优势,尤其是在安保和安防方面。AR眼镜凭借其先进的功能,在机场、车站、海关、港口、工厂、园区、消防局和警察局等行业中为安保人员提供了更为高效、…

Tableau 社区项目 | 参与 Data+TV 挑战,洞悉全球电视剧集数据的精彩故事!

如果你钟爱某部电视剧集,正苦于没有数据练手,就快来参与 DataTV 挑战吧~ 去年,Tableau 和 IMDb 携手发起 DataMovies 挑战,吸引了全球各地的数据爱好者与影迷参与。今年,TC24 Viz 竞赛也以此为主题,让我们领…

SprinBoot+Vue问卷调查微信小程序的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue3.6 uniapp代码 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平…

vsCode多文件标签栏换行显示

1.文件——首选项——点‘设置’ 2.输入 wrap tabs 并勾选Workbench › Editor: Wrap Tabs

Spring Boot源码阅读——spring.factories的加载机制

Spring Boot源码阅读——spring.factories的加载 提到 SpringBoot 的自动装配,不管是文章还是视频,都会提到 spring.factories 这个文件,这篇文章就来简单讲讲 spring.factories 的作用,以及它是怎么被加载的 简介 位置 以 Sprin…

Opencv中的直方图(3)直方图比较函数compareHist()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 比较两个直方图。 函数 cv::compareHist 使用指定的方法比较两个密集或两个稀疏直方图。 该函数返回 d ( H 1 , H 2 ) d(H_1, H_2) d(H1​,H2​…

学习笔记--Docker

安装 1.卸载旧版 首先如果系统中已经存在旧的Docker,则先卸载: yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine 2.配置Docker的yum库 首先要安…

Socket编程---UDP篇

目录 一. UDP协议 二. Socket编程 2.1 sockaddr家族 2.2 接口介绍 三. 服务端实现 四. 服务端调用实现 五. 客户端实现 六. 效果展示 一. UDP协议 何为UDP协议的含义,上篇粗略提及了一下TCP与UDP的区别: TCP: •…

2024最新盘点:主流的仓库管理软件有哪些?

本文将盘点10款主流的仓库管理软件,为企业选型仓库管理软件提供参考。 库存数据不准确、订单处理效率低下、仓库作业流程不规范?在数据管理与分析上遇到困难,企业发展和竞争力受阻?物流行业高速发展,而仓储管理却遇到重…

【Python入门】第1节 基础语法

📖第1节 基础语法 ✅字面量✅注释✅变量✅数据类型🧊数据类型转换 ✅标识符✅运算符✅字符串扩展🧊字符串的三种定义方式🧊字符串拼接🧊字符串格式化🧊格式化的精度控制🧊字符串格式化方式2&…

Windows bat脚本学习六(十六进制与十进制互转)

一、十六进制转十进制 十六进制数转十进制数相对比较简单,可以直接通过0x来实现。 见如下代码: echo off chcp 65001set taaset /a hex0x%t% echo data%hex%pause 结果: 二、十进制转十六进制 这个转化比较麻烦,没有简便的方式转…

通过 GitHub Actions 执行数据库 Schema 变更工作流

原文地址 https://www.bytebase.com/docs/tutorials/github-ci/ 教程库:https://github.com/bytebase/github-action-example 开发者们喜欢将 Schema 变更脚本与应用程序代码一起保存在 Git 中,这样变更脚本就能像应用程序代码一样接受审核和版本控制&…

哪款直流电能表可在电信基站、直流充电桩、太阳能光伏用

安科瑞徐赟杰18706165067 在电信基站、直流充电桩、太阳能光伏等应用场合中,可使用DJSF1352-RN导轨式直流电能表,此表带有双路直流输入,该系列仪表可测量直流系统中的电压、电流、功率以及正反向电能等。可计量总电能,又可计量规…

ev录屏损坏修复

ev录屏应该不正常关闭,录屏损坏 淘宝买了一个软件,修复成功,需找一个当时时间段的正常录屏学习,然后高级修复。整体花费5毛钱

记录一下idea的一些使用技巧和遇到的异常(持续更新)

技巧 自己的模板——live template 有些代码在项目中通常会被用到或会被重复使用,可以自己写一个模板存起来,要用的时候用快捷键生成就可以了。 在这里选择生效范围 现在,就有我们自己的模板了,一回车就自动生成 idea的全局配置…

人工智能 | 结对编程助手GithubCopilot

简介 GitHub Copilot 是一款 AI 结对程序员,可帮助您更快、更少地编写代码。它从注释和代码中提取上下文,以立即建议单独的行和整个函数。GitHub Copilot 由 GitHub、OpenAI 和 Microsoft 开发的生成式 AI 模型提供支持。它可作为 Visual Studio Code、…

win系统安装mysql,使用mysqldump,pycharm使用mysqldump,避坑

文章目录 下载mysql的win客户端设置系统环境变量验证是否可用pycharm使用mysqldump异常问题排查 下载mysql的win客户端 官网下载地址如果下载旧版本,需自行到Archives里面找 本人使用的是mysql5.7,找到相应版本后,点击Download下载 设置系统…

[Java]SpringBoot登录认证流程详解

登录认证 登录接口 1.查看原型 2.查看接口 3.思路分析 登录核心就是根据用户名和密码查询用户信息,存在则登录成功, 不存在则登录失败 4.Controller Slf4j RestController public class LoginController {Autowiredprivate EmpService empService;/*** 登录的方法** param …

数仓基础(七):离线与实时数仓区别和建设思路

文章目录 离线与实时数仓区别和建设思路 一、离线数仓与实时数仓区别 二、实时数仓建设思路 离线与实时数仓区别和建设思路 一、离线数仓与实时数仓区别 离线数据与实时数仓区别如下: 对比方面 离线数仓 实时数仓 架构选择 传统大数据架构 Kappa架构 建设…