【AI学习】LLM的发展方向

个人的思考,请大家批评。

这一轮AI浪潮,叙事的主要逻辑就是scaling law,模型越大,性能越好,投入越大,性能越好,回报越高,等等。当然,首先要有一个能够scaling的模型架构,Transformer是首个能够scaling的模型架构,去年的Mamba学习,了解了为什么CNN、LSTM这些架构为什么无法scaling。

在这里插入图片描述

Scaling law,以前主要集中在LLM的预训练方面。一段时间有个说法,模型的智能主要来自预训练,后面的SFT主要是提升指令跟随能力,RLHF主要是价值对齐。

Ilya在NeurIPS 2024的发言,宣布预训练即将结束,于是大家需要寻找新的scaling law方向。不同的人说法不同,大概有数据、RL、Inference-time compute(也有叫做test-time compute)等scaling方向。数据方面,不断生成高质量数据,包括合成数据,越多的高质量数据,应该可以增强模型性能。现在看起来模型的后训练,从基础模型到推理模型,通过RL也可以提升模型性能,Inference-time compute,越长的推理时间,也可以提升性能。这些方面,论述太多,不用我赘述了。

个人觉得,可能还有两个scaling方向,就是训练成本和推理成本的持续降低,或许这依赖于新的更高效——同时也能scaling的架构。就如Albert Gu所说,“目前的模型消耗的数据远远超过人类学习所需的数据量。我们早已意识到这一点,但由于规模扩展的惊人效果,我们一直在忽视这一事实。训练一个模型需要万亿级的tokens,而人类成为一个相对智能的存在所需的数据量却少得多。因此,我们的最佳模型和人类之间存在着样本效率的差异。人类的学习表明,存在某种学习算法、目标函数、架构或其组合,可以比当前的模型更高效地学习。”

推理成本的降低,可以提升推理性能。DeepSeek技术报告也指出了这一点。同样的计算成本,推理成本的降低,意味着更大的搜索空间,当然有更好的推理性能。

关于训练成本,如果能够不断降低,将会带来更多模型。前文说了,模型的智能主要来自数据集,模型是在学习数据集的数据分布。现在LLM的训练,不断增加所谓的高质量数据,降低通用数据的配比,是否会导致模型在通用性能的下降?就如不同的人,学习的内容不一样,最后的结果可能也不一样。未来,必然需要各种擅长不同领域的模型,比如管理、科学、工程、财务、艺术等等,不同的模型就需要不同的数据配比,未来对模型的种类方面的需求必然越来越多。就像人脑,不同的区域完成不同的功能。模型的训练成本降低,就可以推出系列模型,组合成一个类比整个社会系统的大模型,这是未来更大的Scaling方向吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15596.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言学习笔记:子函数的调用实现各个位的累加和

在C语言程序学习之初,我们都会学习如何打印 hello world,在学习时我们知道了int main()是主函数,程序从main函数开始执行,这是流程控制的一部分内容。在主函数中我们想要实现一些功能,比如求各个…

白话文实战Nacos(保姆级教程)

前言 上一篇博客 我们创建好了微服务项目,本篇博客来体验一下Nacos作为注册中心和配置中心的功能。 注册中心 如果我们启动了一个Nacos注册中心,那么微服务比如订单服务,启动后就可以连上注册中心把自己注册上去,这过程就是服务注册。每个微服务,比如商品服务都应该注册…

2025.2.9 每日学习记录2:技术报告写了一半+一点点读后感

0.近期主任务线 1.完成小论文准备 目标是3月份完成实验点1的全部实验和论文。 2.准备教资笔试 打算留个十多天左右,一次性备考笔试的三个科目 1.实习申请技术准备:微调、Agent、RAG 1.今日完成任务 1.电子斗蛐蛐(文本书写领域&am…

【Git】ssh如何配置gitlab+github

当我们工作项目在gitlab上,又希望同时能更新自己个人的github项目时,可能因为隐私问题,不能使用同一′密钥。就需要在本地电脑上分别配置两次ssh。 1、分别创建ssh key 在用户主目录下,查询是否存在“.ssh”文件: 如…

【设计模式】【行为型模式】职责链模式(Chain of Responsibility)

👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 📫 欢迎V: flzjcsg2,我们共同讨论Java深渊的奥秘 &#x1f…

Spring Boot牵手Redisson:分布式锁实战秘籍

一、引言 在当今的分布式系统架构中,随着业务规模的不断扩大和系统复杂度的日益增加,如何确保多个服务节点之间的数据一致性和操作的原子性成为了一个至关重要的问题。在单机环境下,我们可以轻松地使用线程锁或进程锁来控制对共享资源的访问,但在分布式系统中,由于各个服务…

apache-poi导出excel数据

excel导出 自动设置宽度&#xff0c;设置标题框&#xff0c;设置数据边框。 excel导出 添加依赖 <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.2</version></dependency>…

畅游Diffusion数字人(16):由音乐驱动跳舞视频生成

畅游Diffusion数字人(0):专栏文章导航 前言:从Pose到跳舞视频生成的工作非常多,但是还没有直接从音乐驱动生成的工作。最近字节跳动提出了MuseDance,无需复杂的动作引导输入(如姿势或深度序列),从而使不同专业水平的用户都能轻松进行灵活且富有创意的视频生成。 目录 贡…

Kokoro 开源文本转语音引擎上线!多语言支持,无需联网,浏览器内极速运行

Kokoro 是一款轻量级的开源文本转语音(TTS)引擎,凭借其高效能和轻量化设计,迅速在技术社区中引起关注。本文将详细介绍 Kokoro 的主要特点,并提供在浏览器和 Python 环境中的代码示例,帮助您快速上手。 1. Kokoro:可在浏览器中运行的 TTS 引擎 1.1 简介 Kokoro 是一个…

人工智能学习(七)之神经网络

目录 一、引言 二、经典神经网络回顾 &#xff08;一&#xff09;结构与计算过程 &#xff08;二&#xff09;局限性 三、循环神经网络&#xff08;RNN&#xff09;原理 &#xff08;一&#xff09;基本结构 &#xff08;二&#xff09;计算过程 &#xff08;三&#xf…

在Java中操作Redis

4.在Java中操作Redis 4.1 Redis的Java客户端 前面我们讲解了Redis的常用命令&#xff0c;这些命令是我们操作Redis的基础&#xff0c;那么我们在java程序中应该如何操作Redis呢&#xff1f;这就需要使用Redis的Java客户端&#xff0c;就如同我们使用JDBC操作MySQL数据库一样。…

大语言模型需要的可观测性数据的关联方式

可观测性数据的关联方式及其优缺点 随着现代分布式架构和微服务的普及&#xff0c;可观测性&#xff08;Observability&#xff09;已经成为确保系统健康、排查故障、优化性能的重要组成部分。有效的可观测性数据关联方式不仅能够帮助我们实时监控系统的运行状态&#xff0c;还…

棱光PDF工具箱:一站式解决你的各种需要

今天为大家介绍一款非常实用且完全免费的PDF工具箱——棱光PDF工具箱。它功能强大&#xff0c;操作简单&#xff0c;能够满足你对PDF文件的各种处理需求&#xff0c;包括添加水印、去除水印、批量转换格式等&#xff0c;绝对值得推荐&#xff01; 棱光PDF工具箱 棱光PDF工具箱…

Docker安装Redis

一、保证Docker提起来了 systemctl status docker想这没有启动要先启动一下 systemctl status docke二、拉取Redis&#xff08;默认拉最新版&#xff09; sudo docker pull redis检查一下拉成功没有 docker images三、创建相关目录 mkdir -p /home/redis/{conf,data}四、…

云原生(五十四) | RDS数据导入与导出

文章目录 RDS数据导入与导出 一、导入场景说明 二、RDS数据导入实现 三、导出场景说明 四、RDS数据导出实现 RDS数据导入与导出 一、导入场景说明 思考&#xff1a;我们刚才的操作都是通过SQL语句实现的&#xff0c;如果我们要导入的文件是以SQL、CSV或Excel等形式存储&…

如何使用DeepSeek帮助自己的工作?

最近众多大模型爆火,如日中天的,莫过于最近的DeepSeek了,那么怎么去利用它帮助我们的工作呢? 代码生成与优化 快速生成代码:程序员可以直接通过自然语言描述功能需求,让 DeepSeek 生成相应的代码。比如需要实现一个用 Python 编写的计算斐波那契数列的函数,只需简单描述…

Python Pandas(3):DataFrame

1 介绍 DataFrame 是 Pandas 中的另一个核心数据结构&#xff0c;类似于一个二维的表格或数据库中的数据表。它含有一组有序的列&#xff0c;每列可以是不同的值类型&#xff08;数值、字符串、布尔型值&#xff09;。DataFrame 既有行索引也有列索引&#xff0c;它可以被看做由…

防火墙术语大全( Firewalld Glossary of Terms)

防火墙术语大全 防火墙作为网络安全中不可或缺的设备&#xff0c;在各种网络架构中扮演着至关重要的角色。无论是企业级防火墙、云防火墙还是家用路由器内置的防火墙&#xff0c;它们的工作原理和配置策略都离不开一系列专业术语的支撑。对于网络工程师来说&#xff0c;掌握这…

Web前端开发--HTML

HTML快速入门 1.新建文本文件&#xff0c;后缀名改为.html 2.编写 HTML结构标签 3.在<body>中填写内容 HTML结构标签 特点 1.HTML标签中不区分大小写 2.HTML标签属性值中可以使用单引号也可使用双引号 3.HTML语法结构比较松散&#xff08;但在编写时要严格一点&…

深度整理总结MySQL——MySQL加锁工作原理

MySQL加锁工作原理 前言前置知识- 锁为什么加在索引上锁的粒度优化提高并发性避免全表扫描优化死锁处理解决幻读问题 什么SQL语句会加行级锁MySQL是如何加行级锁场景模拟代码唯一索引等值查询退化为记录锁为什么会退化为记录锁分析加了什么锁为什么会退化为间隙锁为什么我可以插…