一年前 LLM AGI 碎片化思考与回顾系列⑧ · 穿越SystemⅡ未知之境

阅读提示:

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。
因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!
最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。

「2023/06/18 · 穿越SystemⅡ未知之境」

背景提要 ↓

基于上一篇“在未知之境中徘徊”,对一些有关system2的本质问题继续通过慢思考的模式来尝试进行思维扩散,并尝试在其中过滤并把握住一些本质洞察。而对复杂的长链推理本身而言,对于我们当下的探索来说仍有许多未解之谜。同时,大家可以结合本次记录和思考的内容,可以去阅读那篇「融合RL与LLM思想,探寻世界模型以迈向AGI」文章的中篇第一小节「system2·慢思考本质阐释」,我想将会有一些不一样的体会吧,这也是这个系列分享目的之一。

记录正文 ↓

上接12号探索并尝试大胆猜想的模型网络结构中参数激活传递的多跳推理映射机制,有三点想法的反思与再理解:

① 本质上,当前system1范式下的LLM的单跳神经元激活映射与system2对比来看更多是某种程度的粗粒度特征匹配映射(Pattern映射),比如红色-火焰,蓝色-海洋..而system2的E2E长链推理是经历了更精细化、长程的类思维过程逻辑(如COT/TOT)的多步模式匹配或特征映射,本质上与system1上述特征映射通过底层的数学变换建立不同表征空间之间的pattern匹配相同,即均是映射,将位于两种不同模态空间中的形式化符号表达merge到一起。因此在模型训练过程中,为了精细化的学习到上述映射pattern,也许需要构建这种细粒度优化目标并匹配精细化token训练样本数据,以进一步学习掌握这种通用的可泛化的过程推理模式。同时,对于模型网络结构的构造上,亦需要进一步考虑在网络中信号激活传递过程中激活函数的选择以匹配熵增这种精细化推理链的扩散与泛化。

② 另外,上一次记录思考过程中,关于生成COT/TOT等显性的这些中间逻辑思维链是否作为从输入到输出的中间必要环节,对应的是否可以仅通过输入和最终结果的输出建立模型的E2E学习而不去考虑中间过程目标优化,使得COT/TOT等思维链在训练过程中自然的隐含在神经网络结构中信号激活传递过程中,对于这两种训练方法是否可以采用一种折中的方式来进行持续的探索和对比:

第一步:先准备精细化多步骤过程推理token映射的数据样本集,用做对通用思维链的抽象推理模式学习;

第二步:通过观察第一步模型训练与推理过程中的激活状态,固定模型中某些参数(这里的意义在于限定最基本、最抽象的通用思维模式),使用远多于第一步粗粒度仅输入→输出的训练样本进行FT采样训练,这样是否就可以在模型训练到推理中即实现了自然的隐性神经网络参数学习以表征多跳连续精细化思考路径过程,又能够继承某些通用思维链泛化模式,同时还具备了多样性任务的适配,并且降低了精细化数据标注成本?但是这种模式也仅仅停留在某种先验下的猜想,且看上去并不是一种完备的E2E范式,如在第一步中的通用推理链学习的完备性。(注:用当前的话来说即是一种强先验的精雕,原因是我们似乎不能很好的把握第一步过程中这种通用推理模式的完备性以及泛化能力,甚至是这种泛化本身的内涵,也许一种可行的思路是在第一步中充分考虑并论证了第二步的复杂推理范畴在数据分布、泛化能力上的匹配与囊括,从而实现简单暴力下的E2E scaling law扩展)

当前时间线内容插入补充说明:

在这里,让我们得时间线回到当前2024年6月,前不久-2024/6/20,昆仑万维携手新加坡南洋理工大学开发并发表了一篇名为Q*的算法,《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》
我们知道,自OpenAI的Q*项目曝光后,引发业内众多讨论。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。
在上面这篇《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。
最后利用A*搜索算法对状态进行最佳优先搜索,在降低了一定的空间探索复杂度下,基于过程推理数据集尝试实现对复杂推理任务的最优规划路径,从而提升开源模型在推理任务上的性能。


其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。


具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建Process Reward Model (PRM) 进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。
为了获得状态 - 动作对 (s_t, a_t) 的最优 Q 值以实现规划,研究人员在当前 LLM 策略生成的数据上通过监督学习的方式训练了一个代理 Q 值模型

。训练过程中的真实标签

可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。
 



通过这篇paper,结合回顾过去一年前自己关于这一子部分的思考,感觉除了进一步加深了对system2下复杂推理的理解外,更多印证了当初一些悬而未决不确定的想法:这篇论文感觉基于当前普遍而流形的雨露均沾型框架诸如RLHF-PPO,DPO,PRM,MDP,A*,不过感觉这里以A*为基的Q*在降低了一定的复杂空间探索成本下,对数据集中过程性推理数据与知识分布的完备性要求和依赖会很高,否则学习到的最佳优先搜索策略的Q*在推理泛化能力上可能还会存在很多局限而以致在解决深度复杂问题和提出创新性的推理路径上难以形成突破。

③ 进一步扩散猜想与假设:针对现在的基于prompt提示词的单跳信号激活(system1)推理模式,当调整了prompt输入,可以想象的假设会在模型网络中实现信号激活路径的范围性偏移,而这种转移是以prompt作为输入为提示导致发生偏移的,其中看似在模型神经网络中神经元间信号多跳传递这种推理链激活范式并没有起到主导作用,而可能只是实现了对训练数据样本中的大范围表象知识的一种学习与表达,虽然这种知识特征层级的多跳信号激活传递可能也是与复杂推理链在通过底层的数学变换以建立不同表征空间之间的pattern匹配本质相同。


「本篇配图」

这篇笔记与上一篇对比来看似乎问题不是很多,也许也侧面体现出我想要快速走出或逃离这个未知之境的这种焦虑心态吧,包括对核心问题进行了收敛与聚焦,并尝试冒进的提出了自己的猜想、假设甚至行动方案。但这些真的可行吗或者思考的足够完备吗?回到一年之后再来回顾,也许当初的观点是片面的甚至是错误的,但尽管如此,在回顾自己一年前的想法和观点后,仍在某种程度上被prompt到,激起了我对当初观点或想法的进一步深度思考。

因此,本篇笔记的配图放上一张在我有清晰记忆的30多年间,经常反复回味的几道美食,尽管这些美食在这一段时间历程中经历了一些加工、烹饪和口味上的变化,但更多当初儿时的滋味还在,每一次的再次尝试都会唤起我更多的美好回忆。


「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「总结」

合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/363737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

期末C语言易错知识点整理

1.在定义多维数组时,除了最左边的维度,其余的维度必须明确指定大小 2.int m[1][4]{4}; 定义的是一个 1 行 4 列的二维数组,初始化时提供了一个元素 4,其余元素默认初始化为 0,因此是正确的。 3.二维数组 a[3][6] 中的索…

PKG打包sqlite3项目,如何添加node_sqlite3.node依赖

项目地址:https://github.com/helson-lin/pkg_sqlite 在ffandown项目内,由于项目使用了sqlite3,在跨平台打包的时候,除了本机外其他平台打包之后运行缺少node_sqlite3.node依赖。 为了解决问题,百度了很久&#xff0c…

分享一个导出数据到 Excel 的解决方案

前言 许多业务场景下需要处理和分析大量的数据,而 Excel 是广泛使用的文件格式,几乎所有人都能打开和查看 Excel 文件,因此将数据库中的原始数据处理后,导出到 Excel 是一个很常见的功能,对于数据管理、分析、备份、展…

【代码随想录】【算法训练营】【第45天】 [198]打家劫舍 [213]打家劫舍II [337]打家劫舍III

前言 思路及算法思维,指路 代码随想录。 题目来自 LeetCode。 day 45,周五,坚持不了一点~ 题目详情 [198] 打家劫舍 题目描述 198 打家劫舍 解题思路 前提:相邻两房屋不能连续盗窃 思路:动态规划, dp[i]: [0,…

【C语言】--操作符详解

🌭个人主页: 起名字真南 🍿个人专栏:【数据结构初阶】 【C语言】 目录 1 算术操作符1.1 和 -1.2 *1.3 /1.4 % 2 赋值操作符 :2.1 复合赋值符 3 单目操作符3.1 和- - 4 强制类型转换5 printf 和 scanf5.1 printf5.1.1 基本用法5.1.2 占位符5.…

Navicat连接Oracle出现Oracle library is not loaded的解决方法

目录 1. 问题所示2. 原理分析3. 解决方法1. 问题所示 使用Navicat链接Oracle的时候,出现如下提示:Oracle library is not loaded. 截图如下所示: 2. 原理分析 通常是由于缺少必需的 Oracle 客户端库或环境变量未正确配置所致 还有一种情况是 32位与64位的不匹配:Navica…

【数据可视化技术】1、如何使用Matplotlib和Seaborn库在Python中绘制热力图

热力图是一种数据可视化技术,可以显示变量之间的相关性。这个代码段是数据分析和可视化的常用方法,特别适合于展示变量之间的相关性,对于数据科学和机器学习项目非常有帮助。 1、 导入必要的库 首先,确保你已经安装了matplotlib…

javaSE知识点整理总结(上)

目录 一、面向对象 1. 类、对象、方法 2.面向对象三大特征 (1)封装 (2)继承 (3)多态 二、常用类 1.Object类 2.Array类 3.基本数据类型包装类 4.String类 5.StringBuffer类 6.Math类 7.Random…

WAIC2024 | 华院计算邀您共赴2024年世界人工智能大会,见证未来科技革新

在智能时代的浪潮汹涌澎湃之际,算法已成为推动社会进步的核心力量。作为中国认知智能技术的领军企业,华院计算在人工智能的广阔天地中,不断探索、创新,致力于将算法的潜力发挥到极致。在过去的时日里,华院计算不断探索…

Mac可以读取NTFS吗 Mac NTFS软件哪个好 mac ntfs读写工具免费

在跨操作系统环境下使用外部存储设备时,特别是当Windows系统的U盘被连接到Mac电脑时,常常会遇到文件系统兼容性的问题。由于Mac OS原生并不完全支持对NTFS格式磁盘的读写操作,导致用户无法直接在Mac上向NTFS格式的U盘或硬盘写入数据。下面我们…

SpringBoot:使用Spring Batch实现批处理任务

引言 在企业级应用中,批处理任务是不可或缺的一部分。它们通常用于处理大量数据,如数据迁移、数据清洗、生成报告等。Spring Batch是Spring框架的一部分,专为批处理任务设计,提供了简化的配置和强大的功能。本文将介绍如何使用Spr…

排序(冒泡排序、选择排序、插入排序、希尔排序)-->深度剖析(一)

欢迎来到我的Blog,点击关注哦💕 前言 排序是一种基本的数据处理操作,它涉及将一系列项目重新排列,以便按照指定的标准(通常是数值大小)进行排序。在C语言中,排序算法是用来对元素进行排序的一系…

【高性能服务器】服务器概述

🔥博客主页: 我要成为C领域大神🎥系列专栏:【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ 服务器概述 服…

DDMA信号处理以及数据处理的流程---聚类

Hello,大家好,我是Xiaojie,好久不见,欢迎大家能够和Xiaojie一起学习毫米波雷达知识,Xiaojie准备连载一个系列的文章—DDMA信号处理以及数据处理的流程,本系列文章将从目标生成、信号仿真、测距、测速、cfar检测、测角、目标聚类、目标跟踪这几个模块逐步介绍,这个系列的…

静态链表详解(C语言版)

顺序表和链表的优缺点 顺序表和链表是两种基本的线性数据结构,它们各自有不同的优缺点,适用于不同的应用场景。 顺序表(Sequential List,通常指数组) 优点: 随机访问:可以通过索引快速访问任…

【技术追踪】UNest:一种用于非配对医学图像合成的新框架(MICCAI-2024)

前天看了一篇文章图像分割用diffusion,今天看了篇文章图像合成不用diffusion,你说说这~ 传送门:【技术追踪】SDSeg:医学图像的 Stable Diffusion 分割(MICCAI-2024) UNest:UNet结构的Transforme…

Java对象类辨识指南:Object与Objects类的区别详解

今天在写lambda表达式时,用filter来做过滤判断我的结果是否为null时使用到了Objects.nonNull,但是敲着敲着发现不对劲,怎么没有nonNull方法?? 其实时我少敲了一个s,当时自己并没有很清楚Object和Objects两者之前的区别&#xf…

Ansible-综合练习-生产案例

斌的招儿 网上教程大多都是官网模板化的教程和文档,这里小斌用自己实际生产环境使用的例子给大家做一个详解。涉及到一整套ansible的使用,对于roles的使用,也仅涉及到tasks和files目录,方便大家快速上手并规范化管理。 0.环境配置…

波音危机:星际客机飞船故障,宇航员被困太空!马斯克的SpaceX的“龙”飞船来救援?

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 在人类探索宇宙的漫漫征途中,波音公司的“星际客机”承载着无限的希望与梦想,却也面临着前所未有的挑战。从原计划的8天…

pdf已加密如何解除?解密密码的两个方法【可加密】

电脑文件加密的目的就是保护重要信息,防止数据泄露。如果需要解除密码,应该如何操作呢?pdf已加密如何解除?本文整理了以下两种解除文件方法,希望能够帮到有需要的朋友们! 方法一、使用金舟文件夹加密大师解…