可用数据存量不足,还能怎样向AI模型注入人类智能?

eaa65f3ec23079ebb12f3b91dd2bc9c2.gif

作者 | 王昊

出品 | IDEA研究院

在深度学习发展的第三波浪潮中, ChatGPT引发了人们对人工智能前所未有的关注。它的出现意味着基于指令学习和人类反馈的AI技术成为人工智能领域的关键。然而,当前所展示的能力还远不是AI的最终形态,无论是产业界还是学术界都对其未来的发展抱有极大期待。换句话说,ChatGPT等技术也许只是人类进入下一代AI的起点。

46551a9874b0e7a23dc81dc7296d4dbc.jpeg

eed8cc201028e5f4d6c3e5bdfa649dfd.png

数据危机

轰轰烈烈的技术演变背后,离不开强大的预训练大模型的支撑。到了今天,AI的核心就是大模型。“数据之于大模型的重要性正如石油之于现代国家”,关注AI领域发展的人目前应该会认同“数据是AI的战略资源”这一说法,其必要性从下面的一系列真实数字中可见一斑。

从目前自然语言领域发展的趋势来看,模型尺寸越大,所具备的能力就越强,模型参数的量级正在接近人类神经元连接数。训练一个强大的大语言模型的前提,就是要有充足的高质量数据。OpenAI训练GPT-3(1750亿参数),使用了包含接近500B tokens(注:token指文本被BPE等方案编码后的单元,1B=10亿)的高质量语料,Google训练PaLM(5400亿参数),消耗了780B tokens。足够多的高质量语料可以帮助同等规模的模型学习到更强的能力,Google和DeepMind分别使用了1.56T (注:1T=1万亿) 和 1.4T tokens 来训练更小的LaMDA (1370亿参数)和Chinchilla(700亿参数),这些模型的能力大幅超过更大尺寸的模型。

但是另一个问题随之而来,全世界有多少可用的高质量文本?按照估计,这个数字可能在4.6 T到 17.2 T 个tokens之间。也就是说,目前人类已使用的高质量文本已经和存量在同一数量级。且未来人类对更多高质量文本的需求量(指数级),远超于数据产生的速度(1%~7%/每年)。除了文本,人类对于视觉数据的消耗速度也很快,据估计现有数据将在2030年~2070年间被使用殆尽。因此,将数据比作AI的战略资源再恰当不过。

be67ebd16d9e738ca7d32feb3af730e6.png

模型危机

基于当前大模型结构,人们总是可以通过增大数据量和模型参数来训练更大的模型。但是,如果训练数据更多,模型更大,智能就能从模型中产生吗?我想答案是否定的。

回顾近几十年的AI发展,人们从未停止过对这个问题的思考。长期以来,人们认为机器学习模型或者深度神经网络不过是从海量数据中学习到了数据的概率分布,所以根本不存在具备认知一说。即使进入到预训练模型时代,即利用海量无标签数据进行自监督学习来提升模型的基础能力,然后针对具体任务数据微调模型,在解决给定问题的主要流程上仍然和过去基本相同。

具体来说,首先需要收集与特定问题和领域相关的原始数据;其次,根据问题人工标注数据;第三,在带标签的数据集上基于预训练模型继续训练(这个过程还包括在预留验证集上选择模型,以及在预留测试集上测试模型的泛化性能)。

渐渐地,人们发现对于定义的各种任务,数据收集和标注可能占据了80%或者更多的工作量,尤其是在以Transformer为主的深度神经网络结构成为主流,且训练方式差别不大的情况下,数据质量已经成为提升模型性能的瓶颈所在。人们尝试利用合成数据来解决数据来源单一和数据量不足的问题,但极难避免合成数据带来的数据领域偏移。从这点来看,仅从合成数据角度出发,不仅无法彻底解决单一任务的数据问题,让模型具备智能更无从谈起。

在自然语言处理领域,超大语言模型的出现为人类带来了更多的可能性。大模型不仅在理解、问答、生成等方面的性能显著提升,还初步具备了推理能力,让人看到了大模型拥有认知能力的潜能。

针对具体任务对大模型进行微调的代价太大,人们转而用输入少量示例的方式启发大模型进行in-context learning,或者直接通过提示进行零样本(zero-shot)推理。一段时间里出现了提示工程师(prompt engineer)的职业,只为了写出能够激发模型能力的提示。prompt成为了人类适应大模型的接口,或者说prompt是开启大模型魔法的“咒语”。“让我们一步一步地思考(Let’s think step by step)”是一个有意思的“咒语”, 在模型输入里加上这句话就能增加大模型多步推理正确的几率。在黑盒大模型内部,似乎存在着另外一套不同于人类的思考语言,所有的文字生成、逻辑推理、编程能力等都依赖这套不可知的语言。自然语言是人类智慧延续的根本,大模型和人类的认知必须建立在相同的语言逻辑之下,才能真正为人类服务。

d624373d69361a2f4f654f752284daf8.png

数据和模型的共生

黑盒的学习机器对执行认知任务有天然的限制。人类水平的人工智能无法从一个黑盒中出现,它需要数据和模型的共生。

早期探索

人类第一次关于数据和模型共生系统的成功实践是AlphaZero。在仅知道棋局规则的前提下,它利用卷积神经网络结合树搜索算法生成下一步棋子位置。

通过自我对弈,AlphaZero分别在围棋和象棋上战胜了AlphaGo和Stockfish,代表了当时AI的最高水平。这套系统的精妙之处在于不需要提前准备数据,训练模型的所有数据完全来自于模型的生成,模型本身也完成了一次次迭代进化。人们在文本和图像上也有相当多类似的尝试。文本和图像信息只是整个世界里可以被观察到的外在状态,世界内部并没有运行一个像下棋那样明确的规则系统,来规定世界运行的法则和产生这些状态的机制。

人们一直试图尝试让模型通过数据学习,来构建出一套模型内部的信息表示机制,而不仅仅是输入和输出间的映射。生成对抗网络(GAN)是文本与图像数据和模型共生的例子。判别器给生成模型提供人类世界和生成模型样本差别的反馈,使合成的数据能够一步步接近真实数据分布。只不过这个指导的过程是通过多次对抗完成的。

观察以前数据和模型共生系统成功的实践,发现几乎都是两个玩家有限的零和博弈,它们可以通过具有足够计算和模型能力的自我博弈来解决,最终收敛到一个最优策略。然而要实现人类水平的人工智能,零和博弈远远不够,必须通过建立模型间的合作机制从复杂的现实世界中学习。

人类反馈

研究表明,模型通过完全自我博弈学习到的策略,与人类社会潜在的规范并不一致。所以,在涉及语言的任务中引入多智能体的合作可能产生与人类不兼容的语言特性和行为,这种合作机制必须以人类反馈作为前提。

语言生成模型有一个特点:文本输入、文本输出。这对将人类和模型纳入同一个闭环系统来说有天然的好处。人类可以将文本提示作为模型输入,然后观察生成模型的输出并给予相应的评估和修正,这些结果可以继续输入给生成模型。在模型处理复杂的任务时,可以人为将复杂任务拆解成多个连续的中间任务,这些任务都是靠接收上一步的输出和产生对下一步的输入串联在一起的,人们可以在每一个步骤上施加反馈。

ChatGPT在语言上实现了文本数据和生成模型的合作共生。为了解决模型和人类认知失配的情况,其使用真实的人类反馈数据训练排序模型,并以此模型作为模拟环境来和生成模型交互,实现了生成模型用自己生成的数据来训练自己。

初想之下,这些做法似乎没有本质上的创新,也根本不可能使模型接近人类认知的范畴。以打分器模拟人类反馈,在GAN相关的研究工作中似乎也是这个思路。只不过GAN多用二分类,对样本只有好(服从真实样本分布)与坏(服从生成分布)的区别。仔细思考人类思考和学习的方式,就能反应过来上面说法的不合理之处。人类的价值判断不是二元的,没有绝对的好与坏,一切都是相对的。ChatGPT引入相对排序的方式实际上更符合人类价值判断标准,从有限的人类反馈中拟合出一个具有连续状态的世界评估模型,尽管这不是个完美的环境,但相比于好与坏的二元论,已经有本质区别。

用模型生成数据训练模型

“用自己生成的数据训练自己”听上去似乎不合理。学界有观点称,“我们所能知道的一切都可以包含在百科全书中,因此只要阅读百科全书的所有内容就能让我们对所有事物都有全面的了解。”按这种说法,只要语言模型够大,大到能够记忆人类所掌握的绝大部分知识,那么语言模型就具备了足够的智能来解决任何问题。显然现在的语言模型已经大到了这个量级,却在很多方面展示出来非常有限的能力。另一方面,如果将语言模型比作一个知识库,它已经记住了这个世界的绝大部分知识,模型生成的数据不是理应已经包含在知识库之中吗,那么用这些生成数据作为训练数据又有什么意义?

再次类比人类的学习过程。读懂一本书,掌握书中知识的最有效的办法绝对不是把整本书都背诵下来,这种学习方式很难挖掘到知识之间深层的关联和逻辑关系。相反,大多数情况下人是在解决问题或者回答问题的过程中开始理解知识或者加深知识间的联系。这些问题可能来源于书本习题,也可能是我们在脑海中对自己的发问,或者是遇到实际问题时我们迅速建立起和知识点相关的联系。对一个见过海量数据的大型语言模型来说,最重要的是,要设计相当多的难题和任务并引导模型解决这些困难,这样才会强化模型本身的知识理解,逐渐形成对知识融会贯通的能力,也就是一种类人的智力。引入多样的指令和任务,可以帮助大模型在解决问题的能力上远胜普通的预训练模型。

人们常常忽视生成语言模型和人类之间类似的一点,那就是不确定性。对人体来说,神经递质中离子或分子的量子行为,导致神经元有是否激发的不确定性。正是大量神经元集体的随机性让人类拥有了自由意志,形成源源不断新奇的想法,也正是这些想法促进了人类的进步。大多数人都有“灵光一闪”的经历,甚至在睡梦中,大脑也能通过这种机制产生从未有过的新想法。凯库勒在梦中发现了苯环的分子结构,就是一个例证。对于生成语言模型来说,同样存在着随机性,它发生在模型生成的采样阶段。在模型的采样阶段引入随机性,可以让我们得到非常多样的输出结果,这些结果会遵守一定的事实,同时又引入了新的观点。这些新的观点并非只是知识的堆砌,而是一种知识内化,可以形成逻辑自洽,知识上融汇的观点。尤其是在大型语言模型上,这种现象更加明显。

由此可以得出,在大型语言模型上,用自己生成的数据训练自己并非没有意义。首先借助这种方式,人类能从根本上解决大模型的数据危机问题。此外,人们不仅用这种方式教会大模型解决各种问题,还开始尝试以类似的方式使大模型自我反思,自我验证和自我提升,这是未来能够让模型变得更加智能的重要途径。

59ce4a04ec23d217a38bdee76e94b764.png

结语

在早期,人们主要依靠直觉和经验来获取知识,但这种知识是有限的,因为我们只能凭借有限的感官和思维能力来理解世界。后来,借助假定和推理的方式,人类创建了各种模型和理论,以解释自然现象和社会现象。这种基于推理的知识是无限的,因为它不仅依赖于我们已经知道的事实和理论,还可以通过不断地实验和验证来扩展和改进。

未来,人工智能的发展,也会基于对无限推理的探索。能够区分有限和无限,是大模型真正具备类人智能的标志。数据和模型合作共生,正是人类能够将人类智慧注入到模型,并促进模型自我学习和进化的最好方式。这让人们看到了实现通用人工智能的可能途径。

作者介绍

07855effd8a7aaec3878888409914cba.jpeg

王昊,IDEA研究院认知计算与自然语言研究中心,文本生成算法团队Leader。北京大学博士,发表10余篇论文。

5ef86b154b84a64b684006da174c8b6c.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26844.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转ChatGPT:基于Mucloud建立本地知识库

一、写在前面 人们普遍认为GPT有潜力颠覆教育行业,然而这种颠覆会以何种方式呈现呢? 在刘慈欣的科幻世界中,三体人拥有知识遗传的能力,这使得他们的技术迭代成本降至最低。然而,我们人类并未具备这样的特性&#xff…

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

1.多模态GPT-4正式发布:支持图像和文本输入,效果超越ChatGPT OpenAI的里程碑之作GPT-4终于发布,这是一个多模态大模型(接受图像和文本输入,生成文本)。主要能力有: GPT-4可以更准确地解决难题&a…

AI炒股:用Claude来分析A股2023年中报业绩预告

Claude是和ChatGPT类似的AI大模型,据测试 AI 的水平能力接近 GPT-4,支持高达 100K token 的上下文。Claude只需要到官方网站注册账号后就可以直接免费使用。不过,目前智能美国和英国的 IP 可以注册和使用。 Claude支持上传文档功能&#xff…

NLP还能做什么?多机构联合发布百页论文,系统阐述后ChatGPT技术链

深度学习自然语言处理 分享来自:机器之心 一切都要从 ChatGPT 的横空出世说起...... 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资…

NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链

夕小瑶科技说 分享 来源 | 机器之心 一切都要从 ChatGPT 的横空出世说起… 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资本 “狂飙”&#…

chatgpt赋能python:Python量化数据来源-介绍

Python量化数据来源 - 介绍 Python在金融量化分析领域中得到了广泛的应用,这部分应用通常被称为Python量化金融。Python量化数据来源是Python量化金融分析的基础,只有良好的数据来源才能保证分析的准确性和有效性。 Python具有以其代码简洁易懂、强大的…

GIS可视化—热力图制作与热点分析(一)

本博客知识来源:城市数据派公众号,WeChat ID:udparty。讲师:张海平老师(高级城市数据分析师),本文对讲解PPT中的内容进行总结概括,并方便自己以及他人更加直观的了解与学习热力图方面…

(二)QCustomPlot生成热力图/矩阵颜色图

系列文章目录 提示:这里是该系列文章的所有文章的目录 第一章: (一)QCustomPlot常见属性设置、多曲线绘制、动态曲线绘制、生成游标、矩形放大等功能实现 第二章: (二)QCustomPlot生成热力图/矩…

echarts 地图类型热力图

地图主要用于地理区域数据的可视化,配合 visualMap 组件用于展示不同区域的人口分布密度等数据。 visualMap 是视觉映射组件,用于进行『视觉编码』,也就是将数据映射到视觉元素(视觉通道)。echarts 官网案例&#xff…

pyecharts绘制天气热力图

pyecharts绘制天气热力图 文章目录 前言 一、数据源 二、成果图 三、绘制步骤 1.引入库 2.数据处理 3.绘制函数 4.保存 总结 前言 基于爬取中国气象局数据后,生成的透视表不够美观,采用excel生成报表操作重复。可以考虑使用pyecharts进行热力图生成&…

Echarts数据可视化series-heatmap热力图,开发全解+完美注释

全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解、 tooltip详解、toolbox详解、legend详解、dataZoom详解、…

echarts地图+热力图

综合了网上的大佬的概述,做了一下比较亲民的优化,json文件可以在下面的链接上定制,经纬度可以用百度地图的坐标拾取器和获取,图中以青岛为例,感谢大佬们的之前的贡献,可以让后来人用上现成的,话…

可视化 | 教你用Python实现热力图(二)

本文正在参与新星计划Python学习方向,详情请看:(93条消息) lifein的博客_CSDN博客-SQL SERVER,计算机三级——数据库领域博主 目录 一、导引 二、内容 (一&#xff0…

heatmap.js来绘制热力图

Heatmap.js 一、简介二、使用2.1 上手2.2 设置点的半径2.3 添加底图2.4 更多 三、高级用法3.1 动态热力图3.2 鼠标跟随热力图3.3 显示数值 一、简介 Heatmap.js V2.0 是目前网络上最先进的热图可视化库。新的2.0版本 Heatmap.js 更快,拥有更强的渲染模块&#xff0…

可视化图形(二):热力图-imshow()

官方文档:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.imshow.html?highlightimshow#matplotlib.pyplot.imshow imshow(X, cmapNone, normNone, aspectNone, interpolationNone, alphaNone, vminNone, vmaxNone, originNone, extentNone, shapeNone, f…

网页点击热力图统计

热力图,要么对方填写button click的名字,对应后台(类似事件),要么靠坐标系来做通用的,这里考虑通用做法,做起来也是一个通用服务。 另外,我这边没有调研怎么显示的,感觉开…

可视化神器Plotly绘制热力图

公众号:尤而小屋作者:Peter编辑:Peter 大家好,我是Peter~ 之前更新了很多关于Plotly绘图的文章。今天带来的文章是基于官网和实际案例来讲解如何绘制不同需求下的热力图。 Plotly中绘制热力图有3种方式:heatmap、ims…

pyecharts 画地图(热力图)(世界地图,省市地图,区县地图)

一、概述 在上一篇文章中,链接如下:https://www.cnblogs.com/xiao987334176/p/13791061.html 已经介绍了pyecharts画一些基本图形,接下来介绍画地图 二、世界地图 from pyecharts import options as opts from pyecharts.charts import Map f…

seaborn—sns.heatmap绘制热力图

heatmap(热力图)是识别预测变量与目标变量相关性的方法,同时,也是发现变量间是否存在多重共线性的好方法。 中文文档 seaborn.heatmap(data, vminNone, vmaxNone, cmapNone, centerNone, robustFalse, annotNone, fmt.2g, annot_kwsNone,linewidths0, …

Heatmap 热力图(1)

Heatmap 热力图(1) 显示多个对象,单个属性之间的关系的时候,用柱状图就可以直观的比较;当需要比较多个对象多个属性之间的差异时,需要用热力图。 基于R的heatmaply和plotly交互式热力图 安装:…