从大型语言模型LLM走向人工通用智能AGI的改进方向(public)

从大型语言模型走向人工通用智能AGI

返回论文和资料目录

1.导读

这篇博客主要基于《Sparks of Artificial General Intelligence: Early experiments with GPT-4》文中第9和第10节、以及我自己对当前LLM和AGI的理解。给出大型语言模型走向AGI时 改进的方向。

2.14个问题及改进方向(动态持续更新)

1.缩减模型

模型约减的目标是使用尽可能小的模型达到尽可能优的性能。当前大语言模型的模型规模是10B-500B。未来AGI必然是要普及的,所以缩减模型是一个重点研究方向。

导致的问题

  1. 模型的训练成本和使用成本高,类似ChatGPT等这些优异性能的大模型每训练一次需要上千万美金,而在使用时,模型输入输出一次就需要经过整个大模型,导致使用成本巨大。
  2. 模型难以推广到个人。与世界上第一台电脑类似,如果后续没有个人电脑的普及,相信计算机至今都只存在大型科研或军事用途上。模型大导致现在大模型的研究主要在工业界和少数顶级科研机构上,这不仅导致研究工作开展困难,还使得模型无法推广到平民。这也间接导致了后面模型难以进行个性化的发展。

改进的具体方向:

  1. 从具体模型方面入手,采用更优的神经网络结构,损失函数,优化器,词向量编码。目前已经有少量的工作在这方面取得了一定的成绩,例如LLaMA。
  2. 与工具结合。在一些特定的场景,大模型仍然难以扩展,例如数学计算等。 一个大型语言模型再强也难以具备一个计算器的的数学运算能力。因此,与其不断努力为了保持性能而不降低模型规模,还不如研究如何将一些模型低耦合的能力分给其他工具实现,并如何将工具与大模型整合的技术。与工具结合这一方向详细展开可见第11点。

2.个性化

个性化是指模型为每个用户提供个性化服务。未来AGI必然是要普及的,所以模型如何实现个性化是一个重点研究方向。

导致的问题

  1. 在许多场景,模型需要为个人或组织提供个性化服务。例如,在教育场景中,我们期望模型能够根据学生在学习方面的进步去理解并适应,给出学生不同阶段的学习帮助。同时针对不同的学生,模型需要给出不同的教学方法。再例如,在日常聊天场景中,模型面向小孩和大人的模型输出可能就不一样。针对小孩,模型不应该输出不适合未成年人的内容。同时,聊天中需要注意正确的引导孩子。

改进的具体方向:

  1. 元指令。这是《Sparks of Artificial General Intelligence: Early experiments with GPT-4》给出的一个方法。它的思路是每次通过指令输入的方法,让模型知道当前的用户是谁,之前和他说过什么,目前什么样的输出适合他。虽然这种方法局限性大且不够有效,但确实是最简单的一种思路,目前很火的AutoGPT就是这么干的,确实能够实现一部分个性化能力。

3.长期记忆

长期记忆指大模型需要记住长文本内容,形成新的认知,或类似人类具备情景记忆。这是大模型一个非常大的缺陷,也是实现AGI必然要解决的问题。

导致的问题

  1. 模型无法应对需要长期记忆的场景。例如当使用大模型阅读一本书,模型阅读第2章内容时可能第一章内容就忘了,人物和事件根本记不住。在源代码中,对类和函数的引用可能离定义它们的地方很远。在定理证明中,证明需要利用先前定义的引理。虽然目前GPT-4一次输入支持的最大token数已经提升到25000,但想实现阅读一本书,仍然非常困难。再例如,目前已经有工作研究将机器人与ChatGPT结合,而此时机器人有个很大问题是无法类似人类具备事件记忆,无法记住什么时候发生了什么事,遇见了什么人。

改进的具体方向:

  1. 结合数据库或知识图谱相关技术。目前AutoGPT就采用了这种方法,确实具备了一部分长期记忆能力。
  2. 构建一个长期记忆模型M并结合数据库技术。类似的想法目前清华有做类似的工作ChatDB。

4.置信校准

置信校准指的是模型需要判断事件的真假。当前LLM经常会输出假事实,例如,你让LLM写一首李白的诗,它的输出虽然是诗,但却是它自己瞎编的而不是李白的。你让他给你一篇关于XX领域的参考文献,它的输出像模像样,但真的去谷歌学术上找,发现是找不到对应的文献的。

导致的问题

  1. LLM无法分别是非,它的认知主要基于训练集,不会自己去思考和判断什么是真什么是假。在实际使用的过程中,无法输出保真答案。

改进的具体方向:

5.持续学习

持续学习指的是模型需要根据周围的环境更新自身。模型训练好一次后,需要能够持续不断地学习。

导致的问题

  1. 当前模型无法更新。具体地,存在两种情况。第一种,当一个模型训练好后,假设我们的计算资源得到了更新,我们当前需要一个更大的模型。此时,当前LLM面临的情况是在一个参数量更大的模型上完全重新训练;第二种,当模型在使用时,我们目前比较好的方式是使用RLHF的方法进行微调,使得模型能够一定程度上得到更新,但这种方式不是实时的,而且更新效率低需要对整个模型进行调节。

改进的具体方向:

6.计划和目标

计划和目标指模型需要具备制定计划和目标的能力。

导致的问题

  1. 当模型需要处理的问题复杂时,模型无法制定计划和目标对问题进行简化,进而有效地解决问题。例如,人完成去华山旅游这件事时,需要把这个目标进行分解,再依次完成。比如,首先需要检查自己有多少钱,然后搜索去的交通工具,接着需要订酒店,购买上山物资,再接着规划行动路线,最后坐车回家。其中里面的每个环节可能又可分成多个步骤。比如,订酒店要考虑价格和位置,考虑订几人房等。这么一个复杂目标需要合适的计划,并制定一系列的目标实现。
  2. 另外一方面,模型无法指定提升自己的目标导致无法主动学习,进而使得模型性能无法离线提升。

改进的具体方向:

  1. 指令提示+短期记忆:目前AutoGPT就采取了类似的方式实现,它将一个任务不断通过prompt的方式进行提示和拆解,最终指定多个子目标,一步一步实现。这种方式能够一定程度上实现模型的规划和目标能力。

7.数据集收集和生成

数据集收集和生成指模型需要配合合适的数据集收集和生成方法。

导致的问题

  1. 模型性能不高。近期,LLaMA等大模型论文中已经显示,即使是规模小的大模型,扩大数据集也能帮助进一步提升性能。反过来讲,通过合适的方式收集或生成数据,并进一步用于训练模型可以有效地提升大模型的性能。

改进的具体方向:

  1. 针对数据集收集,可以重点研究模型自主上网收集数据能力。最终,让模型可以在网络上自主收集数据并用于训练提升性能。
  2. 针对数据集生成,可以借助已有的LLM模型生成数据集,帮助提升性能,例如WizardLM模型或Wizardcode,下图给出了一个Wizardcode利用LLM生成针对Code领域的数据的例子。另外,可以研究让模型自动生成数据,再用生成数据训练模型,不断迭代增强性能。最近facebook在计算机视觉领域发表了一篇针对图像分割的论文。其中提到一个名为数据引擎的数据生成方法,使得数据生成和模型训练变成一个闭环,达到了“分割万物”的惊艳结果。

在这里插入图片描述

8.情感能力

情感能力指模型需要提升情感能力来帮助提升表现。

导致的问题

  1. 不仅影响平时的模型表现,还导致无法应用于一些需要情感的场景。例如,在与人聊天的时候,如果对方是一个失恋的人。一个带感情的回答,必然优于平铺直叙地讲道理或安慰。未来的宠物机器人或是机器人管家的也是重点研究方向,而这些场景显然需要LLM发展情感能力。

改进的具体方向:

9.增强多模态

增强多模态指LLM模型同时考虑处理文本、图像、音频等。

导致的问题

  1. 现有模型主要处理文本,少数可以同时处理图像(GPT-4)。因此,缺乏了音频数据的处理,例如,一个大模型无法判断一首歌好不好听。

改进的具体方向:

  1. 针对不同的多模态训练不同的模型再进行整合。

10.与现有软件工具结合

微信、淘宝、美团、QQ音乐、12306等。

11.与现有硬件工具结合

机器人手臂,仿生人皮肤,红外线,NFC。

12.自我认知和世界认知

没有自我认知何谈置信校准。没有世界认知如何消除偏见。

导致的问题

  1. 目前LLM与AGI最大的差距其实是仍然是自我认知和世界认知。

改进的具体方向:

13.AGI的测试问题

目前多见于利用考试的方式,例如律师职业资格考试、GRE等。

14.AGI的安全问题和法律问题

暂时略过,读者可以看看《Planing for AGI and beyond》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30558.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023CPA会计- 开头两章【刷题】

2023,我要一次通过注册会计师考试。 以题代学:因为有很多题目是糅合了前后的知识点,其出题模式并非按照专题划分 会计基本假设和会计基础 1. 会计要素及其计量 把会计四张表给记起来,啥都容易🤷‍♂️ 1.资产负债表 …

计算机会计学试题,会计电算化考试试题 (2010)

一、单项选择题: 1.一般通用会计报表软件,报表中的组合单元是指(D) A、区域 B、同一行内的两个单元 C、单元的合并 D、同一行内的多个相邻的同类型的单元组成的区域 2.会计软件运行所需要的硬件环境是指(A) A、计算机(或计算机网络)硬件环境 B、计算机(或…

计算机会计数据处理流程是怎样的,实现会计电算化后,会计数据的处理流程依旧和手工..._高级会计师_帮考网...

bangkafan 高分答主 06-16 TA获得超过8931个赞 一、手工与电算化会计信息系统的数据处理流程: 1、相同点: ①数据处理步骤相似; ②会计信息相同且最终目标一致; ③遵守的会计法规和会计准则相同。 2、不同点: 在手工会…

中国大学MOOC政府会计实务题库及答案

选择题(答案解析在优题宝) 1.下列选项中,有关收付实现制的表述正确的是(B)。 A.收付实现制以款项收付的责任或义务是否已经发生为标准。 B.收付实现制以款项是否已经收到或付出作为核算标准。 C.收付实现制能正确地反映各期的成本费用情况…

中级财管电脑操作不会用计算机,中级会计财务管理的综合题电脑怎么答题?

考生询问:中级会计财务管理的综合题电脑怎么答题?相关的回答就在下文当中,考生们就和东奥小编一同去查看一下吧! 一、中级会计财务管理的综合题电脑怎么答题? 东奥小编建议大家在考试前就提前熟悉一下机考系统&#xf…

怎么制作一个笔试题库?会计笔试题库中的题型分析?

目前各个考试都会有对应的笔试题库供大家学习,因为现在笔试题库作为了一种产品,目前我国的笔试考试越来越多了,笔试题库也层出不穷。下面我就来介绍一下笔试题库,我们如何选择一个全面好用的笔试题库。福昕知翼有关于笔试题库制作…

关于使用腾讯云腾讯(即时通讯SDK)遇到的问题

公司项目中需要进行服务器控制用户端操作 由于前期规划提出的需求,放弃了推送和WebSocket 然后转换思路使用即时通讯实现C/S,根据通话消息内容进行判断做出相应的操作 好了。不啰嗦开整。 --------------------------------------------------------…

腾讯云图(TCV)使用指南

简介 腾讯云图(Tencent Cloud Visualization,TCV) 是腾讯云旗下的一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示海量数据,10 分钟零门槛打造出专业大屏数据展示。精心预设多种行业模板,极…

观《扫黑 决战》有感

点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复【加群】,进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 本来今天想发篇干货的,但昨晚去电影院看完《扫黑 决战》这部电影后,有些话想说说,所以今天就随便…

ChatGPT解决了我的出行规划焦虑

#我的五一出行规划# 五一旅游季又将到来,许多人为了规划理想的行程而苦恼,需要投入相当时间来筛选各种信息。然而,现在有了Chat GPT,安排美好旅途变得异常简单。只要您告诉GPT您的日期和目的地,不到30秒就可以生成个性…

四季度业绩大涨、文心一言上线在即,百度估值逻辑酝酿“蝶变”

本月开始,上市公司迎来了年报披露周期。经历了经济下行压力、疫情防控、全球局势动荡的2022年,这份答卷注定不会容易。 2月22日,百度发布了2022年四季度及全年业绩报告。2022年全年,百度实现营收1236.75亿元,超分析师预…

利用TabNet进行股票长线预测

利用TabNet模型进行股票长线预测 提示:本篇文章只提供一个思路,因本人是金融小白,搭建模型时所参考的股票指标并不完善,所以结果准确性无法保证,各位不要将结果作为投资参考!!! 文章…

ChatGPT文章:C语言开发技巧

------ Oracle中文开发者社区 ------ 如果你想要学习编程,关注本博客,持续获得技术支持,持续获得技术咨询 java开发企业官方账号 Oracle中国官方账号 Java中国管理部 全网粉丝30万 华为云享专家 阿里专家博主 CSDN内容合伙人 CSDN原力计划作者 51CTO专家博主 CSDN博客V账号 …

Azure OpenAI 官方指南 01|GPT-3 的原理揭秘与微调技巧

Azure OpenAI 服务在微软全球 Azure 平台正式发布后,迅速成为众多用户最关心的服务之一。 Azure OpenAI 服务允许用户通过 REST API 访问 OpenAI 的强大语言模型,包括 GPT-3、Codex 和 Embeddings 模型系列。本期,我们将为您揭秘 Azure Open…

集成chatGPT4.0的超强编码软件cursor使用教程

最进在学习上线vue遇到很多问题,发现了这款超级厉害的软件,但没有使用教程,可能是因为刚刚发行的原因吧。今天简单介绍一下。 直接在cursor官网下载压缩包,然后解压,桌面就会有相应的快捷键了,非常方便。 …

观点|安装数据安全“刹车”,释放数据要素产能

一辆没有“刹车”的跑车,你敢开多快? 近年来,人工智能技术的不断迭代与持续演进,离不开算法的突破与算力的提升,更是得益于近几十年来信息化技术应用与发展过程中持续积累的海量数据资产。伴随着数据仓库、数据湖、云服…

下属是个技术大牛,常常加班到晚上10点后,但白天总迟到,HR让他要么降薪,要么离职!...

如果晚上总是加班,白天上班迟到,可以吗? 一位网友求助: 有位同事是技术大牛,常常加班到晚上10后下班,不过非常喜欢迟到,已经连续3个月迟到总数超过公司规定了。人事给出两个条件,要么…

数影周报:TikTok因在线跟踪被罚500万欧,Windows 7退出历史舞台

本周看点:TikTok因在线跟踪被法国罚款500万欧元 ;思科已裁员近700 人;Windows 7退出历史舞台;亚马逊向所有卖家开放Buy with Prime服务;“全路程”完成2亿元C轮融资...... 数据安全那些事 TikTok因在线跟踪被法国罚款5…

游戏直播有什么话术

现在啊,越来越多的游戏推广团队啊,都开始尝试用直播的方式啊去推广游戏,那当然如果你要是通过直播推广的话,那肯定需要主播有一定的话术整理和一定的这个共享能力,一般的主播都会有相关的话术呢,我今天呢&a…

介绍一个视频互动直播后台的开源项目

FFynamic - 扩展FFmpeg的音视频处理库 FFdynamic封装了FFmpeg的底层音视频处理,提供一个将音视频不同组件进行组合的框架,以及在程序运行时可以动态的改变各组件状态的模块。 以下是使用FFdynamic开发的一个互动直播程序,效果如图&#xff…