我们是怎么把1天变成了72小时的?普惠AGIUI开源项目

e09d539a0a28fb830e32ca14fc79c157.png

(想看重播的读者可以翻到文章底部~)

7c292455cfdb77cd2a3238849462f6a8.png

不知大家有没有想过如何把一天24小时的时间变长?还有如何知道自己下一步应该做什么?

现在这些都可以基于大语言模型LLM来帮我们实现(模拟仿真)了,LLM具备推理和转译的能力,可以实现非常多的应用,比如自动写作、为不同的读者生成特定内容,游戏剧情生成,甚至是模拟用户偏好测试新产品,还可以模拟你的下一步,辅助决策。

大模型所表现出来的新能力,让创新更为容易。创新,源自于不同学科知识的组合。人类组合,也即是跨界社群;社交媒体的组合,也即是数字内容聚合;AI组合,具体如大模型的prompt及其微调模型等的组合,即能力的组合。

MiX(AI、跨学科知识、超级个体等)是一种方法,也是一种理念。我们认为小而美的团队,是当下最适合LLM的创业方式。跨界社群、内容聚合,赋能超级个体,让微型组织的商业创新更为容易。

bf5e331e3159e76f1f9a4b7ba7fecf82.png

在过往我们尝试过不同手段去打造我们的知识引擎,现在我们通过LLM实现了更智能的知识引擎MiX Copilot,MiX Copilot有可能让教学发生彻底的变化,从以前的多对多变成1v1的因材施教,同时让跨学科知识探索变得更简单。

c2580da949200de3218bc85785fc8c57.png

 http://www.mix-copilot.com

58a1ad5a09586b743a015c252d8fadaa.png

接下来,怎么发展是我们一直思考的问题。和开源直接竞争是输不起的游戏,开源才是构建最强竞争力的方式。四月份是目前为止AI发展最快的一个月,因为HuggingGPT、AutoGPT、BabyAGI、Camel、Generative Agents、WebLLM、Alpaca 7B等大语言模型LLM项目相继出现在公众视野。

这些项目太有趣了,同时由Mixlab发起的AIGC分布式联盟里每天都诞生有趣好玩的idea,我们决定要让更多创新发生,决定把MiX Copilot的核心实现开源,让更多人可以实现自己的AGI交互界面。

MIT开源协议是一种非常宽松的开源协议,它允许使用者自由地使用、复制、修改、合并、出版、分发、再许可和销售被授权的软件和代码。一种非常适合广泛使用和分享的开源协议,它促进了知识和技术的共享和交流,同时也为开源社区的发展提供了很大的机会。  

70e430d64d955539d96b6fa3f7658f4d.png

我们的组织叫AGI-UI,全称是Artificial General Intelligence User Interface,也就是说我们专注于人机协作时代下用户界面的打造。AGI-UI的使命是改善AGI在PC、Web、Mobile、XR、机器人等领域的人机协作体验,让更多人可以实现自己的AGI交互界面。本次开源的项目代号:Earth。由shadow、薛志荣、陈豪杰联合发起。

早在2008 年,微软首席设计总监 August de los Reyes 提到,自然用户界面 NLI (Natural user interface)会是从命令行界面CLI转变到图形用户界面GUI 后的下一演变形式。

而AGI-UI,完全基于LLM的用户界面系统,背后是自治系统。构建它的前提是我们基于严谨的逻辑实现角色内部机制,包括构建可以被实现的模型、流程和接口,接着基于社会关系实现角色之间的配合。

我们可以理解为AGI也是一种模态,它可以跟当前的互联网、XR、我们真实空间里的信息、接口进行交互和调用,它除了可以是模拟点击、意图识别还能是什么?基于图像识别的绝大部分技术都会纳入到下一时代的交互接口和事件定义里。

我们是如何思考AGI-UI的?接下来我们先看一段视频,它将展示浏览器中我们对于AGIUI项目的愿景:

在未来的工作中我们将围绕着三部分进行打磨和开源,它们包括对话面板、任务编辑器和生成式智能体。对话面板可以理解为用户和人工智能交互时最重要的方式,如何基于可解释性构建透明的人机协作方式,以及如何通过多模交互提升整个交互效率将会是我们未来的重点设计方向。目前AGIUI已经支持安装在Chrome、Edge上,同时兼容OpenAI的GPT模型和Bing Chat,未来我们更多的精力会放在单机版LLM以及运行在桌面端。

7f4ebdd2bb8adcbbe680a59aa74c73dc.png

任务编辑器的工作是为了更好地实现各种捷径(Shortcuts),或者叫工作流。在这里我们提出了Prompt+RPA的概念,也就是说Prompt和各种API、交互事件和任务都会被做成一个个组件,我们尽可能地驱动生成式智能体去实现用户下达的目标。

5c8796030c9a5b4296990663acfaf2d9.png

怎么实现生成式智能体是我们第三项工作,也是最重要也是最前沿的工作。目前我们通过阅读大量的文献以及开源项目总结出下面的生成式智能体架构图,它将分为三部分:多智能体、单智能体和模型实现机制。多智能体好比我们将目标交给一支团队来完成,这时团队应该要有产品经理、项目经理、开发和测试等角色,他们会通过配合来完成老板下发的任务,这时候如何拆解任务以及基于测试知道任务是否被完成将会成为多智能体协作的重点。

c7e313fa1fe7f554c465b9058851f783.png

单智能体好比一个人,在这里我们参考心理学把短时记忆和长时记忆设计在单智能体内部,短时记忆可以理解为任务的完成情况,里面记录了当前进度、遗留事项等等,当它达到100%或者遗留事项为0我们才会认为上游下发的任务已经完成,它有个自省的过程。长时记忆我们可以比喻为他的角色是什么,他有什么经验,而这部分我们将通过插件的形式来实现,这样的解耦方式能有效降低我们未来的开发成本。

5675f2155cc71d8318bffef006a3c8b2.png

模型将会整个项目里最硬核也是最难的设计,为什么?因为在这里我们基于David Ha的以及Lecun的工作提出了先模拟评估再执行的过程,而图里的预测则是模拟评估的最重要环节。在这里我们可以理解为我们参考了人的行为,人一般都是在脑海里先想再做,这样能最低降低成本和消耗;其次如何通过Prompt的设计让LLM拥有元认知能力将决定了LLM的自省能力;最后我们需要充分考虑人工智能可能对人甚至社会带来的伤害并设计实现出一个护栏,也就是让人工智能文明礼貌不要做出出格的行为。以上三个模块将决定了智能体的上限和下限。

1a302306e7ad49245ab1c38f058c05c5.png

接下来是系统架构图部分。

d8a2f7b8a9dbf337225b56b2b6392345.png

系统架构是对AGI原理框架的工程实现,为了在早期让更多用户可以直接体验和使用,我们优先实现了浏览器插件版本,主要的特性是可组合性、高度原子化、灵活调度。重点是实现可组合性,让任何的软件场景都可以被原子化组装。具体包括:Combo编辑器、智能体运行时、人机交互面板。

Combo编辑器

Combo编辑器可以定义各种智能体,你可以用来定义最简单的任务型AI,也可以用来构建复杂的自治型AI。智能体的数据结构是由许多prompt组成的结构化描述,具有模块化和可组合性。

智能体运行时

单智能体

  • 任务管理器,使用链式调用的方式,依次执行combo里的prompt,并补充不同交互组件信息然后“喂”给LLM。

  • 执行器,通过API调用LLM,目前支持ChatGPT、NewBing。包括网页执行、API执行、LLM执行。

  • 上下文记忆,目前支持保留当前对话记忆,当新建时,清空记忆。

  • 逻辑判断器,使用JSON作为结果输出,用于判断结果是否可靠

  • 世界模型、认知模型

  • 知识库/长时记忆

  • 网页代理器,用于实现从任意网站上获取信息后输入LLM

  • 知识库加载器,从向量数据库加载专业知识

群体智能

  • 角色分配器,使用角色设定的信息,使LLM具备特定的职业或者人物的技能

  • 多角色管理器,多智能体的协同工作机制

人机交互面板

  • ChatBot UI组件,实现基本的聊天机器人UI,可在对话流中增加按钮、跳转链接、选项卡等。

  • 可解释性组件,包括可视化ChatBot当前的请求状态:进度、耗时等等,后续智能体的思考过程可视化将是我们的工作重点。

  • 跟网页交互的组件,可视化帮助用户完成与网页的交互,实现锚定元素、模拟点击等行为。

f207e1fc45e61f6758952897a81959f0.png

本次开源版本主要实现了Combo组合,一些经典的案例如下:

  • 论文解读:翻译英文论文,并提取摘要和核心观点。

  • 解读Chirper上的社交主页:读取chirper的某个社交账号的主页,解读其最近的互动。

  • 科幻故事生成器:通过读取微博上的当前信息,提取信息,进行重组后写科幻故事,并提出启发性问题引发读者思考。

  • prompt指南:根据输入信息,生成用于图像生成的prompt

  • 儿童读物生成:用通俗易懂的、讲故事的方式,转化文章。

  • 永动机:模拟讨论,无限循环

    接下来请看我们的真实产品演示效果:

6a2591060291f840e4d1fd72bbf60679.png

以上是整个项目的ROADMAP,后续我们会通过多次的研讨会和黑客马拉松来让不同学科的人才加入到我们开源项目的共建,如果你对项目感兴趣,可以加入到我们的Discord或者Star、Fork我们的项目。

Discord:https://discord.gg/SGwA9anUrr

Github:https://github.com/AGIUI/Earth

6b5a5e852cca96330bc2341dce1af671.png

3d6256c229f37c5f9d559d4fad300f57.png

e407652f4ccf7c111bf53f8f90ed954f.png

想加入我们的开源小组(偏技术)的读者可以在5月9号8点-9点参加我们的第一场研讨会,社群:

cb664c44a23eee6433af6b808fdbeadf.jpeg

如果想加入我们项目核心讨论的微信群,请加Shadow或者薛志荣微信(请填写好备注):

be5f1a10ebf100795c6277dbe84d5fb5.jpeg

6ae4d6130b339328a9e4f73b5a870451.jpeg

最后是5月7号晚上的发布会回放链接

91b07e9b5883ff44b3314c8b1b8af2d4.jpeg

领取原版pdf联系小助手

b9ca7a8a768b02934dd54259ebfadb4f.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29136.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python如何创建角色

Python如何创建角色 在游戏开发中,创建角色是非常重要的一个环节,也是游戏设计的重要一环。Python作为一种广泛使用的编程语言,可以用于快速且高效地创建角色。 1. 创建角色的基本思路 创建角色的主要思路是定义角色的属性,包括…

【好用的办公软件】万彩办公大师教程丨标准安装版/绿色免安装版/离线版区别

万彩办公大师标准安装版:下载后,解压,双击安装包,需要像安装普通软件那样,一步步的安装; 万彩办公大师绿色免安装版:下载完,解压,不需要安装,直接双击图中文件…

【电脑常用办公软件】万彩办公大师教程丨全能视频转换工具

关于万彩办公大师的全能视频转换工具 全能视频转换工具兼容Windows操作系统,实现多种视频格式间的流畅转换。支持批量转换视频到其他格式;支持多种输出视频格式,自定义质量和大小,最大程度上满足其想要在不同播放设备上播放视频的…

【免费思维导图软件】万彩脑图大师教程 | 导出导入思维导图模板

在万彩脑图大师中, 你可以轻松导出导入思维导图模板进行保存或编辑,具体操作步骤如下: 一、导出模板 1)单击左上角的“文件“—点击“保存成模板“—输入标题,关键字以及进行高级模板设置—保存 【图1▲】 2&#…

【免费思维导图软件】万彩脑图大师教程 | 贯穿思维导图演示过程的背景音乐设置

添加背景音乐可以赋予思维导图画面感和节奏感,渲染特定氛围,调动观众情绪,使之全身心投入参与到演示之中。您可以在“选项”窗口中为思维导图添加和设置背景音乐。 添加设置背景音乐的具体操作步骤如下: 1. 添加背景音乐 “选项…

【免费办公软件】万彩办公大师教程丨文件批量解压工具

万彩办公大师里的批量解压工具,可批量解压RAR与ZIP格式的压缩文件 。支持拖放导入压缩文件,两种解压方式可选:解压到当前目录和解压到当前子目录。 一、运行文件批量解压工具 通过万彩办公大师,选择“更多办公小工具”——“文件处…

万彩脑图大师教程 | 万彩脑图大师免费注册登录

万彩脑图大师简单易用,功能强大,免费注册登录,即可制作精美生动的思维导图。 下面说说万彩脑图大师免费注册登录的步骤: 1.在官方网页注册 http://www.wmindmap.cn/account/register 或者直接在软件上注册: 打开万…

【办公协作软件】万彩办公大师教程丨全能文档转换工具

关于全能文档转换工具 万彩办公大师的免费全能文档转换工具能转换Office为PDF,无需安装任何插件和工具。拖拽操作就能添加Office文档(.doc(x),.xlsx,.ppt(x))进行一键转换。启动该程序时,以下主界面将显示: 使用全能文…

【办公软件都有哪些】万彩办公大师教程丨PDF图片抽取

万彩办公大师的PDF 图片抽取工具能快速从Adobe PDF 文件中提取图片。提取后的图片可供重复编辑或使用。迅速抽取批量PDF文件中的图片并且可以以多种图片格式进行保存。更有图片尺寸过滤与预览设置,可在保存前清除多余的内容。 无需安装Adobe Acrobat 阅读器&#xf…

【电脑办公软件有哪些】万彩办公大师教程丨图片批量特效处理

关于图片批量特效处理 万彩办公大师的图片批量特效处理工具支持JPG,PNG,GIF等图片格式的批处理。实现图片的批量添加水印、调整色度(对比度,亮度,色彩平衡,尖锐化)、特效设置(模糊化…

【办公协作软件】万彩办公大师教程丨PDF页面排列布局帮助文档

关于万彩办公大师的PDF页面排列布局工具 PDF页面排列布局工具是一款批量创建多页排列PDF文档的桌面应用程序,操作简单,实用高效。A/B,A/C,分割或首-尾,强大的排列方式和页面布局使PDF文档的页面排版美观、专业&#x…

【常用的办公软件】万彩办公大师教程丨PDF文件批量命名

关于万彩办公大师的PDF文件批量命名工具 PDF文件批量命名工具是一款为PDF文档批量命名的桌面应用程序,操作简单,实用高效。使用这款文件批量命名工具可以为PDF文档批量命名,可以自定义新的文件名并预览新名称。 功能介绍: 1. 一…

【什么办公软件好用】万彩办公大师教程丨图像拼接大师的应用

关于图像拼接大师 图像拼接大师拼接批量图片、照片,高质量、多格式(BMP,JPG,PNG,GIF)的图片输出满足分享和打印需求。有4种排列规则自定义图片的拼接排版,设置边框、图片样式和图片缩放&#x…

【办公应用软件】万彩办公大师丨PDF页面修剪帮助文档

关于万彩办公大师-页面修剪 一个简单快速的桌面实用程序,可以裁剪或删除PDF页面的空白区域。它也可以重组正常大小的PDF页面 (大小为A4, B4, Letter etc.) ,使PDF文件在相对较小的设备上(Sony Reader PRS500/PRS505, iRex Iliad, Sony Libri…

【常用办公软件有那些】万彩办公大师教程丨PDF水印移除

关于PDF水印移除 万彩办公大师可以批量去除PDF文档上的所有水印(标识,图章,版权,商标等),所有的操作都是一步到位。只要点击一下按钮,PDF文档中所有的图像水印便立马自动去除,最终输…

【办公基本软件】万彩办公大师教程丨批量文件目录生成器

关于万彩办公大师的批量文件目录生成器 批量文件目录生成器可以一次性生成文件目录和文件,文件格式包括txt文件,word文件,ppt文件等。当启动该程序时,以下主界面将显示: 使用批量文件目录生成器 一、 选择创建类型 点击“创建方式”面板中的…

【办公软件有哪些】万彩办公大师教程丨PDF页面编辑

关于万彩PDF大师-页面编辑 万彩PDF大师-页面编辑是一个简单快速的桌面应用程序,帮助你修改和组合PDF页面(重新组织PDF页面),允许进行以下操作: 1.页面编辑:包括剪切/粘贴、克隆、删除、插入空白页、旋转页面、调整页面大小。 2.页面排列&a…

【常用办公软件】万彩办公大师教程丨全能图片转换工具

关于万彩办公大师的全能图片转换工具 图片转换工具可以实现bmp,jpg,gif,等各种常见图片格式的转换。无需支付任何费用,不含任何插件病毒。支持自定义转换成的图片格式,质量,大小,以及输出文件名称和保存路径。软件主界面如下&…

【电脑办公软件】万彩办公大师教程丨图片转PDF工具

万彩办公大师的图片转PDF工具是一款操作简单, 效果显著的应用程序。 支持将图片,扫描文件,传真等转换为PDF文件。 图片转PDF工具功能如下: 1. 支持多种图片格式,包括但不限于:TIFF, JPEG, JPEG 2000, GIF,…

【办公基本软件】万彩办公大师教程丨PDF压缩工具

关于万彩办公大师-PDF压缩工具 快速压缩Adobe PDF文档中的图片,降低图片分辨率同时保证一定的图片质量来减小PDF文件大小,加快网页上PDF内容的读取速度. 该工具既支持有损损耗,也支持无损耗压缩。 使用万彩办公大师-PDF压缩工具 当启动该程…