(想看重播的读者可以翻到文章底部~)
不知大家有没有想过如何把一天24小时的时间变长?还有如何知道自己下一步应该做什么?
现在这些都可以基于大语言模型LLM来帮我们实现(模拟仿真)了,LLM具备推理和转译的能力,可以实现非常多的应用,比如自动写作、为不同的读者生成特定内容,游戏剧情生成,甚至是模拟用户偏好测试新产品,还可以模拟你的下一步,辅助决策。
大模型所表现出来的新能力,让创新更为容易。创新,源自于不同学科知识的组合。人类组合,也即是跨界社群;社交媒体的组合,也即是数字内容聚合;AI组合,具体如大模型的prompt及其微调模型等的组合,即能力的组合。
MiX(AI、跨学科知识、超级个体等)是一种方法,也是一种理念。我们认为小而美的团队,是当下最适合LLM的创业方式。跨界社群、内容聚合,赋能超级个体,让微型组织的商业创新更为容易。
在过往我们尝试过不同手段去打造我们的知识引擎,现在我们通过LLM实现了更智能的知识引擎MiX Copilot,MiX Copilot有可能让教学发生彻底的变化,从以前的多对多变成1v1的因材施教,同时让跨学科知识探索变得更简单。
http://www.mix-copilot.com
接下来,怎么发展是我们一直思考的问题。和开源直接竞争是输不起的游戏,开源才是构建最强竞争力的方式。四月份是目前为止AI发展最快的一个月,因为HuggingGPT、AutoGPT、BabyAGI、Camel、Generative Agents、WebLLM、Alpaca 7B等大语言模型LLM项目相继出现在公众视野。
这些项目太有趣了,同时由Mixlab发起的AIGC分布式联盟里每天都诞生有趣好玩的idea,我们决定要让更多创新发生,决定把MiX Copilot的核心实现开源,让更多人可以实现自己的AGI交互界面。
MIT开源协议是一种非常宽松的开源协议,它允许使用者自由地使用、复制、修改、合并、出版、分发、再许可和销售被授权的软件和代码。一种非常适合广泛使用和分享的开源协议,它促进了知识和技术的共享和交流,同时也为开源社区的发展提供了很大的机会。
我们的组织叫AGI-UI,全称是Artificial General Intelligence User Interface,也就是说我们专注于人机协作时代下用户界面的打造。AGI-UI的使命是改善AGI在PC、Web、Mobile、XR、机器人等领域的人机协作体验,让更多人可以实现自己的AGI交互界面。本次开源的项目代号:Earth。由shadow、薛志荣、陈豪杰联合发起。
早在2008 年,微软首席设计总监 August de los Reyes 提到,自然用户界面 NLI (Natural user interface)会是从命令行界面CLI转变到图形用户界面GUI 后的下一演变形式。
而AGI-UI,完全基于LLM的用户界面系统,背后是自治系统。构建它的前提是我们基于严谨的逻辑实现角色内部机制,包括构建可以被实现的模型、流程和接口,接着基于社会关系实现角色之间的配合。
我们可以理解为AGI也是一种模态,它可以跟当前的互联网、XR、我们真实空间里的信息、接口进行交互和调用,它除了可以是模拟点击、意图识别还能是什么?基于图像识别的绝大部分技术都会纳入到下一时代的交互接口和事件定义里。
我们是如何思考AGI-UI的?接下来我们先看一段视频,它将展示浏览器中我们对于AGIUI项目的愿景:
在未来的工作中我们将围绕着三部分进行打磨和开源,它们包括对话面板、任务编辑器和生成式智能体。对话面板可以理解为用户和人工智能交互时最重要的方式,如何基于可解释性构建透明的人机协作方式,以及如何通过多模交互提升整个交互效率将会是我们未来的重点设计方向。目前AGIUI已经支持安装在Chrome、Edge上,同时兼容OpenAI的GPT模型和Bing Chat,未来我们更多的精力会放在单机版LLM以及运行在桌面端。
任务编辑器的工作是为了更好地实现各种捷径(Shortcuts),或者叫工作流。在这里我们提出了Prompt+RPA的概念,也就是说Prompt和各种API、交互事件和任务都会被做成一个个组件,我们尽可能地驱动生成式智能体去实现用户下达的目标。
怎么实现生成式智能体是我们第三项工作,也是最重要也是最前沿的工作。目前我们通过阅读大量的文献以及开源项目总结出下面的生成式智能体架构图,它将分为三部分:多智能体、单智能体和模型实现机制。多智能体好比我们将目标交给一支团队来完成,这时团队应该要有产品经理、项目经理、开发和测试等角色,他们会通过配合来完成老板下发的任务,这时候如何拆解任务以及基于测试知道任务是否被完成将会成为多智能体协作的重点。
单智能体好比一个人,在这里我们参考心理学把短时记忆和长时记忆设计在单智能体内部,短时记忆可以理解为任务的完成情况,里面记录了当前进度、遗留事项等等,当它达到100%或者遗留事项为0我们才会认为上游下发的任务已经完成,它有个自省的过程。长时记忆我们可以比喻为他的角色是什么,他有什么经验,而这部分我们将通过插件的形式来实现,这样的解耦方式能有效降低我们未来的开发成本。
模型将会整个项目里最硬核也是最难的设计,为什么?因为在这里我们基于David Ha的以及Lecun的工作提出了先模拟评估再执行的过程,而图里的预测则是模拟评估的最重要环节。在这里我们可以理解为我们参考了人的行为,人一般都是在脑海里先想再做,这样能最低降低成本和消耗;其次如何通过Prompt的设计让LLM拥有元认知能力将决定了LLM的自省能力;最后我们需要充分考虑人工智能可能对人甚至社会带来的伤害并设计实现出一个护栏,也就是让人工智能文明礼貌不要做出出格的行为。以上三个模块将决定了智能体的上限和下限。
接下来是系统架构图部分。
系统架构是对AGI原理框架的工程实现,为了在早期让更多用户可以直接体验和使用,我们优先实现了浏览器插件版本,主要的特性是可组合性、高度原子化、灵活调度。重点是实现可组合性,让任何的软件场景都可以被原子化组装。具体包括:Combo编辑器、智能体运行时、人机交互面板。
Combo编辑器
Combo编辑器可以定义各种智能体,你可以用来定义最简单的任务型AI,也可以用来构建复杂的自治型AI。智能体的数据结构是由许多prompt组成的结构化描述,具有模块化和可组合性。
智能体运行时
单智能体
任务管理器,使用链式调用的方式,依次执行combo里的prompt,并补充不同交互组件信息然后“喂”给LLM。
执行器,通过API调用LLM,目前支持ChatGPT、NewBing。包括网页执行、API执行、LLM执行。
上下文记忆,目前支持保留当前对话记忆,当新建时,清空记忆。
逻辑判断器,使用JSON作为结果输出,用于判断结果是否可靠
世界模型、认知模型
知识库/长时记忆
网页代理器,用于实现从任意网站上获取信息后输入LLM
知识库加载器,从向量数据库加载专业知识
群体智能
角色分配器,使用角色设定的信息,使LLM具备特定的职业或者人物的技能
多角色管理器,多智能体的协同工作机制
人机交互面板
ChatBot UI组件,实现基本的聊天机器人UI,可在对话流中增加按钮、跳转链接、选项卡等。
可解释性组件,包括可视化ChatBot当前的请求状态:进度、耗时等等,后续智能体的思考过程可视化将是我们的工作重点。
跟网页交互的组件,可视化帮助用户完成与网页的交互,实现锚定元素、模拟点击等行为。
本次开源版本主要实现了Combo组合,一些经典的案例如下:
论文解读:翻译英文论文,并提取摘要和核心观点。
解读Chirper上的社交主页:读取chirper的某个社交账号的主页,解读其最近的互动。
科幻故事生成器:通过读取微博上的当前信息,提取信息,进行重组后写科幻故事,并提出启发性问题引发读者思考。
prompt指南:根据输入信息,生成用于图像生成的prompt
儿童读物生成:用通俗易懂的、讲故事的方式,转化文章。
永动机:模拟讨论,无限循环
接下来请看我们的真实产品演示效果:
以上是整个项目的ROADMAP,后续我们会通过多次的研讨会和黑客马拉松来让不同学科的人才加入到我们开源项目的共建,如果你对项目感兴趣,可以加入到我们的Discord或者Star、Fork我们的项目。
Discord:https://discord.gg/SGwA9anUrr
Github:https://github.com/AGIUI/Earth
想加入我们的开源小组(偏技术)的读者可以在5月9号8点-9点参加我们的第一场研讨会,社群:
如果想加入我们项目核心讨论的微信群,请加Shadow或者薛志荣微信(请填写好备注):
最后是5月7号晚上的发布会回放链接
领取原版pdf联系小助手