最强组合HuggingFace+ChatGPT=「贾维斯」现在开放demo了!

fcc8742a79b4dd730e4784a901721779.gif

来源:新智元

fc684c2cc4f3da8fe6d7d469abcc9799.png

前段时间,浙大&微软发布了一个大模型协作系统HuggingGPT直接爆火。

研究者提出了用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,完成多模态复杂任务。

整个过程,只需要做的是:用自然语言将你的需求输出。

cda9eceb13dc893ef131eb5ebb3bd4e6.png

英伟达科学家称,这是我本周读到的最有意思的论文。它的思想非常接近我之前说的「Everything App」,即万物皆App,被AI直接读取信息。

e5e17c9053c32870354fec2784e8ba21.png

上手体验

现在,HuggingGPT增加了Gradio演示。

9a5340b09ffb98296feee194147a4d79.png

项目地址:https://github.com/microsoft/JARVIS

有网友便上手体验了一番,先来「识别图上有几个人」?

b2b83b3e115a54790e2f7cc2d4f7efe3.png

HuggingGPT根据推理结果,得出图片中有2个人正在街道上行走。

具体过程如下:

首先使用图像到文本模型nlpconnect/vit-gpt2-image-captioning进行图像描述,生成的文本「2个女人在有火车的街道上行走」。

接着,使用了目标检测模型facebook/detrresnet 50来检测图片中的人数。模型检测出7个物体,2个人。

再使用视觉问题回答模型dandelin/vilt-b32-finetuned-vqa得出结果。最后,系统提供了详细的响应和用于解答问题的模型信息。

bb50880c5a0c7dc25676bbd27f5c8fc7.png

另外,让它理解「我爱你」这句话的情感,并将其翻译成泰米尔语(Tamiḻ)。

HuggingGPT调用了以下模型:

首先,使用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类,是「浪漫」。

然后,使用「ChatGPT」将文本翻译成泰米尔语,即「Nan unnai kadalikiren」。

在推理结果中没有生成的图片、音频或视频文件。

2adeb3b4a4e9feb9332fd208ba6cf366.png

转录MP3文件时,HuggingGPT却失败了。网友表示,「不确定这是否是我的输入文件的问题。」

e822a3c346aea1d38a89b190e474670b.gif

再来看看图像生成的能力。

输入「一只猫跳舞」图像上添加文字「I LOVE YOU」作为叠加层。

HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根据给定的文本生成「跳舞的猫」的图片。

然后,使用同一个模型根据给定的文本生成了「I LOVE YOU」的图片。

最后,将2个图片合并在一起,输出如下图:

56fbeb7d85cb2668a692600ef66e34b8.png

贾维斯照进现实

项目公开没几天,贾维斯已经在GitHub上收获了12.5k星,以及811个fork。

e756fac16c86e4d8dcfb2c4ef3d6696a.png

研究者指出解决大型语言模型(LLMs)当前的问题,可能是迈向AGI的第一步,也是关键的一步。

因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。

a19c61ab0fe1ddfccbf94463b17be232.gif

为了处理复杂的人工智能任务,LLMs应该能够与外部模型协调,以利用它们的能力。

因此,关键点在于如何选择合适的中间件来桥接LLMs和AI模型。

在这篇研究论文中,研究者提出在HuggingGPT中语言是通用的接口。其工作流程主要分为四步:

77c5e4ad4f60f264659583cc49ec22c3.png

论文地址:https://arxiv.org/pdf/2303.17580.pdf

首先是任务规划,ChatGPT解析用户请求,将其分解为多个任务,并根据其知识规划任务顺序和依赖关系。

接着,进行模型选择。LLM根据HuggingFace中的模型描述将解析后的任务分配给专家模型。

然后执行任务。专家模型在推理端点上执行分配的任务,并将执行信息和推理结果记录到LLM中。

最后是响应生成。LLM总结执行过程日志和推理结果,并将摘要返回给用户。

99a976cbaa36ae82f40d6fbae74bdc88.png

假如给出这样一个请求:

请生成一个女孩正在看书的图片,她的姿势与example.jpg中的男孩相同。然后请用你的声音描述新图片。

可以看到HuggingGPT是如何将它拆解为6个子任务,并分别选定模型执行得到最终结果的。

2ca18c01e2d59afef2a63136f66bc1c5.png

通过将AI模型描述纳入提示中,ChatGPT可以被视为管理人工智能模型的大脑。因此,这一方法可以让ChatGPT能够调用外部模型,来解决实际任务。

简单来讲,HuggingGPT是一个协作系统,并非是大模型。

它的作用就是连接ChatGPT和HuggingFace,进而处理不同模态的输入,并解决众多复杂的人工智能任务。

所以,HuggingFace社区中的每个AI模型,在HuggingGPT库中都有相应的模型描述,并将其融合到提示中以建立与ChatGPT的连接。

随后,HuggingGPT将ChatGPT作为大脑来确定问题的答案。

到目前为止,HuggingGPT已经围绕ChatGPT在HuggingFace上集成了数百个模型,涵盖了文本分类、目标检测、语义分割、图像生成、问答、文本到语音、文本到视频等24个任务。

实验结果证明,HuggingGPT可以在各种形式的复杂任务上表现出良好的性能。

网友热评

有网友称,HuggingGPT类似于微软此前提出的Visual ChatGPT,似乎他们把最初的想法扩展到了一组庞大的预训练模型上。

39ac16e05000ff2d9907344a87154b09.png

Visual ChatGPT是直接基于ChatGPT构建,并向其注入了许多可视化模型(VFMs)。文中提出了Prompt Manage。

在PM的帮助下,ChatGPT可以利用这些VFMs,并以迭代的方式接收其反馈,直到满足用户的要求或达到结束条件。

9bb24f78136e4f279affb1f53367970c.png

还有网友认为,这个想法确实与ChatGPT插件非常相似。以LLM为中心进行语义理解和任务规划,可以无限提升LLM的能力边界。通过将LLM与其他功能或领域专家相结合,我们可以创建更强大、更灵活的 AI 系统,能够更好地适应各种任务和需求。

4389f9f72a884a03d12360afe018befe.png

这就是我一直以来对AGI的看法,人工智能模型能够理解复杂任务,然后将较小的任务分派给其他更专业的AI模型。

9e11586da97d0b106d695fdd4e5aa674.png

就像大脑一样,它也有不同的部分来完成特定的任务,听起来很符合逻辑。

e3f36bd4c9ad7fa0ede00e9da7e27b83.png

参考资料:

https://twitter.com/1littlecoder/status/1644466883813408768

https://www.youtube.com/watch?v=3_5FRLYS-2A

https://huggingface.co/spaces/microsoft/HuggingGPT

f091d04cd69f70fd65f84f5e4b1d59ca.gif

中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina

Discord社区:https://discord.gg/defidao

电报频道:https://t.me/Mute_8btc

电报社区:https://t.me/news_8btc

da045fb6e00f8e7eebeee4753bc2ebdb.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12202.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ChatGPT实战】13.使用ChatGPT帮你搞定房屋装修

房屋装修是一项既令人兴奋又令人操劳的事情。随着人工智能技术的不断发展,在房屋设计方面我们可以借助ChatGPT和Midjourney这两个工具来更好地设计你的房屋装修。 在这篇文章中,我们将介绍如何使用ChatGPT和Midjourney这两个工具,来帮助你轻…

ChatGPT赋能Scrum实践

对于Scrum实践者来说,以ChatGPT为代表的的大语言模型是很有效的工具,但要用好这个工具需要一些技巧,本文介绍了60个适用于Scrum实践的提示,可以帮助ChatGPT有效输出适用于Scrum实践的内容。原文: 60 ChatGPT Prompts Plus Prompt …

人工智能的新时代:讯飞星火大模型Vs ChatGPT

近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看? 一、你有使用过这种…

5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度

关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 机器人越来越像人了!谷歌等的这项研究将现实世界的信息通过传感器纳入多模态语言模型&a…

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人...

新智元报道 本文转载自新智元。 谷歌近日公布了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模型,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。 大语言模型的飞速「变异」&am…

摊牌了,微软始料未及,Excel和WPS用户:我们已经在使用了

ChatGPT嵌入 Power Platform 3月6日,微软公司宣布,将 ChatGPT 的技术扩展到其 Power Platform 无代码开发平台上,这将允许其用户在很少甚至不需要编写代码的情况下,就能开发自己的应用程序。 从人工智能到ChatGPT,一次…

领域知识网络即服务:知识助力产业升级“无形的手”?

文|智能相对论 作者|叶远风 你用过ChatGPT了吗? 这个风靡全球的AI应用,以出圈的方式展现着AI的能量。 一个对话的界面,可以聊任何你想聊的话题,可以写出任何你想要的文字。 似乎有无限的人类知识,被集中到了一起&…

炸了!谷歌发布史上最大通才模型PaLM-E,5620亿参数!看图说话还能操控机器人...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自:新智元 【导读】谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模…

Arduino实训-可移动机械臂(智能小车)

Arduino课程设计的实训要求通过UNO开发板设计工程项目并且与自主开发的AndroidAPP实现连接,最后选择了完成一个可移动机械臂。下面是最终成果图。 最终的效果:可通过手机开发的AndroidApp实现控制小车上的蓝牙模块进行连接并且控制小车的运动和机械臂的运…

30分钟!从0到1,用ChatGPT+Python做一个AI起名网!

坚持6年,第629篇原创 现在利用ChatGPT可以做很多很多事情,而对于我们程序员来说,是机会也是挑战!因为原来很多工种,很多技术问题现在可以用非常廉价的技术去获取,成本更低了! 打个比方&#xff…

ChatGPT 加持,决策大模型距离 AGI 更进一步

过去短短不到一年里,ChatGPT、GPT-4 的相继面世,不断刷新人们对 AI 的认知。 新技术带来变革,也引发了外界对 AI 是否会取代人的讨论,OpenAI 首席执行官 Sam Altman 也公开表示,对人工智能技术的强大能力有些担忧。 …

人工智能从来不是一帆风顺的

不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。如今看来,这句话要改写了。 ----- 特伦斯谢诺夫斯基 目录 人工智能初现端倪 人工智能初现 人工智能“第一次危机”——“设计派”行不通 第一次危机破局——学习派初见成效…

融入ChatGPT生成能力后,员工AI助手实力狂飙

聊天机器人ChatGPT爆火“出圈”,让公众的视线再次聚焦在AI办公领域,随着企业数字化转型的深入,AI技术也悄悄渗透进办公室里,并在逐步颠覆企业当前的办公方式。 雇主评论网站Glassdoor旗下的社交平台Fishball的一份调查报告显示&a…

ChatGPT只是开胃菜,AIGC风口真的来了

去年OpenAI发布的ChatGPT在全球疯狂刷屏成为一款现象级产品,并成功出圈受到IT、新闻媒体、学术研究、教育等领域的广泛好评和应用。甚至有一位美国学生用ChatGPT 写论文拿下全班最高分,受到了全球媒体的热议。 比尔盖茨曾在今年“Reddit AMA大会”表示&…

2023年的深度学习入门指南(5) - 动手写第一个语言模型

2023年的深度学习入门指南(5) - 动手写第一个语言模型 上一篇我们介绍了openai的API,其实也就是给openai的API写前端。在其它各家的大模型跟gpt4还有代差的情况下,prompt工程是目前使用大模型的最好方式。 不过,很多编程出身的同学还是对于…

知识工作者如何面对ChatGPT的竞争?

什么是ChatGPT ChatGPT的全名是Chat Generative Pre-Trained Transfomer,是一款在2022年11月份推出的人工智能聊天机器人。特点是可以通过大型语言模型进行强化学习训练,对话模式非常接近人类自然对话。 ——维基百科 ChatGPT能做什么? Chat…

ChatGPT 下我的焦虑

鉴于一些读者还未体验过,可以看一下以下 GitHub 项目,收集了几千个封装的 ChatGPT 网站: https://github.com/weekend-project-space/chatgpt-sites 在 ChatGPT 刚出的时候,我对 AI 不屑一顾,大概源自于好几年前人工智…

吴军博士被ChatGPT粉丝 疯狂炮轰!他究竟做错了什么?

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 最近,吴军博士的一些观点引起了热议。他说:“ChatGPT不算新技术革命,带不来什么新机会。” 此话一出,立刻在科技圈引起广泛讨论。K哥是吴军老师的读者&a…

吴军:ChatGPT 不算新技术革命,带不来什么新机会

吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴军,就人工智…

原腾讯副总裁,Google资深研究员吴军:ChatGPT不算新技术革命,带不来什么新机会...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未 转载自 | 学人Scholar 吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3…