MiniGPT4,开源了

点击“开发者技术前线”,选择“星标”

让一部分开发者看到未来

9fc3657dfd42d784cef27b75ce141926.jpeg

量子位 | 公众号 QbitAI

GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个。

MiniGPT-4来了,Demo开放在线可玩。

传一张海鲜大餐照片上去,就能直接获得菜谱。

342ec14dd38e72bc50864a6a847662cb.gif

传一张商品效果图,就可以让AI写一篇带货文案。

f77ba0a8fdf414cc55b6b0b7636aa160.gif

手绘一个网页,可以给出对应的HTML代码
33ba3e18fef044b18fbb83fd43e63152.gif

除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。

4ee6fe2171ff17d77de626996c5e2e1e.png

可以说,GPT-4发布时展示过的功能,MiniGPT-4基本也都有了。

这下网友直接把Demo服务器挤爆,开发团队连开4台备用服务器,都有几十人在排队。

8579b089b5758344e029a8d2c124022b.png

不等OpenAI了,现在就能玩

除了研究团队给出的示例,网友也用MiniGPT-4玩出了各种花样

有人上传自己画的画,让AI评价评价。

b6fd356b435aeb9c219cc285038813c1.png

有人上传一张从车道拍摄的飞机坠毁瞬间,让MiniGPT-4尽可能详细地描述,并思考自动驾驶AI能不能理解这个场面。

1edbbd8ac34f8e77a2a11d8d400adac7.png

做到这么好的效果,MiniGPT-4实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

传统预训练阶段,使用4张A100在10个小时内就可完成,此时训练出来的Vicuna已能够理解图像,但生成能力受到很大影响。

为解决这个问题,团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集,也一并开源。‍

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性,而且计算效率很高,使用单个A100只需要7分钟。

68f38f8ebc5e4e2626a564d9d4d07d86.png

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存。

也就是消费级显卡中拥有24GB显存的3090或4090就可以本地运行了。

MiniGPT-4开发团队来自KAUST(沙特阿卜杜拉国王科技大学),包括4位华人成员和他们的导师 Mohamed Elhoseiny。

719b9ade986e6498a5736e7c825d2e4a.png

两位正在读博的共同一作还在GitHub页面上特别标注正在找工作

有意向的公司要抓紧抢人了~

在线Demo:
https://minigpt-4.github.io

开源代码:
https://github.com/Vision-CAIR/MiniGPT-4

论文:
https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

— 完 —
点这里👇关注我,记得收藏订阅哦~

历史推荐

复旦开源首个「中国版ChatGPT」MOSS!全新插件系统

可真刑!两高中生用 AI 生成涩图,疯狂变现

官宣,Google DeepMind 成立

好文点个在看吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21878.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不愧是微软出品的工具,逆天!

上一篇:逆向了一款涉黄APP,发现了她们的小秘密... 大家好,今天分享一些微软出品的实用小工具,希望对大家有所帮助。 原文链接:https://www.pconline.com.cn/win11/1501/15013664.html 系统增强工具PowerToys 下载地址&…

人工智能AI如何工作及使用

chatgpt聊天软件是一款非常好玩的智能聊天软件,如果你觉得生活非常无趣,或者没有人能诉说烦恼,那么这款软件一定非常适合你。 小凡AI是一款专业的智能助手,可以帮助您快速、高效地处理各种工作任务。它包含强大的语音识别和自然语…

老胡的周刊(第094期)

老胡的信息周刊[1],记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 🎯 项目 qrbtf[2] 艺术二维码生成器: qrb…

两则靠谱的AI招聘信息;长文档阅读的辅助总结神器 Obsidian Copliot;LLM 应用开发全栈指南;重写人工智能时代的创业手册 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 两则靠谱的AI招聘信息:奇绩创坛 & Copilot Hub 6月14日,奇绩创坛在「奇绩大模型日报体验群」发布招聘信息…

比OpenAI更快一步,最新开源的MiniGPT-4模型可让开发者提前感受GPT-4识图能力!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 迄今为止,GPT-4 凭借多模态能力已经成为 AI 领域备受关注的大模型,不过值得注意的是,OpenAI 在推出 GPT-4 时虽然引入了对图像理解的能力,但并没有在除了…

谷歌Bard大升级:支持中文,识图功能上线

出品 | OSC开源社区(ID:oschina2013) 谷歌对话式 AI 产品 Bard 昨日发布了重要更新,现在已支持更多国家 / 地区和更多语言(包括中文)。 此外还添加了 Google Lens 功能 —— 可在 prompt 中使用图像,以及新…

ChatGPT类产品和技术的产生会带来哪些影响?

2023年3月15日,GPT-4的发布再次引爆互联网,原有的自然语言理解、推理和对话能力继续增强,更引入了识图等多模态识别功能,有研究认为可以将其视为“通用性人工智能”的初步阶段。在国内,百度同类产品“文心一言“的发布…

基于GPT-4的 IDEA 神仙插件,无需魔法,亲测好用!

近日,Intellij IDEA的插件商店,悄然上线了一个新的插件——Bito,据说可以基于GPT-4和ChatGPT来写代码。短短几天,已经有50多K的下载量了。 我帮大家试用了一下,亲测好用! 根据插件介绍显示,Bito…

ChatGPT大浪潮下,AIGC已经开始改造时尚行业了

编辑 | 机器之心 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【AIGC】技术交流群 AIGC 这股风,吹到了时尚行业,会带来哪些生产力革新? 上线五天,用户破百万&am…

硅谷银行一夜倒闭,海量创业公司遭殃,工资房租统统拿不出

金磊 发自 凹非寺量子位 | 公众号 QbitAI 一夜之间,硅谷银行倒闭了。 这家最受科技和生命科学初创公司青睐的金融机构,就这么被美国联邦存款保险公司(FDIC)宣判了“死刑”。 事件影响之大,CNBC甚至这样评价&#xff1a…

让我们一起来看看可爱的猫咪吧

我想喜欢小猫咪的人,一定非常可爱和温柔吧 前言 这个视频中的小猫咪贼可爱,然后下面的那给进度条是只小猫咪走来走去的。 然后我就想可以拿进度条做点事情,一开始想搜一搜借鉴一下,但是根本没有这种高度自定义的。唉 经历 互联…

编写猫咪相册应用 HTML

文章目录 1. 标题元素标签2. p元素用于在网站上创建一段文本3. 注释4. 页面主要部分标识标签5. 通过使用img元素来为你的网站添加图片6. 使用锚点元素(a)链接到另一个页面7. 使用 section 元素将照片内容与未来的内容分开8. 无序列表(ul)元素,列表项(li)元素在列表中…

ChatGPT|一文读懂GPT-4!

前言 大家好,今天早上一早醒来,发现各大科技圈公众号平台开始刷屏OpenAI发布的新模型GPT4.0,看这个版本号就已经知道又是一大波特性的更新。 于是立马起来开始学习! GPT-4 发布视频(2023.03.15) www.youtub…

李彦宏谈文心一言:市场反馈符合预期;OpenAI CEO 承认害怕 ChatGPT;Twitter 将开源推荐算法源码|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGPT 拿测试 offer ?!

前段时间,全网都在说GPT,听说GPT能写代码、写用例、写算法、写论文、写策划方案、写日报周报新闻稿、种草笔记、视频脚本、作诗作词作曲、处理 Excel 。 心想:这也太厉害了吧!都能帮忙写代码和写用例了,我是不是要被取…

读脑术!由大脑信号构建高清视频的方法实现啦,Stable Dinfusion还能这么用

夕小瑶科技说 分享 来源 | 量子位 作者 | 金磊 现在,AI可以把人类脑中的信息,用高清视频展示出来了! 例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来: 看到过的水中的鱼儿、草原上的马儿,也…

人工智能之深度学习常见应用方向你都了解吗?(文末福利)

本文导读 从零带你了解深度学习常见的7大应用方向,包括:数字识别、图像识别、图像分类、目标检测、人脸识别、文本分类、聊天机器人。 1. 数字识别 数字识别是计算机从纸质文档、照片或其他来源接收、理解并识别可读的数字的能力,目前比较受…

GPT-4“王炸”发布,背后的这些问题你想到了吗?

今天GPT-4发布,看了一下,主要有这几个方面的飞跃式提升: 强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。 除此之外,GPT-…

chatGPT-4论文导读:百年未有之大变局-(1)(转载)

声明:本文已征得原作者:荔枝海豹,同意后转载。 原文链接:https://zhuanlan.zhihu.com/p/628494696 本文按照以下框架讲解,阅读时间大约15分钟,对技术要求能力为三颗星。 什么是GPT,GPT4出现之…