MiniGPT4,开源了。

大家好,我是 Jack。

 

一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。

ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。

你还记不记得发布会上,GPT4 的多模态能力,就是输入不仅是可以是文字,还可以是文本和图片。

输入:(看图)手套掉下去会怎样?

输出:它会掉到木板上,并且球会被弹飞。

 甚至画个网站的草图,GPT4 就可以立马生成网站的 HTML 代码。

然而,已经过去一个多月了!OpenAI 至今也没有提供发布会所展示的多模态处理能力!

原本以为还要再等几个月的官方更新,才能体验上这个功能,没想到,我看到了这么一个项目。

该项目名为 MiniGPT-4,是阿卜杜拉国王科技大学的几位博士做的。

最主要的是,完全开源!比如,描述一下这张图片:

 帮忙写个广告语:

可以看到,MiniGPT-4 能够支持文本和图片的输入,实现了多模态的输入功能。

GitHub:https://github.com/Vision-CAIR/MiniGPT-4

在线体验:https://minigpt-4.github.io

作者还提供了网页 Demo,可以直接体验:

MiniGPT-4 是在一些开源大模型基础上训练得到的,fine tune 分为两个阶段,先是在 4 个 A100 上用 500 万图文对训练,然后再用一个一个小的高质量数据集训练,单卡 A100 训练只需要 7 分钟。

不过目前使用的人数较多,可以错峰使用,或者本地部署一个服务。

本地部署也不复杂,根据官方教程直接配置环境:

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

然后下载预训练模型:

输入指令直接运行:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

这个过程需要保证有网络,需要下载一些 BLIP 之类的依赖库。

相信不久的将来,不仅仅是可以多模态输入,还可以多模态输出。

我们可以输入:文本、图像、音频、视频

AI 就能根据我们的需求,生成我们需要的文本、图像、音频、甚至是视频。

一起期待一下吧~


最后再送大家一本,帮助我拿到 BAT 等一线大厂 offer 的数据结构刷题笔记,是一位 Google 大神写的,对于算法薄弱或者需要提高的同学都十分受用:

谷歌和BAT大佬的刷题笔记,看完秒杀80%的算法题!

以及我整理的 BAT 算法工程师学习路线,书籍+视频,完整的学习路线和说明,对于想成为算法工程师的,绝对能有所帮助:

我是如何成为算法工程师的,超详细的学习路线

别光收藏,来个赞哦,笔芯~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18542.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

飞书API调用尝试,实现飞书文档对于咨询的收集和实时的更新

摘要:主要就是记录一下自己从零开始做自己需要使用的脚本的过程,其中使用到chatgpt工具,也需要有记录作用,可以记录自己每天的工作进程,CSDN的是基于Markdown的方式,所以这个可以恰好植入到我的学习笔记的网…

恐怖的挥霍速度,每年烧上百亿美元,元宇宙大梦“压垮”Meta,苹果出手能否改写颓局...

点击上方“Python与机器智能”,选择“星标”公众号 第一时间获取价值内容 大数据文摘授权转载自AI前线 作者:刘燕,核子可乐 元宇宙玩家,似乎很擅长“画大饼”。 身为社交媒体巨头的掌门人,扎克伯格已经在虚拟现实之梦上…

GPT-4,大增长时代的序幕

作者|成诚 虽然我们早在 2017 年就预测了超大模型的到来,因此才搞了分布式深度学习框架 OneFlow(github.com/Oneflow-Inc/oneflow/),且 2020 年的 GPT-3 也掀起了大模型热潮(OneFlow——让每一位算法工程师…

ChatGPT4功能大全,附上一些官网推荐的例子

例子 探索一些示例应用程序的可能性 所有类别 问答 根据现有知识回答问题。 语法修正 将句子改成标准英语。 给二年级学生总结 将困难的文本翻译成更简单的概念。 自然语言到 OpenAI API 创建代码以使用自然语言指令调用 OpenAI API。 命令文本 将文本转换为编程命令。 英语到其…

《花雕学AI》34:用13种Prompt玩转AI聊天机器人—揭秘ChatGPT模型

引言: 聊天机器人是一种能够通过自然语言进行交流的智能系统,它可以模仿人类的对话方式,提供各种信息、服务或娱乐。随着人工智能技术的发展,聊天机器人的应用越来越广泛,从电商、教育、医疗、旅游等领域,到…

数字人入门文章速览

语音驱动三维人脸方法 OPPO 数字人语音驱动面部技术实践 【万字长文】虚拟人漫谈 Blendshape学习笔记 人脸重建速览,从3DMM到表情驱动动画 功能强大的python包(四):OpenCV 从Blendshapes到Animoji 3D人脸重建算法汇总 一、3D人脸重…

戴上脑机接口头盔,他用大脑跟别人「说话」

梅宁航 发自 凹非寺 量子位 报道 | 公众号 QbitAI 高位截瘫,全身器官失能,大脑还正常,却已口不能言。 怎么办? 现在最新研究进展来了——利用脑机接口,让别人跟患者的大脑直接对话。 近期,俄勒冈健康与科学…

如何用subtitle edit 将英文字幕转换成中文字幕

如何下载Subtitle edit和英文字幕转成中文字幕 Subtitle Edit是一个免费、中文化、使用方便、功能强大的影片字幕制作、同步、翻译与修改软件。这个软件内建影片即时预览功能,可以汇入与辨识字幕,支持SubRib、MicroDVD、Advanced Sub Station Alpha、Su…

whisper实践--基于whisper+pyqt5开发的语音识别翻译生成字幕工具

大家新年快乐,事业生活蒸蒸日上,解封的第一个年,想必大家都回家过年,好好陪陪家人了吧,这篇文章也是我在老家码的,还记得上篇我带大家基本了解了whisper,相信大家对whisper是什么,怎…

如何自动翻译字幕文件(机翻)

所需软件: Vscode 所需插件: Subtitles Editor 操作流程: 众所周知 vscode拥有强大的插件库,强大到甚至可以在vscode中打小霸王 插件库中搜索 Subtitles Editor ​ ​ 点击安装 支持常见的字幕文件格式(.str .vtt .sbv .sub) ​ 提前复制原英文字幕&#xff0…

Tern – 字幕组机翻小助手:自动翻译英文字幕为中英双语字幕[Win/macOS]

简介: Tern 是一款字幕文件翻译工具,它能利用 9 大主流机器翻译服务商(Google、微软、亚马逊等)对 .ass、.srt、.vtt 字幕文件进行翻译,可以减轻字幕组同学的工作量,也为那些对翻译要求不高的同学提供了啃…

借用AI工具为视频添加中文字幕,消除语言障碍,母语环境最快速地学习

由于chatgpt的启动,感觉语言已经完全不会成为学习的障碍,突发奇想,在我们查看youtube视频的时候,有没有方便的工具能够将其字幕翻译为中文。这样能够极大提高在youtube学习的效率,于是顺手问了一下ChatGPT,…

20221115使用google文档翻译SRT格式的字幕

20221115使用google文档翻译SRT格式的字幕 2022/11/15 18:52 (一)将SRT格式的字幕用WPS转换为DOCX的文档。 (请上传 .docx、.pdf、.pptx 或 .xlsx 文件) https://www.google.com.hk/?gws_rdssl Google 拍照搜索 Google 提供&a…

中文字幕!吴恩达 ChatGPT 最新课程

吴恩达是人工智能和机器学习领域国际最权威学者之一,他之前就发布过机器学习、深度学习的视频教程。 在小破站搜索机器学习、深度学习关键词,就能看到大佬的身影,教程高赞、高收藏,广受好评。相信国内 AI 方向的学生 90% 都是听他…

Python分析一下双色球,中大奖指日可待

一、需求简介 之前偶然见到一位网友提出了关于双色球数据的分析需求,感觉颇有趣味,便着手操作了一番。如下为某双色球发布站的页面,可以看到每期会产生红/蓝两种颜色的数字,其中红球为 33 选 6,蓝球为 16 选 1&#x…

最新中国福彩分析大数据分析大师拥有双色球数据展示微信小程序源码支持双色球数据分析多个接口

demo软件园每日更新资源,请看到最后就能获取你想要的: 1.最新中国福彩分析大数据分析大师拥有双色球数据展示微信小程序源码支持双色球数据分析多个接口 福彩大数据分析小程序,数据来自于中国福利彩票 拥有双色球数据展示 双色球数据分析多个接口 数据有每日奖金和…

足球大数据分析大小球胜平负的技巧与经验实例附分析软件

前阵子熬夜看欧冠,利物浦 3-0 击败巴萨晋级决赛,赛后一个同为球迷的朋友问我“现在大数据能分析足球比赛的胜平负或者大小球吗?” 我一听,没有做很肯定的回答。早些世界杯的时候,百度体育运用大数据的技术预测过&…

XT.COM 直播间第106期 | VGO XT.COM AMA 专场

举办方:XT.COM 嘉宾:Lalin Hugo - 创始人 奖励:100 USDT提问奖励~ 时间:11月23日 17:00(UTC 8) AMA直播间: XT.COM官方电报英文社区 XT.COM官方电报中文社区 AMA详情&#x…

微信直播聊天室架构演进

聊天室概述 随着直播和类直播场景在微信内的增长,业务对临时消息通道的需求日益增长,聊天室组件应运而生。聊天室组件是一个基于房间的临时消息信道,主要提供消息收发、在线状态统计等功能。 1500w在线的挑战 视频号直播上线后,在…

XT.COM直播间第109期 | CDT XT.COM AMA 专场

举办方:XT.COM 嘉宾:Kelyan - CheckDot CTO 奖励:100 USDT提问奖励~ 时间:11月29日 15:00(UTC 8) AMA直播间: XT.COM官方电报英文社区 XT.COM官方电报中文社区 AMA详情&…