清华开源图文对话大模型!表情包解读有一手,奇怪的benchmark增加了

丰色 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

什么,最懂表情包的中文开源大模型出现了??!

就在最近,来自清华的一个叫VisualGLM-6B的大模型在网上传开了来,起因是网友们发现,它连表情包似乎都能解读!

像这个腊肠犬版蒙娜丽莎,它不仅准确理解了这是腊肠犬与蒙娜丽莎的“合体照”,还点出了这只是一幅虚构作品:

又像是这个正在出租车后熨衣斗的男子,它也一眼看出了“不对劲”的地方:

值得一提的是,在此前GPT-4刚发布时,网友们也同样将它用来测了测常识理解能力:

就如同弱智吧问题是大模型语言理解能力的benchmark一样,表情包简直就是大模型图片理解能力的benchmark。

要是它真能理解网友们奇奇怪怪的表情包,那AI简直没有什么不能get到的信息点了啊!

我们赶紧测试了一波,看看它究竟效果如何。

gif也能看懂,但解读太过正经

目前,VisualGLM-6B已经推出了网页端试玩版。

只需要在Hugging Face的试玩界面上传图片,再与它进行“对话”,它就能生成理解图片的结果:

先试试初级难度的表情包。

官方给出了几个问题示例,例如“描述一下这个场景”、“这是什么东西”、“这张图片描述了什么”,我们就先尝试一下这几个问题。

输入一只正在听歌的小猫,让VisualGLM-6B描述一下表情包中的场景

还不错,VisualGLM-6B准确get了小猫享受音乐或使用电子设备这个过程!

再输入一个章鱼哥表情包,问它“这是什么东西”:

也没问题。看起来能拿给爸妈用了(手动狗头)。

再试试用吃饭小狗,让VisualGLM-6B解读一下这张图片描述了什么

看起来初级表情包都没什么问题,是时候加大力度了。

上传一个gif试试?第一眼似乎没有问题:

但再换一个gif试试就会发现,它似乎只理解了第一帧图像,猜测是不是“主角在试图抓住或捕捉它”,但实际上只是在扔钞票:

与之前的一些图片理解AI不同,VisualGLM-6B在解读时会着重介绍表情包角色中的面部表情,例如“它看起来不舒服或者紧张”:

BUT!当我们再上一点难度,给表情包配上文字之后,它就无法理解表情包的含义了:

尤其是这种靠配文传达表情包精髓的,VisualGLM-6B就会开始展现“瞎解读”的功底:

如果图像拼接太多,它还会出现奇怪的bug,例如把摸鱼狗头人认成大鲨鱼:

而且,它在描述表情包的时候整体比较正经,不会解读图像以外的“用意”。

例如,有网友测试了一下经典的“熊猫人显卡”表情包:

以及周星驰的经典“我全都要”表情包:

显然VisualGLM-6B能大致理解图片的场景,但对于表情包的配文就无法理解了。

总结一下,对于包含经典作品角色的表情包,或是经过文字加工前的“原始”表情包,VisualGLM-6B能说出这个角色的名字,或是描述出其中的场景:

虽然也可以让它描述情绪,不过AI看出来的情绪,可能和最终表情包表达的情绪不太一样:

但一旦表情包加上了文字、或是被P进了新场景,VisualGLM-6B就会因为无法解读图片中文字的意思,而变得“看不懂梗”了。

有时候还会解读错乱,例如狗看成猪

那么,拥有一部分解读表情包能力的VisualGLM-6B,究竟是什么来头?

多模态对话VisualGLM-6B,最低只需8.7G显存

事实上,VisualGLM-6B并非专门为“表情包解读”而开发。

它是由智谱AI和清华大学KEG实验室打造的开源多模态对话模型,主要用于中文图像理解,解读表情包可以说只是它被开发出来的一个“副业”。

它的正经用法,一般是酱婶的:

提起这个团队,大家更熟悉的可能是ChatGLM-6B大模型。

后者此前我们有作介绍:

它是“清华系ChatGPT”的一员,2022年8月发布,共62亿规模参数,支持中英双语对话。

上线4天就突破6k star,目前已经近25k。

据介绍,VisualGLM-6B正是在ChatGLM-6B的基础上完成:

ChatGLM-6B负责它的语言模型部分,图像部分则通过训练BLIP2-Qformer构建起视觉模型与语言模型的“桥梁”。

因此,VisualGLM-6B整体模型共78亿参数

具体而言,VisualGLM-6B的预训练在中英文权重相同的情况下,在30M高质量中文图文对和300M经过筛选的英文图文对上完成(来自CogView数据集)。

这一训练方法可以将视觉信息对齐到ChatGLM的语义空间。

微调阶段,VisualGLM-6B又在长视觉问答数据上训练,以生成符合人类偏好的答案。

与此同时,VisualGLM-6B由SwissArmyTransformer (简称“sat” ) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。

最终,本项目既提供了HuggingFace接口,也提供了基于sat的接口。

要说VisualGLM-6B最大的特点,便是结合模型量化技术,可以让大家在消费级的显卡上进行本地部署,INT4量化级别下最低只需8.7G显存

具体包含三种部署工具:

一是命令行Demo。执行命令:

python cli_demo.py

然后程序便自动下载sat模型,大家就可以在命令行中进行交互式的对话了。

输入指示并回车即可生成回复,输入clear可以清空对话历史,输入stop终止程序。

二是基于Gradio的网页版Demo。

需要先安装Gradio:pip install gradio,然后下载并进入本仓库运行web_demo.py,最后在浏览器中打开系统输出的地址即可使用。

三是API部署。需要安装额外的依赖:pip install fastapi uvicorn,然后运行仓库中的api.py。

更多细节和推理、量化部分的方法就不赘述了,可戳参考链接[1]查看官方介绍。

需要注意的是,如官方所述,VisualGLM-6B正处于V1版本,视觉和语言模型的参数、计算量都较小,因此会出现相当多的已知局限性,像图像描述事实性/模型幻觉问题、图像细节信息捕捉不足,以及一些来自语言模型的局限性等等。

就如下面这张测试,VisualGLM-6B描述得还挺到位的,能看出是阿根廷和世界杯,但别被蒙了:图上并没有阿圭罗和迪马利亚这两位球星。

因此,官方也称将在后续继续针对以上问题进行一一改进。

不过,拥有图片解读能力的大模型,也并不只有VisualGLM-6B一个。

目前来看,表现比较好的“表情包杀手”还是GPT-4,从网友测试来看,它已经能根据表情包中的文字解读meme:

开源大模型方面,基于Vicuna-13B开发的MiniGPT-4也能解读图片,同样只需要一张单卡RTX3090就能搞定:

不过在这批大模型中,VisualGLM-6B强调的则是“中文开源”特点,换而言之,它在中文描述上可能会比其他大模型更准确一些。

你试玩过这些“表情包解读AI”了吗?感觉谁更能get人类思想精华?(手动狗头)

VisualGLM-6B试玩地址:
https://huggingface.co/spaces/lykeven/visualglm-6b

参考链接:
[1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ
[2]https://twitter.com/thukeg/status/1659079789599248386


卡奥斯开源社区是为开发者提供便捷高效的开发服务和可持续分享、交流的IT前沿阵地,包含技术文章、群组、互动问答、在线学习、大赛活动、开发者平台、OpenAPI平台、低代码平台、开源项目等服务,社区使命是让每一个知识工人成就不凡。

官网链接:Openlab.cosmoplat—打造工业互联网顶级开源社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52494.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

元宇宙即将到来

元宇宙是人们娱乐生活及工作的,虚拟时空。核心是数字创造,数字资产,数字交易,数字货币和数字消费,尤其是在用户体验方面,达到了真假难辨,虚实混同的境界。 元宇宙虚拟物品生产到消费的宏观产业…

聊聊这个本不存在的 “元宇宙”

最近看元宇宙的信息已经都传得很魔幻了,就差走向神学、哲学了。一些小伙伴也来问我到底什么是元宇宙。在这个领域待了很多年的圈内人,反而其实没人会聊这个词,也是感慨资本炒作的强大。很多人估计连 VR/AR 都不见得分得清,又被拉入…

让我们一起来看什么是元宇宙

概要 可以把它想象成互联网,或者至少以 3D 形式呈现。扎克伯格将其描述为一个“虚拟环境”,您可以进入其中,而不仅仅是在屏幕上观看。 “元宇宙”这个词是捕捉科技行业想象力的最新流行语,以至于最著名的互联网平台之一正在重塑品…

教你使用淘宝接口查询手机号码归属地

接口: https://tcc.taobao.com/cc/json/mobile_tel_segment.htm?tel在后面加上你要查询的手机号码复制到浏览器中访问即可 示例:

Generative Agents: Interactive Simulacra of Human Behavior翻译

摘要 模仿人类可信行为的智能体可以增强沉浸式环境和仿真环境中交互式应用,以实现人机交流,及原型工具。在本文中,我们引入了生成式智能体,这是一种模仿可信人类行为的计算软件智能体。生成式智能体能够完成起床,煮早…

短视频seo矩阵系统源码开发技术分享

短视频SEO矩阵系统是一种集多种优化技术于一体的系统,包括视频SEO、网站SEO、社交媒体优化等。 一、 技术分享 以下是源码开发技术分享: 网站SEO优化:优化网站结构,提高网站速度,增加网站安全性等,可选用…

短视频矩阵系统源码搭建部署分享

目录 一、 短视频矩阵系统源码搭建部署分享 安装环境 下载源码 安装依赖 配置数据库 配置 Redis 配置 FFMpeg 配置 Nginx / Apache 启动服务 二、短视频矩阵系统搭建功能设计 三、 短视频矩阵如何搭建 1.选择合适的短视频平台 2.制定短视频内容策略 3.定期发布短视…

抖音矩阵系统源码开发搭建部署分享

一、 功能开发设计 (1)数据概览:账号,视频top10数据统计 (2)AI视频创意:原创视频批量剪辑,阶乘算法,去重原理 (3)同城拓客:线下门店…

AIGC+低代码+软件工程,必将引起软件开发领域一场新的革命!

引言:AI低代码开发不仅是继面向过程,面向对象之后的一种新的抽象方式,也是继瀑布开发,敏捷开发之后的一种新的开发方法。 五十年前的软件危机 正是计算机技术的起步阶段,软件的基础设施正在建立,如操作系…

AI低代码开发宣言:一场新的软件工程革命

引言:AI低代码开发不仅是继面向过程,面向对象之后的一种新的抽象方式,也是继瀑布开发,敏捷开发之后的一种新的开发方法。 五十年前的软件危机 正是计算机技术的起步阶段,软件的基础设施正在建立,如操作系统…

【通览一百个大模型】CodeX(OpenAI)

【通览一百个大模型】CodeX(OpenAI) 作者:王嘉宁,本文章内容为原创,仓库链接:https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型&NLP&算法】可获得博主多年积累的全部NLP、大模型和算法干…

火车头采集器伪原创【php插件代码】

大家好&#xff0c;火车头伪原创给大家分享一下c语言和python区别大吗&#xff0c;很多人还不知道这一点。下面详细解释一下。现在让我们来看看&#xff01; <?php header("Content-type: text/html; charsetgb2312"); set_time_limit(0);error_reporting(E_ALL)…

小发猫伪原创,python下载需要花钱吗

大家好&#xff0c;给大家分享一下下载python需要下载pycharm吗&#xff0c;很多人还不知道这一点。下面详细解释一下。现在让我们来看看&#xff01; 1、python软件免费吗_百度知道 python软件免费吗? python是免费的&#xff0c;是自由、开放源码的软件之一&#xff0c;在p…

【Stable Diffusion | AI 绘画】手把手教你体验--AI 生成唯美二次元

应用背景 AI 绘画是一种应用人工智能技术来生成数字艺术作品的创作方法。这个领域的发展让艺术家和设计师能够更加轻松地使用技术来实现创意和想象。AI绘画是数字艺术领域的一种热门话题&#xff0c;因为它可以让我们了解人工智能技术如何应用于创造性领域&#xff0c;并且可以…

腾讯测开,也不简单啊...

很多同学觉得后端岗位太卷&#xff0c;都会去投一下测开岗位&#xff0c;但是不知道如何准备测开。 其实测开的面试和后端差不多的&#xff0c;一样是八股文项目算法&#xff0c;所以直接按后端开发的方向准备就行了。 今天分享一位同学腾讯测开的面试&#xff0c;腾讯测开的…

佛经中蕴涵的人生哲理

一、人之所以痛苦&#xff0c;在于追求错误的东西。 二、与其说是别人让你痛苦&#xff0c;不如说自己的修养不够。 三、如果你不给自己烦恼&#xff0c;别人也永远不可能给你烦恼。因为你自己的内心&#xff0c;你放不下。 四、好好的管教你自己&#xff0c;不要管别人。 …

测试和对比一下ChatGLM2-6B和BaiChuan-13B的对自然语言的理解结果

测试和对比一下ChatGLM2-6B和BaiChuan-13B的对自然语言的理解结果 0. 背景1. 测试示例说明2. ChatGLM2-6B 的测试代码和测试结果(截图)3. Baichuan-13B 的测试代码和测试结果(截图)4. Llama-2-70b-Chat 测试结果(截图)5. ChatGPT(3.5) 测试结果(截图)6. Claude2 测试结果(截图)…

物联网还有哪些创业机会?

如果每个网络信号都有实体的话&#xff0c;我们眼前的世界一定会越来越拥挤。 二十年前&#xff0c;互联网改变了我们获取信息和相互交流的方式。现在&#xff0c;这一运动正在以相同的方式改变我们与周遭物理世界的联系。据市场研究机构DC预测&#xff0c;到2020年时&#xf…

人工智能亟待深耕

两年前&#xff0c;一场围棋的人机大战掀动了人工智能的热潮&#xff0c;各类AI创业公司如雨后春笋般涌现&#xff0c;资本纷纷加码&#xff0c;深度学习、神经网络等概念炙手可热。然而&#xff0c;除了人脸识别、语音智能之外&#xff0c;人工智能带来的惊喜与公众的期待还有…

最强王者级主动股票基金和债券基金池

好久没发说说了&#xff0c;今天周六整理了下圈子里各位大V组合和筛选了全市场的所有主动型基金。整理了一份主动股票基金和债券基金优选池&#xff0c;用于接下来调整资产配置&#xff0c;弥补主动基金投资这部分的空缺。 说明&#xff1a;主动基金更重要的是基金经理人。可以…