豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

金磊 发自 上海
量子位 | 公众号 QbitAI

豆包的“眼睛”升级了,现在让它看一眼APP截图,就能直接给你生成代码!

话不多说,我们直接给它上一个难度。

例如我们先随机截取一张网站的图片:

ddd19875b11606523c298b3118148b7a.png

再来到火山方舟的大模型广场,pick一下最新的Doubao-vision-pro-32k版本:

(PS:该模型也可以在豆包APP中体验)

32581053b698c863d733c91dbe4ba8f2.png

然后把刚才的截图“喂”给豆包,并附上一句简单的Prompt:

帮我写代码,克隆这个APP。

18c4361b0ff057c00be7e6fce03fffa3.gif

只见豆包先是秒看出这是一个音乐APP的界面,紧接着就唰唰唰地敲起了代码。

从代码的功能上来,包括了菜单栏、播放列表框架、播放列表列表框和状态栏。

模拟的播放列表中包含了几首歌曲的信息,包括标题、艺术家、时长和点赞数等。

而且这些都是在不到30秒内完成的。

若是想实现更复杂的功能,我们也是可以继续用说的:

那继续帮我实现更复杂的音乐播放应用。

4a778de4524ae3308be5e89d2f7c116c.gif

这一次,也仅仅耗时1分钟,在原先代码的基础上,新增了控制面板、播放按钮、更新进度条等内容。

嗯,现在开发一个APP,真的变成截张图的事儿了。

a43267a2316e1190bc3232378f1551f2.gif

这便是豆包最新发布的新模型——豆包 · 视觉理解模型

综合来看,它的亮点可以归结为如下三点:

  • 内容识别更强:支持OCR、图像知识、动作情绪、位置状态等,尤其对中国传统文化理解更深。

  • 理解与推理增强:优化数学、逻辑、代码的推理与问答能力。

  • 视觉描述细腻:提供详细图像描述,可创作多种文体内容,如产品介绍、故事、视频脚本等。

更重要的一点,发布即大降价——0.003元/千tokens

相当于1块钱可以处理284张图片!

dbf06a07553ef6aea9801e7974a5f7ec.png

不过有一说一,毕竟考验大模型“视力”这事,不能只看单一的产品。

因此,接下来,我们就组个擂台,看看哪个大模型的“眼神”更好使。

大模型“视力”大比拼

我们请出的打擂台选手,正是目前大模型的顶流之一——OpenAI的GPT-4o

比试规则也很简单,就是通过不同维度的试题,来看看作答的效果。

Round 1:复杂、生僻物体识别

第一轮比试中,我们先小试牛刀一下一个不常见的水果,请看图:

9eb237d92f4b922e7029b61017ec6afa.jpeg

然后我们分别问一下两位选手:

图中的是什么东西?

506a4fe4820d2da40010ef808a314501.png
c0395cef6c880f23489035b1ecca7c8f.png

上图为豆包作答;下图为GPT-4o作答(下同)。

从回答内容上来看,二者虽然都回答对了,但特点各有不同。

豆包·视觉理解模型回答更加与金铃子紧密相关;而GPT-4o则是更倾向于金铃子与苦瓜的不同。

若是比试要求是与图中物体高度相关,那么或许豆包·视觉理解模型的回答更优质一些。

再来一张冷门的图像,请看题:

这是什么?

c54e202e940defef479c1bc303abfc6d.jpeg

再来看一下两位选手的作答:

5b55742d0327b0ba1191e9297258e99e.jpeg
595ba7bbf3a8e6d82994e7a15e6542d7.png

它们都看出来这是一个冷门乐器,不过这一次,豆包·视觉理解模型明显回答的要更精准一些——乐器叫做Mizmar。

不仅如此,它还把其材质、文化特点等信息都讲述了出来;而GPT-4o这边的回答,只能说是描述了大概。

这一轮,豆包·视觉理解模型,Win!

Round 2:大家来找茬

要比视力,那“大家来找茬”这个游戏就绝对不能错过啦~

请看题目:

找出10个不同点。

8c49cdf6ea7c19d54c7c3cd50fb35d2c.png

我们来看一下两位选手的回答:

fa373dd4b8a8a0098f9ff6a73e74cebb.png
ca0e7be784b7eb22aa647772eb430046.png

这一轮的比拼中,问题就比较明显了,两位选手都没有完整给出正确答案(部分正确)。

看来AI玩大家来找茬还是具备一定的挑战性。

Round 3:反向猜Prompt

现在AI图片生成的能力可谓是炉火纯青,但当我们看到一幅中意的作品,却苦于无法复刻Prompt时,又该怎么办?

这道题,是时候可以交给“会看”的大模型来处理了。

例如我们随机来一张比较抽象的艺术作品:

fad738991eb4462bcd78f5b789e5be6a.jpeg

然后分别让豆包·视觉理解模型和GPT-4o来猜一下它的Prompt:

看这张图,帮我写一段能够重新生成类似作品的Prompt。

ed261e989459da705f46ccf3d4372b61.png
59567942ca5fac9c37e582ed3bbb7395.png

为了公平起见,我们不采用豆包和ChatGPT自带的生图功能,而是将两段Prompt交给第三方Midjourney来处理,结果如下:

ed3e600e322eaa26147ec60331b90290.png
3ac63af28ca2ef6b6196138e0bdf27fc.png

上图:基于豆包的Prompt;下图:基于GPT-4o的Prompt

从还原度上来看,或许豆包·视觉理解模型给出的Prompt,是更加贴近原作的那一个。

Round 4:数学竞赛大比拼

数学题目是测试大模型逻辑推理能力很好的方法。

因此,我们直接上一道AIME数学竞赛题,看看够不够“开门”。

(AIME:美国数学邀请赛,是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。)

b6d68e019ee21a802c9dacbe393b4dbd.png

这道题目翻译过来是这样的:

每天早晨,Aya会进行一段长度为9公里的散步,然后在一家咖啡店停留。当她以每小时s公里的恒定速度行走时,整个散步加上在咖啡店停留的时间一共需要4小时,其中包含在咖啡店停留的t分钟。当她以s+2公里每小时的速度行走时,整个过程(包括在咖啡店停留的时间)需要2小时24分钟。

假设Aya以s+1/2公里每小时的速度行走,求她在这种情况下(包括在咖啡店停留的时间)的总时间(以分钟为单位)。

这个任务的难度在于,AI需要先准确识别晦涩的数学问题和公式,而后再进行精准的推理。

接下来,我们分别来看下豆包·视觉理解模型和GPT-4o的表现(上下滑动查看):

16ab1f501234b941f504ca3837654537.jpeg

39569176cec768269bde494b09dbaf20.jpeg

这道题目官方给出的正解是204分钟

而GPT-4o的结果却并非如此,因此,本轮豆包·视觉理解模型大获全胜。

Round 5:日常实用任务

其实在日常工作、学习生活中,还是存在很多需要AI看图来辅助完成的任务。

例如提取复杂表格的数据,或许就会让很多人苦恼,尤其是准确性方面。

因此,我们最后一轮就以苹果第四季度财务报告中的一个表格来做测试(上下滑动查看):

帮我抽取并整理图中的数据,用中文来表述。

978636ef65d2ea8ec5cd9e71ef0db93a.jpeg

先来看下豆包·视觉理解模型的回答(上下滑动查看):

277928c279bd38d53fde41329c756b6b.jpeg

不难看出,豆包·视觉理解模型非常清晰地将财报数据以表格的形式展现了出来,可以说是一目了然。

然而,同样的需求给到GPT-4o这边,虽然数据是提取了出来,但在呈现方式上却有所欠缺,依然是经典的罗列式(上下滑动查看):

0c27e76d08e097912367a2efe44d6a73.jpeg

在几轮“擂台比拼”过后不难看出,豆包·视觉理解模型在能力上已经具备了一定的优势。

但“眼睛”的升级,还只是豆包大模型这次发布内容的一隅。

说、唱能力都升级了

没错,除了“看”之外,“说”和“唱”的能力也升级了。

而这也正对应了豆包大模型的三大类:

  • 大语言模型

  • 语音大模型

  • 视觉大模型

a9392b363392441cf0ba4cb68fe9c77c.jpeg

首先在大语言模型方面,豆包的通用模型pro与小半年前相比:

  • 综合能力提升了32%

  • 数学能力提升43%

  • 专业知识提升54%

  • 代码能力提升58%

431f08ab5faff53d9d3b927be92756cc.jpeg

其次是语音大模型方面,豆包·音乐模型现在可以直接生成3分钟完整音乐

例如我们在其APP海绵音乐里输入一个简单的Prompt:

三分钟音乐,沧桑,男声,民谣,岁月蹉跎。

来听一下效果:

生成三分钟音乐的难度,并非只是简单的堆叠时长,而是更多涉及到的是前奏、主歌、副歌、间奏、尾奏等完整结构。

不仅如此,这也和视频生成类似,对前后的一致性提出了更高的要求。

而从这个音乐片段中不难听出,确实是做到了上述的要求,而且还是支持改词的那种哦~

4b3ba5111df1dbf1f0582cc6bc5ae207.jpeg

除了可以用Prompt来生成音乐之外,现在豆包·音乐模型还支持用图片来作曲了。

例如我们“喂”给海绵音乐下面这张图:

eb25aaf5637c1eb475ce9ebeab385904.png

这次的效果是这样的:

从音乐中可以听出,AI是识别到了图里《黛玉葬花》的感觉,歌词和配乐充满了哀伤之情。

据悉,豆包·音乐模型目前支持多达到17种曲风、11种心情,以及6种特征的音乐。

07b79af8b1c55bd6c16264f5db7a12bd.png

最后,在视觉模型方面,除了我们刚才展示的豆包·视觉理解模型之外,豆包·文生图模型也迎来了升级——

现在,一句话可以搞定P图这件事了:

戴上眼镜。

321175d4e0cdb1962ad5e1ce3679969e.gif

不仅如此,做海报,也是几句话的事,而且还是能生成汉字的那种:

生成一张海报,主体是汉字“量子位”,充满科技感和未来感。

4b95672282845bceb86c273f73836899.png

由此可见,这一次,豆包大模型在“说”、“唱”、“看”三大维度上确实是提升了不小的实力。

不看广告只看疗效

不过有一说一,实力是一方面,站在大模型应用为王的当下,或许好用才是真正的硬道理。

在把AI用起来这件事上,其实豆包也是拿出了一份成绩单。

首先从数据上来看,截至12月18日,豆包大模型日均tokens使用量已经突破4万亿大关。

其次再看实际落地,据悉豆包大模型已经上岗科教、金融、医疗、企业服务和汽车等众多行业,已经与多个头部企业达成合作。

市场和用户对豆包的买账程度,可见一斑。

而在此过程中,“易落地”也是一个关键点。

这就不得不提此次也同样迎来升级的两大法宝:左手“HiAgent”,右手“扣子”。

例如HiAgent提供超100个行业应用模板和GraphRAG技术,提升知识处理准确性,支持多模态交互与复杂场景需求,企业无需从零开发即可快速上线。

再如扣子拥有百万开发者和丰富生态,支持200万智能体,覆盖智能客服、内容营销等场景,极大缩短开发与部署时间。

除此之外,它兼容小程序、网页等多种形式,支持实时语音交互与硬件集成,企业可轻松实现AI能力无缝嵌入。

一言蔽之,低门槛模板、强大的生态支持和多平台兼容,是使得HiAgent和扣子能够快速适配企业场景,实现高效落地的关键。

那么对于豆包这次众多的升级,你对哪个更感兴趣呢?欢迎体验过后回来交流哦~

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4982.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch使用教程(9)-使用profiler进行模型性能分析

1、简介 PyTorch Profiler是一个内置的性能分析工具,可以帮助开发者定位计算资源(如CPU、GPU)的瓶颈,从而更好地优化PyTorch程序。通过捕获和分析GPU的计算、内存和带宽利用情况,能够有效识别并解决性能瓶颈。 2、原…

vue3+ts+uniapp 微信小程序(第一篇)—— 微信小程序定位授权,位置信息权限授权

文章目录 简介一、先看效果1.1 授权定位前,先弹出隐私协议弹框1.2 上述弹框点击同意,得到如下弹框1.3 点击三个点,然后点设置 1.4 在1.2步骤下,无论同意或者拒绝 二、manifest.json 文件配置三、微信公众平台配置3.1 登录进入微信…

vue3使用音频audio标签

文章目录 一、背景二、页面三、标签介绍四、代码五、代码说明场景1&#xff1a;针对加载固定格式的比如MP3文件&#xff0c;可直接使用\<audio>标签场景2&#xff1a;针对播放告警内容&#xff0c;比如中文或者英文词条情况 一、背景 项目使用vue3&#xff0c;需求针对告…

工业制造离不开的BOM

在制造业的浩瀚星空中&#xff0c;物料清单&#xff08;BOM&#xff09;犹如“北极星”&#xff0c;牢牢指引着产品从设计蓝图迈向实物诞生的全过程。 BOM的分类 按照设计制造的不同阶段&#xff0c;将BOM划分为设计BOM、工艺BOM、制造BOM三种类型。 设计BOM Engineering BO…

【Python】循环语句

while 基本语法格式 while 条件:循环体条件为真, 则执行循环体代码.条件为假, 则结束循环 num 1 while num < 10 :print(num)num 1注&#xff1a; 在 print 函数中&#xff0c;可以使用 end 参数来指定输出结束时使用的字符。默认情况下&#xff0c;end 参数的值为 &qu…

TOSUN同星TsMaster使用入门——3、使用系统变量及c小程序结合panel面板发送报文

本篇内容将介绍TsMaster中常用的Panel面板控件以及使用Panel控件通过系统变量以及c小程序来修改信号的值&#xff0c;控制报文的发送等。 目录 一、常用的Panel控件介绍 1.1系统——启动停止按钮 1.2 显示控件——文本框 1.3 显示控件——分组框 1.4 读写控件——按钮 1.…

LeetCode:37. 解数独

跟着carl学算法&#xff0c;本系列博客仅做个人记录&#xff0c;建议大家都去看carl本人的博客&#xff0c;写的真的很好的&#xff01; 代码随想录 LeetCode&#xff1a;37. 解数独 编写一个程序&#xff0c;通过填充空格来解决数独问题。 数独的解法需 遵循如下规则&#xff…

PyTorch使用教程(10)-torchinfo.summary网络结构可视化详细说明

1、基本介绍 torchinfo是一个为PyTorch用户量身定做的开源工具&#xff0c;其核心功能之一是summary函数。这个函数旨在简化模型的开发与调试流程&#xff0c;让模型架构一目了然。通过torchinfo的summary函数&#xff0c;用户可以快速获取模型的详细结构和统计信息&#xff0…

【22】Word:小李-高新技术企业政策❗

目录 题目​ NO1.2 NO3 NO4 NO5.6 NO7.8 NO9.10 若文章中存在删除空白行等要求&#xff0c;可以到最后来完成。注意最后一定要检查此部分&#xff01;注意&#xff1a;大多是和事例一样即可&#xff0c;不用一摸一样&#xff0c;但也不要差太多。 题目 NO1.2 F12Fn&a…

TDengine 做 Apache SuperSet 数据源

‌Apache Superset‌ 是一个现代的企业级商业智能&#xff08;BI&#xff09;Web 应用程序&#xff0c;主要用于数据探索和可视化。它由 Apache 软件基金会支持&#xff0c;是一个开源项目&#xff0c;它拥有活跃的社区和丰富的生态系统。Apache Superset 提供了直观的用户界面…

Python----Python高级(文件操作open,os模块对于文件操作,shutil模块 )

一、文件处理 1.1、文件操作的重要性和应用场景 1.1.1、重要性 数据持久化&#xff1a; 文件是存储数据的一种非常基本且重要的方式。通过文件&#xff0c;我们可 以将程序运行时产生的数据永久保存下来&#xff0c;以便将来使用。 跨平台兼容性&#xff1a; 文件是一种通用…

STM32单片机:GPIO模式

GPIO有八种工作模式&#xff0c;分别是推挽输出、开漏输出、复合推挽输出、复合开漏输出、模拟输入、上拉输入、下拉输入、浮空输入。 在了解这些之前&#xff0c;我们先来看一下GPIO口内部的结构&#xff1a; I/O引脚一般工作电压为3.3V&#xff0c;在它边的两个二极管起到保…

[Qt]事件-鼠标事件、键盘事件、定时器事件、窗口改变事件、事件分发器与事件过滤器

目录 前言&#xff1a;Qt与操作系统的关系 一、Qt事件 1.事件介绍 2.事件的表现形式 常见的Qt事件&#xff1a; 常见的事件描述: 3.事件的处理方式 处理鼠标进入和离开事件案例 控件添加到对象树底层原理 二、鼠标事件 1.鼠标按下和释放事件&#xff08;单击&#x…

Linux下MySQL的简单使用

Linux下MySQL的简单使用 导语MySQL安装与配置 MySQL安装密码设置 MySQL管理 命令 myisamchkmysql其他 常见操作 C语言访问MYSQL 连接例程错误处理使用SQL 总结参考文献 导语 这一章是MySQL的使用&#xff0c;一些常用的MySQL语句属于本科阶段内容&#xff0c;然后是C语言和M…

ElasticSearch索引别名的应用

个人博客&#xff1a;无奈何杨&#xff08;wnhyang&#xff09; 个人语雀&#xff1a;wnhyang 共享语雀&#xff1a;在线知识共享 Github&#xff1a;wnhyang - Overview Elasticsearch 索引别名是一种极为灵活且强大的功能&#xff0c;它允许用户为一个或多个索引创建逻辑上…

火狐浏览器Firefox一些配置

没想到还会开这个…都是Ubuntu的错 一些个人习惯吧 标签页设置 常规-标签页 1.按最近使用顺序切换标签页 2.打开新标签而非新窗口&#xff08;讨厌好多窗口&#xff09; 3.打开新链接不直接切换过去&#xff08;很打断思路诶&#xff09; 4.关闭多个标签页时不向我确认 启动…

数据结构-队列

目录 前言一、队列及其抽象数据类型1.1 队列的基本概念1.2 队列的抽象数据类型 二、队列的实现2.1 顺序表示2.1.1 结构定义2.1.2 基本操作的实现 2.2 链式表示2.2.1 结构定义2.2.2 基本操作的实现 总结 前言 本篇文章介绍队列的基础知识&#xff0c;包括队列的抽象数据类型以及…

STM32-串口-UART-Asynchronous

一&#xff0c;发送数据 #include "stdio.h" uint8_t hello[]"Hello,blocking\r\n"; HAL_UART_Transmit(&huart1,hello,sizeof(hello),500); 二&#xff0c;MicroLIB-printf(" hello\r\n") #include "stdio.h" #ifdef __GNUC…

深度学习 DAY2:Transformer(一部分)

前言 Transformer是一种用于自然语言处理&#xff08;NLP&#xff09;和其他序列到序列&#xff08;sequence-to-sequence&#xff09;任务的深度学习模型架构&#xff0c;它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制&#xff08;self-attention mech…

《目标检测数据集下载地址》

一、引言 在计算机视觉的广袤领域中&#xff0c;目标检测宛如一颗璀璨的明星&#xff0c;占据着举足轻重的地位。它宛如赋予计算机一双锐利的 “眼睛”&#xff0c;使其能够精准识别图像或视频中的各类目标&#xff0c;并确定其位置&#xff0c;以边界框的形式清晰呈现。这项技…