因吹斯汀！只需上传照片，GPT-4V精准识别食物的卡路里和摄入热量

因吹斯汀！只需上传照片，GPT-4V精准识别食物的卡路里和摄入热量

news/2024/11/24 16:46:52/文章来源:https://blog.csdn.net/xixiaoyaoww/article/details/135200999

健身和减肥的朋友有福啦！

最近一篇文章探索了GPT-4V在膳食评估领域的强大能力，可以根据饮食图片精准判断食物的种类与重量，并给出营养成分的分析，包括碳水化合物、蛋白质、脂肪占比。

最最重要的是，它还能告诉我们这些食物的卡路里是多少，这对于我们减肥的朋友来说可是超级重要的！

你可以上传吃之前和吃之后的图片，GPT-4V可以轻松判断摄入了多少热量。

比如提供这两张图片：

给模型一些任务提示：

识别提供的图像中的食物类型，包括食用前和食用后。使用周围的对象作为近似分量大小的参考。为每一类食物的摄入量提供合理的克数估计。请注意，这些食品来自加纳和肯尼亚。

输出结果：

为了估算份量，我将使用杯子和盘子作为参考，假设盘子是标准的餐盘大小，直径约为10-12英寸。以这些物体为尺度，我们可以做出以下估计: 食物1（炸鱼）：初始份量约400克；消费份量约300克。食物2（淀粉类配菜，可能是banku或fufu）：初始份量约300克；消费份量约250克。食物3（番茄酱）：初始份量约150克；消费份量约75克。食物4（洋葱片）：初始份量约50克；消费份量约20克。

看看营养成分呢：

计算一下300g炸鱼、250gbanku、75g番茄酱和20g洋葱片的营养成分，包括碳水化合物、蛋白质、脂肪和卡路里。请以下列格式列出结果:碳水化合物:[g]，蛋白质:[g]，脂肪:[g]，卡路里:[千卡]。

输出：

300克炸鱼包括0克碳水化合物，78克蛋白质，33克脂肪，606千卡的热量。250g的banku含有120g碳水化合物，4.5g蛋白质，1g脂肪，527.5千卡热量。75g番茄酱，包含3g碳水化合物，0.75克蛋白质，0.225克脂肪，15千卡的热量。20g洋葱片含有1.8克碳水化合物、0.22克蛋白质、0.02克脂肪和8千卡热量。

它还能像个营养小贴士一样，告诉我们饮食中缺少了哪些营养，并给出合理的建议。这样我们就可以更好地调整自己的饮食。

这顿饭缺少什么营养，吃什么来补充呢?

输出：

根据您提供的图片，这顿饭包括米饭和鸡肉，这可能提供了大量的碳水化合物、蛋白质和脂肪。然而，它似乎缺乏一些纤维和维生素：纤维：没有可见的蔬菜或水果，而这些是提供膳食纤维所必需的。为了增加纤维摄入量，可以考虑加一份混合蔬菜或新鲜沙拉。维生素和矿物质：新鲜水果和蔬菜也是维生素和矿物质的重要来源。乳制品或钙源：没有乳制品或其他富含钙的食物。可以从牛奶，奶酪，酸奶，或钙强化植物选择一份增加钙含量。

看着还挺像那么回事，有了GPT-4V督促，就不用担心一不小心吃多啦！

但上面只是一些例子参考，GPT-4V在膳食评估方面的准确性到底如何呢？本文的作者还进行了多个数据维度的详细定量分析，让我们一起来了解一下吧！

论文标题:
Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis

论文链接:
https://arxiv.org/pdf/2312.08592.pdf

实验数据

作者使用了居住在伦敦的肯尼亚和加纳裔成年人的饮食摄入数据。为每位参与者分配了eButton或AIM摄像机被动记录他们的饮食摄入量。使用标准化的Salter breknell体重秤记录食物初始重量和吃饱后剩余的食物重量。配备经验丰富的营养师作为人工评估基准，与GPT-4V的结果进行比较。

实验结果

食物检测能力

首先来看看GPT-4V能否准确识别食物的类别。

作者对比了是否包含食物来源信息的提示下的模型性能。从结果可以看出，指明食物来源可以显著提高语言模型的能力，准确识别特定文化的食物，**准确率达到了87.5%**，相比不说明食物来源提高了十几个点。

当食物来源未指定时，GPT-4V经常错误将白色淀粉类食物误分类为米饭。当说明了食物来自肯尼亚或加纳时，模型能准确将食物识别为banku或ugali，这是传统的非洲食物。

食物分量估计

下图展示了三种方法包括GPT-4V、人眼估计和基准真值对食物分量的估计，图中观察到的趋势表明，GPT-4V的预测通常与基准真值非常接近。

作者进一步使用绝对误差的度量来比较GPT-4V和人类估计。GPT-4V的估计的平均绝对误差为54.6g。相比之下，人类估计准确性稍微更高一些，平均绝对误差为43.6g。但也说明GPT-4V的表现与人类非常接近。

营养成分估计

在估算出食物分量之后，作者利用GPT-4V模型将食物的重量转化为特定的营养数据，重点关注关键的膳食成分：碳水化合物，蛋白质，脂肪和卡路里。获取的结果与真实值进行比较。

下表展示了10个不同膳食的分量和营养成分估计误差。可以看到，营养估计的准确性在很大程度上取决于分量估计的准确性。

下图显示了GPT-4V预测32种食物的碳水化合物、蛋白质、脂肪和卡路里含量的预测结果，并与真实值进行对比，可以看出，GPT-4V预测的趋势在大部分食物上与真值一致。

处理低可见图像的能力

本文还突显了GPT-4V处理低可见度图像（如在黑暗环境中拍摄的图像）的能力。

在光线暗的地方，如果没有足够的语境提示，GPT-4V可能倾向于会把食物当成米饭或面包这类常见的食物。但是，当我们给了它一些关于食物来源的信息时，它就能准确地识别出来，比如banku和ugali这种传统的非洲食物。

结论

本文分析了GPT-4V在膳食评估中的潜力。即使在没有使用特定食物数据集进行微调或适应的情况下，GPT-4V在食物检测方面准确率高达87.5％。另外GPT-4V可以利用周围的物体作为比例参考来推断食物项目的份量大小，进一步提高将食物重量转化为营养含量的准确性。

虽然GPT-4V很强大，但还不能完全解决复杂的空间关系和精确空间分析任务。比如，它对于估算食物的体积或分量不太准确，因为这需要三维感知能力，超出了它的能力范围。在本文的实验中发现它对重量不到30g的食物类别难以准确估计。

即便如此，它的表现也几乎达到了人类水平。期待未来版本的GPT-4V能更稳健，为我们提供更准确的膳食摄入评估。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/227930.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

分布式文件系统的介绍

分布式文件系统的介绍

什么是分布式文件系统跨越多个服务器或者多个位置的文件系统。其中涉及的技术包括数据的复制、数据的分片和路由，由于用户可能存储大文件、图片或者其他类似的需求性文件，因此需要设计不同的系统方便用户访问的存取。任何设备通过任何网络位置访问文件，就像访问到自己的文…

阅读更多...

c 生成16×16像素点的rgb格式图片

c 生成16×16像素点的rgb格式图片

想验证jpeg 编解码各个环节是否正确，特小尺寸的yuv格式图片找不到。特意用c代码生成一个1616像素点的rgb格式图片,再转换为yuv444格式，再88分割，余弦转换，量化，Z变换，霍夫曼编码，生成比特流&…

阅读更多...

qt中信号槽第五个参数

qt中信号槽第五个参数

文章目录 connent函数第五个参数的作用自动连接(Qt::AutoConnection)直接连接(Qt::DirectConnection - 同步)同线程不同线程队列连接(Qt::QueuedConnection - 异步)同一线程不同线程锁定队列连接(Qt::BlockingQueuedConnection) connent函数第五个参数的作用 connect(const …

阅读更多...

2023-12-19 LeetCode每日一题（寻找峰值 II）

2023-12-19 LeetCode每日一题（寻找峰值 II）

2023-12-19每日一题一、题目编号 1901. 寻找峰值 II二、题目链接点击跳转到题目位置三、题目描述一个 2D 网格中的峰值是指那些严格大于其相邻格子(上、下、左、右)的元素。给你一个从 0 开始编号的 m x n 矩阵 mat ，其中任意两个相邻格子的值都不…

阅读更多...

机器学习之人工神经网络（Artificial Neural Networks，ANN）

机器学习之人工神经网络（Artificial Neural Networks，ANN）

人工神经网络（Artificial Neural Networks，ANN）是机器学习中的一种模型，灵感来源于人脑的神经网络结构。它由神经元（或称为节点）构成的层级结构组成，每个神经元接收输入并生成输出，这些输入和输出通过权重进行连接。人工神经网络（ANN）是一种模仿生物神经系统构建的…

阅读更多...

基于PHP的高校学生宿舍信息系统

基于PHP的高校学生宿舍信息系统

有需要请加文章底部Q哦可远程调试基于PHP的高校学生宿舍系统一介绍此学生宿舍信息系统基于原生PHP开发，数据库mysql，前端jquery.js。系统角色分为学生，辅导员和宿管员。(附带配套设计文档) 技术栈：phpmysqljquery.jsphpstu…

阅读更多...

玩转MYSQL|详细分析mysql-MGR集群搭建

玩转MYSQL|详细分析mysql-MGR集群搭建

目录 1、简介 2、环境准备 2.1 数据库服务器规划 2.2 安装mysql5.7.20 2.3 设置hostname和ip映射 3、创建复制环境 3.1 服务器host68.cn 3.1.1 配置/etc/my.cnf 3.1.2 服务器host68.cn上建立复制账号： 3.1.3 在mysql服务器host68.cn上安装group replicatio…

阅读更多...

Tuxera NTFS for Mac2024免费Mac读写软件下载教程

Tuxera NTFS for Mac2024免费Mac读写软件下载教程

在日常生活中，我们使用Mac时经常会遇到外部设备不能正常使用的情况，如：U盘、硬盘、软盘等等一系列存储设备，而这些设备的格式大多为NTFS，Mac系统对NTFS格式分区存在一定的兼容性问题，不能正常读写。那么什…

阅读更多...

Spring Boot+RocketMQ 实现多实例分布式环境下的事件驱动

Spring Boot+RocketMQ 实现多实例分布式环境下的事件驱动

为什么要使用MQ？ 在Spring Boot Event这篇文章中已经通过Guava或者SpringBoot自身的Listener实现了事件驱动，已经做到了对业务的解耦。为什么还要用到MQ来进行业务解耦呢？ 首先无论是通过Guava还是Spring Boot自身提供的监听注解来实现的事…

阅读更多...

C语言——扫雷

C语言——扫雷

扫雷是一款经典的小游戏，那如何使用C语言实现一个扫雷游戏呢？ 一、全部源码直接把全部源码放在开头，如有需要，直接拿走。源码分为三个文件： test.cpp/c 主函数的位置 #include "game.h"int main() {…

阅读更多...

x-cmd pkg | gum - 很好看的终端 UI 命令行工具

x-cmd pkg | gum - 很好看的终端 UI 命令行工具

目录简介首次用户功能特点Bubbles 与 Lip Gloss进一步探索简介 gum 由 Charm 组织于 2022 年使用 Go 语言开发。旨在帮助用户编写 Shell 脚本与 dotfiles 时提供一系列快捷使用，可配置，可交互，美观的 Terminal UI 组件。首次用户使用 x…

阅读更多...

常用的 MySQL 可视化客户端

常用的 MySQL 可视化客户端

数据库可视化客户端（GUI）让用户在和数据库进行交互时，能直观地查看、创建和修改对象，如：表、行和列。让数据库操作变得更方便了。今天，我们来了解下目前市场上最常用的 MySQL 可视化客户端。官方&#x…

阅读更多...

详解数组的轮转

详解数组的轮转

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - ：来于“云”的“羽球人”。…

阅读更多...

c# listbox 添加图标和文字

c# listbox 添加图标和文字

给listbox 添加 DrawItem 事件 private void listBox1_DrawItem(object sender, DrawItemEventArgs e){int index e.Index;//获取当前要进行绘制的行的序号，从0开始。Graphics g e.Graphics;//获取Graphics对象。Rectangle bound e.Bounds;//获取当前要绘制的行的…

阅读更多...

【设计模式】状态模式

【设计模式】状态模式

文章目录引例状态模式理论状态模式代码优化结合享元模式并发问题解决策略模式 VS 状态模式引例交通信号灯系统的设计与实现方案一传统设计方案定义交通灯颜色的枚举 public enum LightColor { Green,Red,Yellow }交通灯类TrafficLight，处理颜色转换等业务…

阅读更多...

【AMD Xilinx】ZUBoard（3）：通过AXI GPIO接收PL端的按键输入

【AMD Xilinx】ZUBoard（3）：通过AXI GPIO接收PL端的按键输入

【AMD Xilinx】ZUBoard（3）：通过AXI GPIO接收PL端的按键输入一、本项目实现的功能二、Vivado工程1. 添加AXI GPIO2. 配置AXI GPIO3. 根据原理图查找对应管脚4. I/O Planning5.XDC 三、ARM代码1. 地址空间2. 函数说明3. 实际的C代码实现4. 运行…

阅读更多...

VitulBox中Ubuntu虚拟机安装JAVA环境——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项

VitulBox中Ubuntu虚拟机安装JAVA环境——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项

前言在进行之后操作是请下载好JDK，之后的内容是以Ubuntu虚拟机中安装java环境续写。提示：以下操作是在虚拟机hadoop用户下操作的，并为安装java环境作准备一、更新APT 为了确保Hadoop安装过程顺利进行，建议用hadoop用户登录…

阅读更多...

基于SpringBoot实现的前后端分离电影评分项目，功能：注册登录、浏览影片、热门影片、搜索、评分、片单、聊天、动态

基于SpringBoot实现的前后端分离电影评分项目，功能：注册登录、浏览影片、热门影片、搜索、评分、片单、聊天、动态

一、项目介绍本项目主要基于SpringBoot、Mybatis-plus、MySQL、Redis实现的影片评分项目。本系统是前后端分离的，分别由三个子项目构成：java服务端、用户前端、管理员管理前端关键词：springboot java vue mysql reids websocket 毕业设计…

阅读更多...

2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项样题卷①

2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项样题卷①

2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项（高职组） 样题（第1套） 目录 2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项（高职组） 样题（第1套） 模块一…

阅读更多...

Java Log 学习笔记

Java Log 学习笔记

参考文章： 1.Java 日志从入门到实战 2.Java日志框架的发展历史，你不想了解一下吗背景想自定义 logback 配置文件进行日志分级别记录到不同文件，遇到了几个问题（使用的是 spring-boot 构建的项目，spring-boot 版本为…

阅读更多...

最新文章

推荐文章