基于YOLOv8目标检测与chef-transformer(T5)从图像创建食谱

前言

在本文中,将演示如何使用从Roboflow获得的开源产品数据来训练我的YOLOv8模型,然后将其与从Hugging Face获得的chef-transformer(T5)模型集成。应用程序的主要目标是将检测到的对象参数化地发送到语言模型,并在NLP和CV之间建立关系。
在这里插入图片描述

YOLOv8 目标检测

YOLOv8是由ultralytics公司在2023年1月10日开源的一款重量级更新版本,作为YOLOv5的继承者,它支持图像分类、物体检测和实例分割等任务。在开源之前,YOLOv8就已经受到了用户的热切期待。作为一个SOTA(State of the Art)模型,YOLOv8在前代YOLO系列的成功基础上,引入了多项创新,旨在进一步提升模型的性能和灵活性。这些创新包括一个全新的骨干网络、一个无Anchor的检测头,以及一个新型的损失函数,使得模型能够在从CPU到GPU的各种硬件平台上流畅运行。

ultralytics公司并没有将这个开源库命名为YOLOv8,而是选择了“ultralytics”这个名称。这样做的原因是,公司希望将这个库定位为一个算法框架,而不仅仅是一个特定的算法。ultralytics的主要特点是其可扩展性,它不仅能够支持YOLO系列模型,还旨在兼容非YOLO模型,并能够广泛应用于分类、分割、姿态估计等多种任务。

环境安装

conda create -n yolov8 python=3.8
activate ylolv8
conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install ultralytics

从Roboflow获取YOLOv8训练数据

Roboflow 是一个资源丰富的平台,拥有超过2亿张图像和20多万个数据集,为训练模型提供了广泛的选择。它能够满足对水果和蔬菜图像数据的需求,以便训练我的模型。此外,Roboflow 提供了 Roboflow Health Check 模块,这是一个功能强大的模块,允许在训练模型之前进行深入分析。这有助于更好地理解所需数据,并确保使用最恰当的数据集。
在这里插入图片描述

导入库并定义需求

import os
import streamlit as st
from ultralytics import YOLO
from IPython.display import display, Image
from langchain import PromptTemplate, HuggingFaceHub, LLMChain

模型推理

使用模型预测测试图像,并将检测到的对象类别存储在变量中。

model = YOLO('C:\\Users\\batuh\\Desktop\\last_pr_best.pt')
results = model.predict(source='test.jpeg', conf=0.50, save = True)
unique_names = set()
names = model.names
for r in results:for c in r.boxes.cls:unique_names.add(names[int(c)])print(unique_names)

以这种方式返回唯一类别并将像这样将它们传递给语言模型。

{'Potato', 'Garlic', 'Onion', 'Tomato', 'Green Chili'}

语言模型

pip install transformers

在语言模型中使用检测到的对象

使用Langchain库来训练了超过200万食谱的语言模型。在这里,将的YOLO模型检测到的对象作为文本输入,以便生成菜谱。

template = """Question: {question}: """
prompt = PromptTemplate(template=template, input_variables=["question"])llm_chain = LLMChain(prompt=prompt, llm=HuggingFaceHub(repo_id="flax-community/t5-recipe-generation", model_kwargs={"temperature": 0.3, "max_length": 512}))question = ', '.join(unique_names)
recipe = llm_chain.run(question)

得到了一个不错的炸三角食谱,如下:

'title: samosas ingredients: 1 large potato 1 tbsp minced garlic 1 tbsp minced onion 1 tbsp minced tomato 1 tbsp minced green chili answer the call 1 tbsp do cook. directions: cut the potato into small cubes. add the minced garlic, minced onion, minced tomato, and minced green chili. mix well. heat a griddle or frying pan over medium heat. place the samosas on the griddle and cook until golden brown on both sides.'

使用Streamlit创建界面

使用Streamlit创建了一个交互式界面,Streamlit是一个开源的Python库,可以轻松创建和共享机器学习和数据科学项目的Web应用程序。

import os
import streamlit as st
from ultralytics import YOLO
from IPython.display import display, Image
from langchain import PromptTemplate, HuggingFaceHub, LLMChainmodel_path = 'C:\\Users\\batuh\\Desktop\\last_pr_best.pt'st.set_page_config(page_title="Recipe Generator",  page_icon="🍳",     layout="wide",      initial_sidebar_state="expanded"    
)st.title("Recipe Generator :female-cook:")
st.subheader("Upload an image to generate a recipe for the detected objects.")
st.markdown(f"""<style>body {{background-color: darkgreen;}}</style>""",unsafe_allow_html=True,)def predict_objects_and_generate_recipe(image_path, model_path, define_conf):os.environ['HUGGINGFACEHUB_API_TOKEN'] = 'Your-Key'# YOLO model ile nesneleri tanımamodel = YOLO(model_path)results = model.predict(source=image_path, conf=define_conf, save=True)names = model.namesunique_names = set()for r in results:for c in r.boxes.cls:unique_names.add(names[int(c)])return unique_namesdef generate_recipe_using_language_model(unique_names):template = """Question: {question}: """prompt = PromptTemplate(template=template, input_variables=["question"])llm_chain = LLMChain(prompt=prompt, llm=HuggingFaceHub(repo_id="flax-community/t5-recipe-generation", model_kwargs={"temperature": 0.3, "max_length": 512}))question = ', '.join(unique_names)recipe = llm_chain.run(question)return recipeimage_file = st.file_uploader("Upload an image", type=["jpg", "png", "jpeg"])
conf_threshold = st.slider("Confidence Threshold", 0.1, 1.0, 0.25)if image_file is not None:temp_dir = 'temp'os.makedirs(temp_dir, exist_ok=True)  image_path = os.path.join(temp_dir, image_file.name)  with open(image_path, 'wb') as f:f.write(image_file.read())unique_names = predict_objects_and_generate_recipe(image_path, model_path, conf_threshold)recipe = generate_recipe_using_language_model(unique_names)title = recipe.split('ingredients:')[0]ingredients = recipe.split('directions:')[0].split('ingredients:')[1].split('answer the call 1 do cook.')[0].split(' ')directions = (recipe.split('directions:')[1].split('add salt and pepper to taste.')[0])full_recipe = '{}\n\n\nIngredients :\n{}\nDirections :\n{}'.format(title.capitalize().title(),'\n'.join(['    {}'.format(ingredient).title() for ingredient in ingredients]),'    {}'.format(directions).capitalize())st.image(image_path)st.markdown("""<style>.big-font {font-size:60px !important;}</style>""", unsafe_allow_html=True)st.write("Recipe:")st.write('<p class="big-font">'+full_recipe+'</p>', unsafe_allow_html=True, fontsize = 100)

借助Streamlit库,可以更改置信度阈值,并创建一个漂亮的界面,将上传图像中检测到的对象与我们的语言模型结合起来。
在这里插入图片描述

备注

原本地址:https://medium.com/@batuhansenerr/yolov8-and-chef-transformer-t5-to-create-recipe-from-image-ae10c0e83656

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/436156.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sentinelhub3.7相比3.4的版本主要变化

sentinelhub3.7相比3.4的版本&#xff0c;主要变化包括: 1. 增加对sentinel 基线04.00数据产品的支持&#xff1b; 2. 将aws数据下载模块独立出来 3.4版本 3.7版本 3. 原来的DataSource改为DataCollection 3.7版本不再支持DataSource 3.4版本中的DataSource 3.7版本使用Data…

C#开发中如何在不破坏封装性下调用控件

在C#开发中&#xff0c;我们知道每个设计文件在完成后都会存在封装性&#xff0c;如果是方法&#xff0c;对象的调用&#xff0c;我们可以采取public方法来允许外部的访问&#xff0c;但是对于控件来说&#xff0c;封装性是与生俱来的&#xff0c;强行破环封装既复杂&#xff0…

如何获取钉钉webhook

第一步打开钉钉并登录 第二步创建团队 并且 添加自定义 机器人 即可获取webhook

Ajax ( 是什么、URL、axios、HTTP、快速收集表单 )Day01

AJAX 一、Ajax是什么1.1名词解释1.1.1 服务器1.1.2 同步与异步1. 同步&#xff08;Synchronous&#xff09;2. 异步&#xff08;Asynchronous&#xff09;3. 异步 vs 同步 场景4. 异步在 Web 开发中的常见应用&#xff1a; 1.2 URL 统一资源定位符1.2.1 URL - 查询参数1.2.2 ax…

03-指针的类型,算术运算,void指针

指针是强类型的,需要特定类型的指针来存放特定类型变量的地址. 指针作用: 储存内存地址; 解引用那些地址的内容(访问和修改地址中的值) 一、整形,字符型指针输出: #include <stdio.h>int main(int argc, const char* argv[]) {int a 1025;int* p;p &a;printf(&qu…

使用dockerfile来构建一个包含Jdk17的centos7镜像(构建镜像:centos7-jdk17)

文章目录 1、dockerfile简介2、入门案例2.1、创建目录 /opt/dockerfilejdk172.2、上传 jdk-17_linux-x64_bin.tar.gz 到 /opt/dockerfilejdk172.3、在/opt/dockerfilejdk17目录下创建dockerfile文件2.4、执行命令构建镜像 centos7-jdk17 : 不要忘了后面的那个 .2.5、查看镜像是…

基于SSM+小程序的电影院订票选座管理系统(电影2)(源码+sql脚本+视频导入教程+文档)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于SSM的电影院订票选座小程序管理系统实现了管理员和用户二个角色。管理员实现了用户管理、影院信息管理、电影类型管理、电影信息管理、系统管理、订单管理等。用户实现了影院信息、电…

C语言系列4——指针与数组(1)

我们开始C语言的指针与数组 这部分开始进阶了&#xff0c;得反复学习 在开始正题之前&#xff0c;写说一下我们都知道当写一个函数的时候需要进行传参&#xff0c;当实参传递给形参的时候&#xff0c;形参是有独立空间的&#xff0c;那么数组传参又是怎么样的呢&#xff0c;我…

AI换脸技术新纪元:直播与视频创作的新利器

在数字媒体时代&#xff0c;实时面部交换技术正变得越来越流行。它不仅为视频创作者提供了新的表达方式&#xff0c;也为直播行业带来了革命性的变化。以下是一些目前市场上领先的实时面部交换软件&#xff1a; &#x1f31f; FaceFusion FaceFusion 是一款功能强大的实时面部…

如何利用ChatGPT开发一个盈利的AI写作助手网站

3-1 整体介绍写作助手及原型展示说明 在当今数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;技术正逐步改变我们的生活方式&#xff0c;特别是在内容创作领域。本文将详细介绍如何利用ChatGPT技术&#xff0c;开发一个能够生成高质量内容的AI写作助手网站&#xff…

golang小项目1-家庭收支记账系统

项目地址&#xff1a;golang小项目 参考资料&#xff1a;尚硅谷golang教程P229 家庭收支记账系统 1. 系统简介 1.1 项目背景 在现代社会中&#xff0c;家庭的财务管理显得尤为重要。随着生活成本的不断上升&#xff0c;家庭需要有效地记录和分析收支情况&#xff0c;以确保…

1、深入理解Redis线程模型

文章目录 一、Redis是什么&#xff1f;有什么用&#xff1f;1、Redis是什么&#xff1f;2、2024年的Redis是什么样的&#xff1f; 二、Redis到底是单线程还是多线程&#xff1f;三、Redis如何保证指令原子性1、复合指令2、Redis事务3、Pipeline4、lua脚本5、Redis Function6、R…

CPU 核心电压是不是永远不会低于 0.7V?

CPU 的核心电压是指供应给处理器核心的电压&#xff0c;这是处理器工作的基础电压&#xff0c;直接影响其功耗、温度和性能。随着芯片工艺技术的进步&#xff0c;现代 CPU 通常以越来越低的核心电压运行&#xff0c;以达到更高的能效和更低的功耗。我们常见的 CPU 电压范围通常…

【RocketMQ】RocketMQ应用难点

&#x1f3af; 导读&#xff1a;本文探讨了RocketMQ中消息重复消费的问题及其解决方案&#xff0c;尤其是在CLUSTERING模式下的扩容影响。文章分析了重复消费的原因&#xff0c;如广播模式、负载均衡模式下的多consumerGroup消费、消费者组内的动态变化及网络延迟等&#xff0c…

【leetcode】122. 买卖股票的最佳时机 II

题目描述 给你一个整数数组 prices &#xff0c;其中 prices[i] 表示某支股票第 i 天的价格。 在每一天&#xff0c;你可以决定是否购买和/或出售股票。你在任何时候 最多 只能持有 一股 股票。你也可以先购买&#xff0c;然后在 同一天 出售。 返回 你能获得的 最大 利润 。…

红日靶机(二)笔记

红日靶机二 环境搭建 只需要把虚拟机的 host-only&#xff08;仅主机&#xff09;网卡改为 10.10.10.0 网段&#xff0c;如下配置 把 NAT 网卡&#xff0c;改为 192.168.96.0 网段&#xff0c;如下 首先恢复到 v1.3 快照 让后点击放弃&#xff0c;放弃后再开机&#xff0c;用…

yolov8/9/10模型在仪表盘、指针表检测中的应用【代码+数据集+python环境+训练/应用GUI系统】

可视化训练系统 可视化应用系统 yolov8/9/10模型在仪表盘、指针表检测中的应用【代码数据集python环境训练/应用GUI系统】 背景意义 随着科学技术的快速发展&#xff0c;机器视觉以及人工智能等技术逐渐从理论走向实践&#xff0c;并在各个领域得到广泛应用。机器视觉检测系统…

合并两个有序数组

合并两个有序数组 示例 1&#xff1a; 输入&#xff1a;nums1 [1,2,3,0,0,0], m 3, nums2 [2,5,6], n 3 输出&#xff1a;[1,2,2,3,5,6] 解释&#xff1a;需要合并 [1,2,3] 和 [2,5,6] 。 合并结果是 [1,2,2,3,5,6] &#xff0c;其中斜体加粗标注的为 nums1 中的元素。示…

next 从入门到精通

next 从入门到精通 相关链接 演示地址 演示地址 源码地址 源码地址 获取更多 获取更多 hello 大家好&#xff0c;我是 数擎科技&#xff0c;今天来跟大家聊聊 Next.js 如果你遇到任何问题&#xff0c;欢迎联系我 m-xiaozhicloud 什么是 Next.js Next.js 是一个基于 Reac…

LeetCode 面试经典150题 50.Pow(x,n)

题目&#xff1a;实现 pow(x, n) &#xff0c;即计算 x 的整数 n 次幂函数&#xff08;即&#xff0c; &#xff09;。 思路&#xff1a; 代码&#xff1a; class Solution {public double myPow(double x, int n) {double ans 1;long N n;if (N < 0) {N -N;x 1 / x;}…