扩博智能× Milvus:图像检索助力零售商品图像高效标注

00ef89a6def0550fd85f593510cc688b.pngee337faeee7eadfc796f11879a61a976.png

大家好,我是上海扩博智能技术有限公司的Frank,负责算法工程相关的工作。很高兴能在 Milvus 社区和大家分享我们在图像检索方面的经验。

01

扩博智能公司简介

扩博智能 Clobotics 成立于 2016 年,总部位于上海长宁。我们聚焦计算机视觉和机器学习技术,专注为行业和企业用户提供端到端一体化智能服务。公司在丹麦、新加坡、巴西、美国分别设有海外销售分公司。

自成立以来,扩博智能申请及获得 300 逾项知识产权,为打造面向零售和风电行业的人工智能产品奠定了深厚的技术基础。凭借自身对技术的专注和探索,吸引了全球众多优秀人才的加入,为全球众多一线头部客户提供更高的创新能力及更安全的技术服务。

在零售业务中,我们的愿景是升级实体零售数字化营销体验,提供高效的、准确的、全面的市场数据收集和分析服务,我们提供端到端的零售智能化解决方法,集零售执行、货架和冰柜情报和竞品追踪于一体。

2bd20c24e0bc494820116e6f42471bba.png

02

零售业务及图像检索需求

在零售业务中,我们需要对海量的商品图片进行识别,为了训练识别模型,我们需要在产线数据中挖掘有价值的数据,并进行标注,然后迭代模型。传统的标注方式需要人工去做大量的筛选,效率低下,耗费大量的人力和时间。为了提高标注效率,我们引入了图像检索技术。

我们首先对产线数据进行质量检查,过滤掉不合格的图片,然后对合格的图片进行向量提取,并添加到产线向量数据库。在标注阶段,以待标注的 SKU 的注册图片为query,去产线向量数据库中搜索,找到可能的图片,然后进行人工确认和标注。

f7876155815a54f4b372fef9869308e0.png

03

选择 Milvus 的原因

在众多的图像检索工具中,我们选择了 Milvus,主要有以下几个原因:

高效的向量检索能力:Milvus 能够快速处理大规模的图像数据,满足我们零售业务中对海量商品图片的检索需求。

丰富的功能特性:支持多种索引算法,可根据不同的业务场景进行选择。同时,分布式架构也能够应对高并发的查询请求。

活跃的开源社区:Milvus 拥有活跃的开源社区,不断更新和完善功能。在使用过程中,我们遇到问题可以及时在社区中得到解答和支持。

04

使用 Milvus 的过程

安装和配置:按照官方文档进行安装和配置,确保环境搭建正确。根据我们的业务需求,调整了一些参数,如向量维度、索引算法等。

图像特征提取:我们采用了基于深度学习的特征提取方法,将提取的图像特征转换为 Milvus 支持的向量格式。

数据导入:使用 Milvus 的Python SDK,将产线数据库中的图片特征导入到 Milvus 向量数据库中。为了提高导入效率,我们采用了分布式导入方式,分批次导入数据。

图像检索:以待标注的 SKU 图片为query,在 Milvus向量数据库中进行检索。设置合适的相似度阈值和返回结果数量,确保检索结果的准确性和实用性。

05

使用 Milvus 进行图像检索的经验

索引和度量选择:Milvus 支持多种索引和度量算法,不同的算法适用于不同的场景。在选择时,需要考虑数据规模、查询类型和性能要求等因素。我们目前大约有1000多万条向量数据,使用的是IVF_FLAT索引,L2度量方法。

相似度阈值的设置:相似度阈值的设置需要根据具体的业务需求来确定。过高的阈值可能会导致检索结果过少,而过低的阈值可能会导致检索结果过多,增加人工筛选的工作量。我们的经验是,在实际场景中抽取一定数据,使用不同的阈值来进行评估,得到最佳阈值,然后将阈值应用到实际场景中,在我们的场景,对精度的要求高于召回要求,因此最终选择了0.75作为相似度阈值。

06

取得的效果

通过使用 Milvus,我们在零售业务中取得了显著的效果:

提高了标注效率:图像检索技术大大减少了人工筛选图片的时间,提高了标注效率,而且可以根据不同的相似度阈值,来针对性的检索,增加了数据的多样性。

提升了标注质量:通过检索到的相似图片,标注人员可以更好地理解商品的特征,提高标注的准确性和一致性。

加速了模型迭代训练:高效的标注流程为模型的迭代训练提供了更多的数据支持,加快了模型的优化速度。

总之,Milvus 为我们的零售业务带来了巨大的价值。我们也将继续探索和优化图像检索技术,为客户提供更好的服务。希望我们的经验分享能对大家有所帮助。

谢谢!

作者介绍

3ff7db5171312f8d10f020a1dc1e7faf.png

推荐阅读

59dd3fa1d12ee62bb1c6b0bcbabc5a2b.png

9e3bba1c6cc51c1abf01ea93ddc52beb.png

8c31c7f435ee23cd3eabd60740a80ca9.png

44b7330055b4c5c120bc65ae0c34549b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/412305.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-table 合并单元格后 hover错乱

hover后的效果图: 1:在el-table上加入这三个属性 :row-class-name"rowClassName" cell-mouse-enter"handleMouseEnter" cell-mouse-leave"handleMouseLeave" 2:data里声明一个变量 hoverRowLike:-1 3:copy到…

自动化测试:Monkey工具实践应用~

在移动应用的自动化测试中,意外的用户操作和各种不可预见的场景往往是导致应用崩溃的主要原因。如何有效地模拟这些复杂场景,成为了测试工程师的一大挑战。而在这一过程中,Monkey工具凭借其随机化测试的独特优势,成为了许多团队的…

29 猜丁壳游戏

猜丁壳游戏 猜丁壳游戏是一个简单的石头、剪刀、布游戏,玩家与计算机进行对战。以下是游戏的详细说明和使用指南。 游戏界面 游戏界面分为几个部分: 标题栏:显示游戏名称“猜丁壳”。选择区域:玩家可以选择石头、剪刀或布。控制…

Python简易IDE工作界面制作

、 休闲一下,学习编程还是要学习一些界面编程,能够根据需要制作图形操作界面,这样我们开发的程序才能方便操作和使用,同时获得更友好的人机交互体验。下面是一个用PyQt5制作的简易界面,供大学参考。如下图所示&a…

【vscode】vscode+cmake+llvm+ninja开发环境的搭建(draft)

文章目录 前言1 软件、工具和插件安装1.1 vscode安装1.2 cmake安装1.3 安装LLVM1.4 安装Ninja1.5 vscode插件安装 2 工具链和CMakeLists2.1 工具链(toolchain.cmake)2.2 CMakeLists.txt2.3 基本语法注释 前言 本文是一个使用vscode的小白扫盲贴。 所谓工…

一个php快速项目搭建框架源码,带一键CURD等功能

介绍: 框架易于功能扩展,代码维护,方便二次开发,帮助开发者简单高效降低二次开发成本,满足专注业务深度开发的需求。 百度网盘下载 图片:

从Python转向MicroPython使用详解

概要 随着物联网(IoT)设备的普及和嵌入式系统的广泛应用,MicroPython逐渐成为Python开发者们探索嵌入式编程的重要工具。MicroPython是一种精简版的Python,专为资源受限的设备而设计,能够在微控制器和其他嵌入式设备上运行。对于习惯使用Python的开发者而言,转向MicroPy…

海大集团的可观测平台建设实践

海大集团介绍 海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238…

Python爬虫(一文通)

Python爬虫(基本篇) 一:静态页面爬取 Requests库的使用 1)基本概念安装基本代码格式 应用领域:适合处理**静态页面数据和简单的 HTTP 请求响应**。 Requests库的讲解 含义:requests 库是 Python 中一个…

【HTML】模拟二级菜单【附源代码】

模拟二级菜单 HTML部分&#xff1a; <!DOCTYPE html>: 声明文档类型为HTML5。<html>: HTML文档的根元素。<head>: 包含文档的元数据&#xff0c;如字符集、标题和样式。 <meta charset"utf-8">: 设置文档的字符编码为UTF-8。<title>:…

公网信息泄露监测(网盘、暗网、搜索引擎、文档平台)思路分享

一、背景 众测项目中白帽可能会提交一些信息泄露漏洞&#xff0c;同时甲方可会收到一些白帽提交的公网信息泄露文件漏洞&#xff0c;例如百度网盘被员工分享某些文件或者某些包含敏感信息的文件可以通过如谷歌、百度等搜索引擎通过特定语法搜索到。为了可以及时发现泄露的文件…

【计算机组成原理】六、总线:1.总线概论(分类、性能指标、总线标准)

六、总线 文章目录 六、总线1.总线概论2.分类2.1按数据传输格式2.2按总线功能(连接的部件)2.3按时序控制方式2.2-2系统总线的结构 3.性能指标6.总线标准6.1系统总线6.2局部总线6.3设备总线、通信总线6.4为何串行总线取代并行总线&#xff1f; 1.总线概论 总线被刻蚀在主板上 总…

【3.6】贪心算法-解救生艇问题

一、题目 第 i 个人的体重为 people[i]&#xff0c;每艘船可以承载的最大重量为 limit。 每艘船最多可同时载两人&#xff0c;但条件是这些人的重量之和最多为 limit 。 返回载到每一个人所需的最小船数。(保证每个人都能被船载)。 二、解题思路 题目要求每艘船最多能载两人&…

【58同城-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞 …

【零知识证明】MiMC哈希函数电路

1 哈希电路 哈希函数电路实现&#xff1a; pragma circom 2.0.0;// y (x k c) ^ 5 // 输入信号x, k &#xff0c;常量c // base x k c // base2 base * base // base4 base2 * base2 // base5 base *base4 // 输出 ytemplate MIMC5(){signal input x;signal input k…

【SpringCloud Alibaba】(九)学习 Gateway 服务网关

目录 1、网关概述1.1、没有网关的弊端1.2、引入 API 网关 2、主流的 API 网关2.1、NginxLua2.2、Kong 网关2.3、Zuul 网关2.4、Apache Shenyu 网关2.5、SpringCloud Gateway 网关 3、SpringCloud Gateway 网关3.1、Gateway 概述3.2、Gateway 核心架构 4、项目整合 SpringCloud …

信息安全--网络安全体系与安全模型(二)

其他安全模型 ■纵深防御模型&#xff1a;①安全保护②安全监测③实时响应④恢复 ■分层防护模型&#xff1a;参考OSI模型&#xff0c;对保护对象进行层次化保护。 ■等级保护模型&#xff1a;将信息系统划分成不同安全保护等级&#xff0c;采取相 应的保护措施。 ■网络生…

UE开发中的设计模式(四) —— 组合模式

面试中被面试官问到组合模式和继承有什么区别&#xff0c;给我问懵了&#xff0c;今天又仔细看了下&#xff0c;这不就是UE里的组件吗 >_< 文章目录 问题提出概述问题解决总结组合模式的优缺点继承的优缺点 问题提出 考虑这样一个场景&#xff0c;我们有一个敌人的基类&…

武器弹药制造5G智能工厂物联数字孪生平台,推进制造业数字化转型

武器弹药制造领域作为国防工业的重要组成部分&#xff0c;其数字化转型更是关乎国家安全与军事实力提升的关键。随着5G、物联网、大数据、云计算及人工智能等先进技术的融合应用&#xff0c;武器弹药制造5G智能工厂物联数字孪生平台应运而生&#xff0c;正逐步成为推进制造业数…

程序设计—智慧城市应急物资配送系统开发—大数据模块 项目源码36262

摘 要 智慧城市应急物资配送系统开发中的大数据模块&#xff0c;作为核心的数据处理与分析组件&#xff0c;实现了数据可视化、用户行为分析、精准广告推送、数据报表生成以及商品与需求信息的全面管理。 该模块通过数据地图展示大屏&#xff0c;实时呈现应急物资配送的层级联…