从基础到人脸识别与目标检测

前言

从本文开始,我们将开始学习ROS机器视觉处理,刚开始先学习一部分外围的知识,为后续的人脸识别、目标跟踪和YOLOV5目标检测做准备工作。我采用的笔记本是联想拯救者游戏本,系统采用Ubuntu20.04,ROS采用noetic。

颜色编码格式,图像格式和视频压缩格式

(1)RGB和BGR:这是两种常见的颜色编码格式,分别代表了红、绿、蓝三原色。不同之处在于,RGB按照红、绿、蓝的顺序存储颜色信息,而BGR按照蓝、绿、红的顺序存储。

rgb8图像格式:常用于显示系统,如电视和计算机屏幕。RGB值以8 bits表示每种颜色,总共可以表示256×256×256=16777216种颜色。例如: (255,0,0) 表示红色,(0,255,0) 表示绿色,(0,0,255) 表示蓝色。
bgr8图像格式:由一些特定的硬件制造商采用,软件方面最著名的就是opencv,其默认使用BGR的颜色格式来处理图像。与RGB不同, (0,0,255) 在BGR中表示红色,(0,255,0) 仍然表示绿色,(255,0,0) 表示蓝色。

在自动驾驶里,使用rgb8图像格式的图像,一般称为原图,是数据量最大的格式,没有任何压缩。(2)(2)YUV:这是另一种颜色编码方法,与RGB模型不同的是,它将图像信息分解为亮度(Y)和色度(U和V)两部分。这种方式更接近于人类对颜色的感知方式。

Y:代表亮度信息,也就是灰阶值。
U:从色度信号中减去Y得到的蓝色信号的差异值。
V:从色度信号中减去Y得到的红色信号的差异值。

YUV颜色编码主要用在电视系统以及视频编解码标准中,在这些系统中,Y通道信息可以单独使用,这样黑白电视机也能接收和显示信号。而彩色信息则通过U和V两个通道传输,只有彩色电视机才能处理。这样设计兼容了黑白电视和彩色电视。YUV色彩空间相比RGB色彩空间,更加符合人眼对亮度和色彩的敏感度,在视频压缩时,可以按照人眼的敏感度对YUV数据进行压缩,以达到更高的压缩比。由于历史和技术的原因,YUV的标准存在多种,例如YUV 4:4:4、YUV 4:2:2和YUV 4:2:0等,这些主要是针对U和V通道的采样方式不同定义的。采样不同,对应的压缩比也不同。

(3)图像压缩格式

jpeg:Joint Photographic Experts Group,是一种常见的用于静态图像的损失性压缩格式,它特别适合于全彩色和灰度图片,被广泛使用。通常情况下,JPEG可以提供10:1到20:1的有损压缩比,根据图像质量自由调整。
png: Portable Network Graphics,PNG是一种无损压缩格式,主要使用了DEFLATE算法。由于这是无损压缩,所以解压缩图像可以完全恢复原始数据。被广泛应用于需要高质量图像的场景,如网页设计、艺术作品等。
bmp:Bitmap,BMP是Windows系统中常用的一种无压缩的位图图像格式,通常会创造出较大的文件。

位图(Bitmap)是一种常见的计算机图形,最小单位是像素,每个像素都包含一定量的信息,如颜色和亮度等。位图图像的一个主要特点就是,在放大查看时,可以看到图像的像素化现象,也就是我们常说的"马赛克"。BMP、JPEG、GIF、PNG等都是常见的位图格式。

(4)H264和H265:这是两个视频压缩格式,也是两种视频编解码标准。以1280*720的摄像头为例,如果是rgb8格式的原图,一帧图像的大小是:

3*1280*720=27648000字节,即2.7648MB

如果是一小时的视频,那将是非常大的数据量,对网络传输,数据存储,都是很大的压力。而H264通过种种帧间操作,可以达到10:1到50:1的压缩比,甚至更高。H265更进一步,压缩比更高,用来解决4K或8K视频的传输。

更具体的原理见:图像编码与 H264 基础知识在自动驾驶领域,图像数据也使用h264格式,主要用于数采和回放,控制数据量。

usb_cam

(1)linux针对摄像头硬件有一套Video for Linux内核驱动框架,对应提供的有命令行工具 v4l2-ctl (Video for Linux 2),可以查看摄像头硬件信息:

ls /dev/video0  //一般video0是笔记本自带摄像头设备文件
v4l2-ctl -d /dev/video0 --all

这里截取了部分关键信息,下面的usb_cam的launch文件将用到:

(2)usb_cam是ros里usb camera的软件包,一般称为ros摄像头驱动,但这是一个应用程序,其调用v4l2并通过ros topic发出图像数据。搞机器视觉,第一步就是要有图。安装并启动usb_cam,查看图像:

sudo apt-get install ros-noetic-usb-cam 
roslaunch usb_cam usb_cam-test.launch
rqt_image_view

usb_cam-test.launch:

<launch><node name="usb_cam" pkg="usb_cam" type="usb_cam_node" output="screen" >//指定设备文件名,默认是/dev/video0<param name="video_device" value="/dev/video0" />// 宽和高分辨率	<param name="image_width" value="640" /><param name="image_height" value="480" />// 像素编码,可选值:mjpeg,yuyv,uyvy<param name="pixel_format" value="yuyv" /><param name="color_format" value="yuv422p" />// camera坐标系名<param name="camera_frame_id" value="usb_cam" />// IO通道,可选值:mmap,read,userptr,大数据量信息一般用mmap<param name="io_method" value="mmap"/></node><node name="image_view" pkg="image_view" type="image_view" respawn="false" output="screen">// 指定发出的topic名:/usb_cam/image_raw<remap from="image" to="/usb_cam/image_raw"/><param name="autosize" value="true" /></node>
</launch>

(3)/usb_cam/image_raw的数据结构体:

rostopic info /usb_cam/image_raw
rosmsg show  sensor_msgs/Image

//消息头,每个topic都有
std_msgs/Header header	uint32 seqtime stamp// 坐标系名string frame_id
// 高和宽分辨率
uint32 height
uint32 width
// 无压缩的图像编码格式,包括rgb8,YUV444
string encoding
// 图像数据的大小端存储模式
uint8 is_bigendian
// 一行图像数据的字节数量,作为步长参数
uint32 step
// 存储图像数据的柔性数组,大小是step*height
uint8[] data

/usb_cam/image_raw内容展示:

(4)/usb_cam/image_raw/compressed的数据结构体:

rostopic info /usb_cam/image_raw/compressed
rosmsg show sensor_msgs/CompressedImage

std_msgs/Header headeruint32 seqtime stampstring frame_id
// 压缩的图像编码格式,jpeg,png
string format
uint8[] data

/usb_cam/image_raw/compressed内容展示:

摄像头标定

标定引入

(1)Calibration:翻译过来就是校准和标定。(2)摄像头标定:Camera Calibration是计算机视觉中的一种关键技术,其目的是确定摄像头的内部参数(Intrinsic Parameters)和外部参数(Extrinsic Parameters)。

内部参数:包括焦距、主点坐标以及镜头畸变等因素。这些参数与相机本身的硬件有关,如镜头和图像传感器等,一般由厂家提供。
外部参数:摄像头相对于环境的位置和方向。例如,它可能描述了一个固定摄像头相对于周围环境的姿态或者安装位置。以汽车为例,外参包括各个摄像头之间的关系,摄像头与radar,摄像头与lidar的关系。

(3)汽车各种传感器的之间的相对位置和朝向,用3自由度的旋转矩阵和3自由度的平移向量表示,这些外参由整车厂自己标。一般整车下线之后,进入特定的房间,使用静态标靶、定位器的等高精度设备,完成Camera、radar、Lidar等传感器的标定,称之为产线标定,也叫做下线标定。

笔记本摄像头内参标定

这里我们使用标定常用的标靶图形,完成笔记本摄像头的内参标定。usb_cam可以使用内参标定,避免图像畸变。(1)安装标定功能包(ubuntu20.04+noetic)

sudo apt-get install ros-noetic-camera-calibration

(2)创建 robot_vision 软件包,并标定相关文件

cd ~/catkin_ws/src
catkin_create_pkg robot_vision cv_bridge image_transport sensor_msgs std_msgs geometry_msgs message_generation roscpp rospycd robot_vision 
mkdir doc launch
touch launch/cameta_calibration.launch

标定靶图片:

cameta_calibration.launch:

<launch>// 使用usb_cam包,发出/usb_cam/image_raw图像数据<node name="usb_cam" pkg="usb_cam" type="usb_cam_node" output="screen" ><param name="video_device" value="/dev/video0" /><param name="image_width" value="640" /><param name="image_height" value="480" /><param name="pixel_format" value="yuyv" /><param name="camera_frame_id" value="usb_cam" /><param name="io_method" value="mmap"/></node>// 使用标定功能包,完成标定。// 参数中,8x6表示横向8个内部角点,竖向有6个// square 是每个棋盘格的边长// /usb_cam/image_raw是监听的图像topic<nodepkg="camera_calibration"type="cameracalibrator.py"name="camera_calibration"output="screen"args="--size 8x6 --square 0.024 image:=/usb_cam/image_raw camera:=/usb_cam"/>
</launch>

(3)编译并运行

cd ~/catkin_ws/
catkin_make --source src/robot_vision 
source devel/setup.bash
roslaunch robot_vision cameta_calibration.launch

不断晃动,直到COMMIT按键亮起,然后点击,即可生成标定文件,本人的路径为:/home/mm/.ros/camera_info/head_camera.yaml。

opencv和cv_bridge引入

(1)opencv和cv_bridge

安装opencv(ubuntu20.04+noetic):

sudo apt-get install ros-noetic-vision-opencv libopencv-dev python3-opencv

(2)opencv和cv_bridge的简单架构图如下:

根据这个图,在ros里,处理图像的流程一般是:

    # 第一步:使用cv_bridge将ROS的图像数据转换成OpenCV的图像格式cv_image = cv_bridge.imgmsg_to_cv2(msg, "bgr8")# 第二步:使用opencv进行图像处理。。。# 第三步,再将opencv格式额数据转换成ros image格式的数据ros_image = cv_bridge.cv2_to_imgmsg(cv_image, "bgr8")

(3)在 上节的robot_vision包里,我们新增一个cv_bridge的小样例,主要功能是在捕捉到的图像上打个蓝色的圆标。

本文不深入讲解opencv,推荐一个资料:W3Cschool - OpenCV教程

cv_bridge_test.py:

#! /usr/bin/env python3
# -*- coding: utf-8 -*-
import rospy
import cv2
from functools import partial
from cv_bridge import CvBridge, CvBridgeError
from sensor_msgs.msg import Imagedef image_cb(msg, cv_bridge, image_pub):# 使用cv_bridge将ROS的图像数据转换成OpenCV的图像格式try:cv_image = cv_bridge.imgmsg_to_cv2(msg, "bgr8")except CvBridgeError as e:print(e)# 在opencv的显示窗口中绘制一个圆,作为标记# cv_image.shape返回一个元组,包含图像的行数(高度),列数(宽度)和通道数(通常是3个通道:BGR)(rows, cols, channels) = cv_image.shape# 当图像的宽度和高度都大于60时,才执行画圆标动作if cols > 60 and rows > 60:# 在计算机图像处理中,图像的原点(0,0)通常定义为图像的左上角。(60,60)是圆心的坐标。# 30是圆的半径。# (255,0,0)定义了圆的颜色。在OpenCV中,默认的颜色空间是BGR,所以这其实是绘制了一个蓝色的圆。# -1表示填充圆。如果这个值是正数,则代表绘制的圆的线宽;如果是负数,则代表填充该圆。cv2.circle(cv_image, (60,60), 30, (255,0,0), -1)# 使用Opencv的接口,显示Opencv格式的图像cv2.imshow("ycao: opencv image window", cv_image)cv2.waitKey(3)# 再将opencv格式额数据转换成ros image格式的数据发布try:image_pub.publish(cv_bridge.cv2_to_imgmsg(cv_image, "bgr8"))except CvBridgeError as e:print(e)def main():rospy.init_node("cv_bridge_test")rospy.loginfo("starting cv_bridge_test node")bridge = CvBridge()image_pub = rospy.Publisher("/cv_bridge_image", Image, queue_size=1)bind_image_cb = partial(image_cb, cv_bridge=bridge, image_pub=image_pub)// 订阅/usb_cam/image_raw,然后再回调函数里处理图像,并发布出来rospy.Subscriber("/usb_cam/image_raw", Image, bind_image_cb)rospy.spin()cv2.destroyAllWindows()
if __name__ == "__main__":main()

cv_bridge_test.launch

<launch><node name="usb_cam" pkg="usb_cam" type="usb_cam_node" output="screen" ><param name="video_device" value="/dev/video0" /><param name="image_width" value="640" /><param name="image_height" value="480" /><param name="pixel_format" value="yuyv" /><param name="camera_frame_id" value="usb_cam" /><param name="io_method" value="mmap"/></node><nodepkg="robot_vision"type="cv_bridge_test.py"name="cv_bridge_test"output="screen"/><nodepkg="rqt_image_view"type="rqt_image_view"name="rqt_image_view"output="screen"/>
</launch>

(4)编译并运行

cd ~/catkin_ws/
catkin_make --source src/robot_vision 
source devel/setup.bash
roslaunch robot_vision cv_bridge_test.launch

总结

本文主要系统介绍了机器视觉处理的外围知识,引入了opencv和cv_bridge,后面几篇文章,我们将用它们继续丰富 robot_vision 软件包。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15830.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

百度高德地图坐标转换

百度地图和高德地图的侧重点不太一样。同样一个地名&#xff0c;在百度地图网站上搜索到的地点可能是商业网点&#xff0c;在高德地图网站上搜索到的地点可能是自然行政地点。 高德地图api 在高德地图中&#xff0c;搜索地名&#xff0c;如“乱石头川”&#xff0c;该地名会出…

Visual Studio踩过的坑

统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定&#xff0c;供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意&#xff1a;只是看&#xff0…

Vue3+codemirror6实现公式(规则)编辑器

实现截图 实现/带实现功能 插入标签 插入公式 提示补全 公式验证 公式计算 需要的依赖 "codemirror/autocomplete": "^6.18.4","codemirror/lang-javascript": "^6.2.2","codemirror/state": "^6.5.2","cod…

【大数据安全分析】大数据安全分析技术框架与关键技术

在数字化时代&#xff0c;网络安全面临着前所未有的挑战。传统的网络安全防护模式呈现出烟囱式的特点&#xff0c;各个安全防护措施和数据相互孤立&#xff0c;形成了防护孤岛和数据孤岛&#xff0c;难以有效应对日益复杂多变的安全威胁。而大数据分析技术的出现&#xff0c;为…

参考数据和主数据:构建数据管理的基石

在数据管理的众多领域中&#xff0c;参考数据和主数据管理是确保数据一致性和准确性的关键环节。它们为组织提供了统一的数据标准和核心业务实体的准确视图&#xff0c;是数据管理的基石。今天&#xff0c;让我们深入《DAMA数据管理知识体系指南&#xff08;第二版&#xff09;…

Docker搭建redis集群

1.使用docker新建6个redis容器实例&#xff0c;在此之前&#xff0c;需要在阿里云服务器和宝塔界面开放安全组(redis客户端连接端口和集群总线端口) redis集群不仅需要开通redis客户端连接的端口(如6381),而且需要开通集群总线端口(16381)。 集群总线端口redis客户端连接的端口…

荣耀手机Magic3系列、Magic4系列、Magic5系列、Magic6系列、Magic7系列详情对比以及最新二手价格预测

目录 荣耀Magic系列手机详细对比 最新二手价格预测 性价比分析 总结 以下是荣耀Magic系列手机的详细对比以及最新二手价格预测&#xff1a; 荣耀Magic系列手机详细对比 特性荣耀Magic3系列荣耀Magic4系列荣耀Magic5系列荣耀Magic6系列荣耀Magic7系列处理器骁龙888&#x…

TCN时间卷积神经网络多变量多步光伏功率预测(Matlab)

代码下载&#xff1a;TCN时间卷积神经网络多变量多步光伏功率预测&#xff08;Matlab&#xff09; TCN时间卷积神经网络多变量多步光伏功率预测 一、引言 1.1、研究背景和意义 随着全球能源危机的加剧和环保意识的提升&#xff0c;可再生能源&#xff0c;尤其是太阳能&…

collabora online+nextcloud+mariadb在线文档协助

1、环境 龙蜥os 8.9 docker 2、安装docker dnf -y install dnf-plugins-core dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sed -i shttps://download.docker.comhttps://mirrors.tuna.tsinghua.edu.cn/docker-ce /etc/yum.repos.…

在亚马逊云科技上云原生部署DeepSeek-R1模型(下)

在本系列的上篇中&#xff0c;我们介绍了如何通过Amazon Bedrock部署并测试使用了DeepSeek模型。在接下来的下篇中小李哥将继续介绍&#xff0c;如何利用亚马逊的AI模型训练平台SageMaker AI中的&#xff0c;Amazon Sagemaker JumpStart通过脚本轻松一键式部署DeepSeek预训练模…

JVM(Java 虚拟机)

Java语言的解释性和编译性&#xff08;通过JVM 的执行引擎&#xff09; Java 代码&#xff08;.java 文件&#xff09;要先使用 javac 编译器编译为 .class 文件&#xff08;字节码&#xff09;&#xff0c;紧接着再通过JVM 的执行引擎&#xff08;Execution Engine&#xff09…

基于Kotlin中Flow扩展重试方法

最近项目中统一采用Kotlin的Flow来重构了网络请求相关代码。 目前的场景是,接口在请求的时候需要一个accessToken值,因为此值会过期或者不存在,需要刷新,因此最终方案是在使用Flow请求的时候先获取accessToken值然后再进行接口请求,而获取accessToken值的方法已经封装成了…

韶音科技:消费电子行业售后服务实现数字化转型,重塑客户服务体系

韶音科技&#xff1a;消费电子行业售后服务实现数字化转型&#xff0c;重塑客户服务体系 在当今这个科技日新月异的时代&#xff0c;企业之间的竞争早已超越了单纯的产品质量比拼&#xff0c;**售后服务成为了衡量消费电子行业各品牌实力与客户满意度的关键一环。**深圳市韶音…

推荐系统Day1笔记

意义&#xff1a; 1. 平台方 推荐系统解决产品能够最大限度地吸引用户、留存用户、增加用户粘性、提高用户转化率的问题&#xff0c;从而达到平台商业目标增长的目的。 2. 用户 推荐系统对于用户而言&#xff0c;除了将平台上的需求和供给进行匹配外&#xff0c;还需要尽可…

【详细版】DETR系列之Deformable DETR(2021 ICLR)

论文标题Deformable DETR: Deformable Transformers for End-to-End Object Detection论文作者Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai发表日期2021年03月01日GB引用> Xizhou Zhu, Weijie Su, Lewei Lu, et al. Deformable DETR: Deformable T…

[开源]MaxKb+Ollama 构建RAG私有化知识库

MaxKbOllama&#xff0c;基于RAG方案构专属私有知识库 关于RAG工作原理实现方案 一、什么是MaxKb&#xff1f;二、MaxKb的核心功能三、MaxKb的安装与使用四、MaxKb的适用场景五、安装方案、 docker版Docker Desktop安装配置MaxKb安装和配置 总结和问题 MaxKB 是一款基于 LLM 大…

原生鸿蒙版小艺APP接入DeepSeek-R1,为HarmonyOS应用开发注入新活力

原生鸿蒙版小艺APP接入DeepSeek-R1&#xff0c;为HarmonyOS应用开发注入新活力 在科技飞速发展的当下&#xff0c;人工智能与操作系统的融合正深刻改变着我们的数字生活。近日&#xff0c;原生鸿蒙版小艺APP成功接入DeepSeek-R1&#xff0c;这一突破性进展不仅为用户带来了更智…

Linux进阶——web服务器

一、相关名词解释及概念&#xff1a; www&#xff1a;(world wide web)全球信息广播&#xff0c;通常来说的上网就是使用www来查询用户所需的信息。使用http超文本传输协议。 过程&#xff1a;web浏览器向web服务&#xff08;Apache&#xff0c;Microsoft&#xff0c;nginx&…

网易日常实习一面面经

1. 自我介绍 2. 两道代码题&#xff1a; 第一道题&#xff1a;写一道链表排序题要求空间复杂度O(1) &#xff1a;已ac 插入排序算法 时间复杂度 O(N^2)&#xff0c;空间复杂度O(1) class ListNode{int val;ListNode next;public ListNode(int x) {this.val x;} } public cl…

查询语句来提取 detail 字段中包含 xxx 的 URL 里的 commodity/ 后面的数字串

您可以使用以下 SQL 查询语句来提取 detail 字段中包含 oss.kxlist.com 的 URL 里的 commodity/ 后面的数字串&#xff1a; <p><img style"max-width:100%;" src"https://oss.kxlist.com//8a989a0c55e4a7900155e7fd7971000b/commodity/20170925/20170…