立体视觉的核心技术:视差计算与图像校正详解

立体视觉的核心技术:视差计算与图像校正详解

在立体视觉中,通过双目相机(即左右两台相机)的不同视角捕获的图像,结合几何关系,我们可以推算出场景中物体的深度。本文将深入讲解如何基于视差(disparity)和相似三角形的几何关系推导深度 z z z,并阐述图像校正(Image Rectification)的作用及其在视差匹配中的意义。

一、立体成像中的几何关系

在双目立体视觉系统中,左相机和右相机之间存在一个固定的水平距离,称为基线(baseline),记作 B B B。两个相机的焦距(focal length)为 f f f
在这里插入图片描述

图中展示了双目立体视觉系统的结构和关键参数,帮助我们理解视差与深度的关系。

1. 基本变量定义

如图所示,双目视觉系统由左相机(光心 O l O_l Ol)和右相机(光心 O r O_r Or)构成,两者之间的距离为基线 B B B。设待测物体在三维空间中的真实坐标为 P ( X , Y , Z ) P(X, Y, Z) P(X,Y,Z),其在左、右相机图像平面上的投影点分别为 p l ( x l , y l ) p_l(x_l, y_l) pl(xl,yl) p r ( x r , y r ) p_r(x_r, y_r) pr(xr,yr)

2. 焦距与图像平面

每个相机都有一个图像平面,其焦距为 f f f。图像平面是相机感知三维世界的二维空间,它距离相机光心的垂直距离为 f f f。在此图像平面上,左、右相机的成像点分别为 p l p_l pl p r p_r pr,其横坐标分别为 x l x_l xl x r x_r xr

3. 视差的定义

视差(Disparity)表示物体在左右图像平面上的水平位置差异,用 d x dx dx 表示,定义为:
d x = x l − x r dx = x_l - x_r dx=xlxr
视差的存在是因为左右相机拍摄同一物体的角度不同。视差越大,意味着物体越靠近相机;反之,视差越小,物体离相机越远。

4. 深度 Z Z Z 的推导

我们可以利用相似三角形关系推导出物体到相机的深度 Z Z Z。根据图中的三角形关系,以下是推导深度 Z Z Z 的过程。

  • 对于左相机成像的三角形,可以得到:
    X Z = x l f \frac{X}{Z} = \frac{x_l}{f} ZX=fxl

  • 对于右相机成像的三角形,可以得到:
    X − B Z = x r f \frac{X - B}{Z} = \frac{x_r}{f} ZXB=fxr

通过消去 X X X,得到 Z Z Z 的公式如下:

  1. 由左相机的成像关系得出:
    X = x l ⋅ Z f X = \frac{x_l \cdot Z}{f} X=fxlZ

  2. X X X 代入右相机的成像关系中,得到:
    x l ⋅ Z f − B Z = x r f \frac{\frac{x_l \cdot Z}{f} - B}{Z} = \frac{x_r}{f} ZfxlZB=fxr

  3. 整理得出:
    x l ⋅ Z − B ⋅ f = x r ⋅ Z x_l \cdot Z - B \cdot f = x_r \cdot Z xlZBf=xrZ

  4. Z Z Z 项合并,可以得出最终深度 Z Z Z 的表达式:
    Z = f B x l − x r = f B d x Z = f \frac{B }{x_l - x_r} = f \frac{B }{dx} Z=fxlxrB=fdxB

5. 深度 Z Z Z 与视差 d x dx dx 的关系

最终,深度 Z Z Z 可以表示为基线 B B B、焦距 f f f 和视差 d x dx dx 的函数:
Z = f B d x Z =f \frac{B }{dx} Z=fdxB

该公式表明,深度 Z Z Z 与视差 d x dx dx 成反比关系。具体来说:

  • 当视差 d x dx dx 增大时,深度 Z Z Z 会减小。这表示物体距离相机更近,因为左右相机看到的物体位置差异显著。
  • 当视差 d x dx dx 减小时,深度 Z Z Z 会增大。这表示物体距离相机更远,因为左右相机看到的物体位置几乎相同。

这种关系很直观:当物体靠近相机时,由于角度差异,左右相机的成像位置会有较大差异,形成较大的视差;而当物体较远时,左右相机成像位置差异较小,视差随之减小。


二、图像校正:视差匹配的预处理

在实际的双目视觉系统中,左右相机并不总是能够完美对齐。由于安装误差、镜头失真或相机的角度偏差,左右图像可能存在垂直方向或旋转上的不一致。这会导致对应点的极线(epipolar line)并不水平。
在这里插入图片描述
如图所示,左右图像平面中的极线可能是倾斜的,这种不对齐给视差匹配带来了额外的复杂性。为了解决这一问题,我们通常需要对图像进行图像校正(Image Rectification),即通过一种变换使得左右图像的极线变得水平平行,使得同一空间点在左右图像中的投影点位于同一条水平线上。这种操作能够简化视差匹配过程,并提高深度估计的精度。

1. 图像校正的作用

图像校正的核心目标是对输入图像进行透视变换,确保左右相机的极线在校正后的图像中保持水平。校正后的图像具有以下特点:

  • 极线水平对齐:校正后的极线保持水平,从而简化视差计算。
  • 简化匹配:同一个空间点的左右成像点处于同一水平线上,有利于更高效、精确地进行视差匹配。

在图中可以看到,原始左右图像的极线(红色虚线)可能并不水平;校正之后,这些极线被强制水平对齐,从而满足视差计算的要求。

2. 图像校正的数学描述

为了实现图像校正,构造一个变换矩阵 H H H 是关键步骤。通过这个矩阵,我们可以对原始图像进行透视变换,将左右图像中的点映射到校正后的平面上,从而使得左右相机的极线水平对齐。

图像校正过程可以表示为:

校正图像 = 原始图像 × H \text{校正图像} = \text{原始图像} \times H 校正图像=原始图像×H

其中 H H H 是校正变换矩阵,其求解依赖于相机的内参外参,即相机的内部光学特性(焦距、光心)和相机相对于其他相机或世界坐标系的空间位置关系(旋转和平移)。

内参矩阵 K K K

相机的内参描述了相机的光学特性,包括焦距和光心位置。内参矩阵 K K K 通常表示为:

K = [ f x 0 c x 0 f y c y 0 0 1 ] K = \begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix} K= fx000fy0cxcy1

其中 f x f_x fx f y f_y fy 是相机在 x x x y y y 方向的焦距, c x c_x cx c y c_y cy 是光心的位置。内参矩阵 K K K 可以通过相机标定技术得到。

外参矩阵 [ R ∣ t ] [R|t] [Rt]

外参定义了相机的空间位置和方向,包括旋转矩阵 R R R 和平移向量 t t t。其中, R R R 是一个 3 × 3 3 \times 3 3×3 矩阵,描述了相机坐标系相对于世界坐标系的旋转; t t t 是一个 3 × 1 3 \times 1 3×1 向量,描述了相机的平移。外参矩阵组合表示为:

外参矩阵 = [ R t 0 1 ] \text{外参矩阵} = \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix} 外参矩阵=[R0t1]

通过内参和外参的组合,我们可以构造出用于校正的变换矩阵 H H H

构造校正矩阵 H H H

校正矩阵 H H H 的构造如下:

H = K ⋅ R rect ⋅ K − 1 H = K \cdot R_{\text{rect}} \cdot K^{-1} H=KRrectK1

其中:

  • K K K 为内参矩阵;
  • R rect R_{\text{rect}} Rrect 是通过外参计算得到的旋转矩阵,用于将原始图像坐标旋转到极线水平对齐的校正坐标系下;
  • K − 1 K^{-1} K1 是内参矩阵的逆矩阵,用于将校正结果映射回像素坐标系。

通过这种变换,校正后的图像点 p rect \mathbf{p}_{\text{rect}} prect 可以由原始图像点 p \mathbf{p} p 映射得到:

p rect = H ⋅ p \mathbf{p}_{\text{rect}} = H \cdot \mathbf{p} prect=Hp

3. 校正后的视差匹配

完成图像校正后,左右图像的极线平行且水平对齐。这样一来,视差匹配可以直接在水平方向上进行,这带来了以下好处:

  • 提高视差计算的准确性:由于极线对齐,视差直接反映物体深度的信息,减少了因角度偏差带来的误差。
  • 降低计算复杂度:无需在垂直方向上搜索匹配点,从而简化了视差匹配的计算过程。

最终,通过图像校正,双目相机的视差匹配过程变得更加简单有效,为深度估计提供了精确的基础。这一过程在自动驾驶、三维重建和机器人视觉系统中尤为重要,因为它显著提升了双目视觉系统的鲁棒性和计算效率。


三、总结

立体视觉中的视差与深度成反比关系。通过双目相机拍摄的图像,我们可以利用视差来推算物体的深度。而图像校正操作则确保了左右图像的极线平行,使得视差计算更为简单和高效。这一过程在自动驾驶、3D 建模等领域中有着广泛的应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/468848.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习基础练习:从pytorch API出发复现LSTM与LSTMP

2024/11/5-2024/11/7: 前置知识: [译] 理解 LSTM(Long Short-Term Memory, LSTM) 网络 - wangduo - 博客园 【官方双语】LSTM(长短期记忆神经网络)StatQuest_哔哩哔哩_bilibili 大部分思路来自于: PyTorch LSTM和LSTMP…

scala学习记录,Set,Map

set:集合,表示没有重复元素的集合,特点:唯一 语法格式:val 变量名 Set [类型](元素1,元素2...) 可变不可变 可变(mutable)可对元素进行添加,删…

Docker了解

Docker是一种容器化技术,它可以将应用程序和其依赖项打包到一个独立的、可移植的容器中,以便在不同的环境中运行。Docker基于Linux操作系统的容器化技术,可以提供更轻量、更快速、更灵活、更一致的应用部署和管理方式。 Docker的基本概念包括…

‘conda‘ 不是内部或外部命令,也不是可运行的程序或批处理文件,Miniconda

下载了conda,但是在cmd里执行conda --version会显示’conda’ 不是内部或外部命令,也不是可运行的程序或批处理文件。 原因是环境变量里没有添加conda,无法识别路径。 需要在系统环境变量里添加如下路径: 保存之后重新打开cmd&am…

《TCP/IP网络编程》学习笔记 | Chapter 4:基于TCP的服务器端/客户端(1)

《TCP/IP网络编程》学习笔记 | Chapter 4:基于TCP的服务器端/客户端(1) 《TCP/IP网络编程》学习笔记 | Chapter 4:基于TCP的服务器端/客户端(1)理解TCP和UDPTCP/IP协议栈TCP/IP协议的诞生背景链路层网络层T…

【C语言】。末尼

用js写一个冒泡排序 当然可以。在JavaScript中&#xff0c;你可以使用递归的方式来实现冒泡排序算法。这是一个简单的示例&#xff1a; function bubbleSort(arr) { let len arr.length; if(len < 1){ return arr; // 如果数组只有一个元素或为空&#xf…

深度学习笔记12

1.神经网络的代价函数 神经网络可同时用于解决分类问题和回归问题&#xff0c;对于不同的问题会在输出层后&#xff0c;加上不同的变换函数。一般来说&#xff0c;回归问题使用恒等函数,分类问题使用sigmoid或softmax函数。而不同的变换函数&#xff0c;也对应不同的代价函数。…

RabbitMQ队列详细属性(重要)

RabbitMQ队列详细属性 1、队列的属性介绍1.1、Type&#xff1a;队列类型1.2、Name&#xff1a;队列名称1.3、Durability&#xff1a;声明队列是否持久化1.4、Auto delete&#xff1a; 是否自动删除1.5、Exclusive&#xff1a;1.6、Arguments&#xff1a;队列的其他属性&#xf…

json即json5新特性,idea使用json5,fastjson、gson、jackson对json5支持

文章目录 1.新特性1.1.JSON&#xff06;JSON5官网2.示例2.1. IntelliJ IDEA2.1.1.支持.json5文件2.1.2.md支持json5代码块 2.9. 示例源码 1.新特性 【通用】 注释尾随逗号key无需引号&#xff08;或单引号&#xff09; 【字符串】 字符串可以用单引号引起来。字符串可以通过转…

【NOIP普及组】摆花

【NOIP普及组】摆花 C语言代码C 代码Java代码Python代码 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 小明的花店新开张&#xff0c;为了吸引顾客&#xff0c;他想在花店的门口摆上一排花&#xff0c;共 m 盆。通过调 查顾客的喜好&am…

pdf转excel;pdf中表格提取

一、问题描述 在工作中或多或少会遇到&#xff1a;需要将某份pdf中的表格数据提取出来&#xff0c;以便能够“修改使用”数据 可将pdf中的表格提取出来&#xff0c;解决办法还有点复杂 尤其涉及“pdf中表格不是标准的单元格”的时候&#xff0c;提取数据到excel不太容易 比…

Qt中 QWidget 和 QMainWindow 区别

QWidget 用来构建简单窗口 QMainWindow 用来构建更复杂的窗口&#xff0c;QMainWindow 继承自QWidget&#xff0c;在QWidget 的基础上提供了菜单栏、工具栏、状态栏等功能 菜单栏&#xff08;QMenuBar&#xff09;工具栏&#xff08;QToolBar&#xff09;状态栏&#xff08;Q…

《深入浅出Apache Spark》系列③:Spark SQL解析层优化策略与案例解析

导读&#xff1a;本系列是Spark系列分享的第三期。第一期分享了Spark Core的一些基本原理和一些基本概念&#xff0c;包括一些核心组件。Spark的所有组件都围绕Spark Core来运转&#xff0c;其中最活跃的一个上层组件是Spark SQL。第二期分享则专门介绍了Spark SQL的基本架构和…

安全的时钟启动

Note&#xff1a;文章内容以 Xilinx 系列 FPGA 进行讲解 1、什么是安全启动时钟 通常情况下&#xff0c;在MMCM/PLL的LOCKED信号抬高之后&#xff08;由0变为1&#xff09;&#xff0c;MMCM/PLL就处于锁定状态&#xff0c;输出时钟已保持稳定。但在此之前&#xff0c;输出时钟会…

【mongodb】数据库的安装及连接初始化简明手册

NoSQL(NoSQL Not Only SQL )&#xff0c;意即"不仅仅是SQL"。 在现代的计算系统上每天网络上都会产生庞大的数据量。这些数据有很大一部分是由关系数据库管理系统&#xff08;RDBMS&#xff09;来处理。 通过应用实践证明&#xff0c;关系模型是非常适合于客户服务器…

丹韵红墙成红毯至美背景!冠珠华脉「雍华京韵」于M essential大秀绽放京韵时尚

东方美学代表品牌M essential近日于上海科学会堂举办十周年大秀&#xff0c;并发布品牌全新2024/25冬春系列。冠珠瓷砖作为国风新韵合作品牌&#xff0c;以高定岩板华脉「雍华京韵」系列的宫墙丹韵打造红毯背景墙&#xff0c;中国高定岩板与中国高级时装作品碰撞着“中国美”的…

工程认证与Spring Boot:计算机课程管理的新探索

摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了基于工程教育认证的计算机课程管理平台的开发全过程。通过分析基于工程教育认证的计算机课程管理平台管理的不足&#xff0c;创建了一个计算机管理基于工程教育认…

excel功能

统计excel中每个名字出现的次数 在Excel中统计每个名字出现的次数&#xff0c;您可以使用COUNTIF函数或数据透视表。以下是两种方法的详细步骤&#xff1a; 方法一&#xff1a;使用COUNTIF函数 准备数据&#xff1a;确保您的姓名列表位于一个连续的单元格区域&#xff0c;例如…

【flask开启进程,前端内容图片化并转pdf-会议签到补充】

flask开启进程,前端内容图片化并转pdf-会议签到补充 flask及flask-socketio开启threading页面内容转图片转pdf流程前端主js代码内容转图片-browser端browser端的同步编程flask的主要功能route,def 总结 用到了pdf,来回数据转发和合成,担心flask卡顿,响应差,于是刚好看到threadi…

聊一聊Spring中的自定义监听器

前言 通过一个简单的自定义的监听器&#xff0c;从源码的角度分一下Spring中监听的整个过程&#xff0c;分析监听的作用。 一、自定义监听案例 1.1定义事件 package com.lazy.snail;import lombok.Getter; import org.springframework.context.ApplicationEvent;/*** Class…