用手势操控现实:OpenCV 音量控制与 AI 换脸技术解析

基于opencv的手势控制音量和ai换脸

HandTrackingModule.py

import cv2
import mediapipe as mp
import timeclass handDetector():def __init__(self, mode = False, maxHands = 2, model_complexity = 1, detectionCon = 0.5, trackCon = 0.5):self.mode = modeself.maxHands = maxHandsself.model_complexity = model_complexityself.detectionCon = detectionConself.trackCon = trackConself.mpHands = mp.solutions.handsself.hands = self.mpHands.Hands(self.mode, self.maxHands, self.model_complexity, self.detectionCon, self.trackCon)self.mpDraw = mp.solutions.drawing_utilsdef findHands(self, img, draw = True):# Hand类的对象只能使用RGB图像imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)self.results = self.hands.process(imgRGB)# print(results.multi_hand_landmarks)# 如果存在手if self.results.multi_hand_landmarks:# 如果存在多个手for handLms in self.results.multi_hand_landmarks:if draw:# 设置连接线等属性self.connection_drawing_spec = self.mpDraw.DrawingSpec(color=(0, 255, 0), thickness=2)# 绘制self.mpDraw.draw_landmarks(img, handLms, self.mpHands.HAND_CONNECTIONS, connection_drawing_spec=self.connection_drawing_spec)return imgdef findPosition(self, img, handNum=0, draw=True):lmList = []# 每个点的索引和它的像素比例,若知道窗口的宽度和高度可以计算位置if self.results.multi_hand_landmarks:myHand = self.results.multi_hand_landmarks[handNum]for id, lm in enumerate(myHand.landmark):# print(id, lm)h, w, c = img.shapecx, cy = int(lm.x * w), int(lm.y * h)# print(id, cx, cy)lmList.append([id, cx, cy])if draw:cv2.circle(img, (cx, cy), 7, (255, 0, 0), cv2.FILLED)# 绘制每一只手return lmList

定义了一个名为 handDetector 的类,用于检测和跟踪手部。下面是代码的详细分析:

导入库

  • cv2: OpenCV 库,用于图像处理。
  • mediapipe as mp: 用于多媒体解决方案的库,在此用于手部检测。
  • time: 用于时间管理,但在给定的代码段中未使用。

handDetector

初始化方法 __init__

该方法用于初始化 handDetector 类的对象,并设置一些参数。

  • mode: 布尔值,控制 MediaPipe 手部解决方案的静态图像模式。默认值为 False
  • maxHands: 最大手部数量,控制同时检测的手的数量。默认值为 2
  • model_complexity: 模型复杂度,有 0、1、2 三个级别。默认值为 1
  • detectionCon: 检测置信度阈值。默认值为 0.5
  • trackCon: 跟踪置信度阈值。默认值为 0.5

此外,还创建了 MediaPipe 手部解决方案的实例,并初始化了绘图工具。

方法 findHands

该方法用于在给定图像中找到手,并根据需要绘制手部标记。

  • img: 输入图像。
  • draw: 布尔值,控制是否绘制手部标记。默认值为 True

该方法首先将图像从 BGR 转换为 RGB,然后处理图像以找到手部标记。如果找到了手部标记,并且 draw 参数为 True,则会在图像上绘制手部标记和连接线。

方法 findPosition

该方法用于在给定图像中找到手部标记的位置,并返回一个包含每个标记位置的列表。

  • img: 输入图像。
  • handNum: 手的索引,用于选择多个检测到的手中的特定一只。默认值为 0
  • draw: 布尔值,控制是否在图像上绘制每个标记的圆圈。默认值为 True

该方法遍历给定手的每个标记,并计算其在图像中的位置。如果 draw 参数为 True,则在每个标记的位置上绘制一个圆圈。

总结

handDetector 类是一个用于检测和跟踪手部的工具。它使用了 MediaPipe 的手部解决方案,并提供了在图像上绘制手部标记和连接线的功能。通过调用这些方法,你可以在视频流或静态图像中跟踪手部,甚至找到特定手部标记的位置。

VolumeHandControl.py

import cv2
import time
import numpy as np
import HandTrackingModule as htm
import math
from ctypes import cast, POINTER
from comtypes import CLSCTX_ALL
from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume
wCam, hCam = 640, 480
cap = cv2.VideoCapture(0)
# 设置摄像头的宽度
cap.set(3, wCam)
# 设置摄像头的高度
cap.set(4, hCam)
pTime = 0
tiga_img = cv2.imread("tiga.jpg", cv2.IMREAD_UNCHANGED)
detector = htm.handDetector(detectionCon=0.7)face_Cascade = cv2.CascadeClassifier("haarcascade_frontalface_default.xml")
devices = AudioUtilities.GetSpeakers()
interface = devices.Activate(IAudioEndpointVolume._iid_, CLSCTX_ALL, None)
volume = cast(interface, POINTER(IAudioEndpointVolume))
# volume.GetMute()
# volume.GetMasterVolumeLevel()
# 音量范围
volRange = volume.GetVolumeRange()
print(volRange)
# 最小音量
minVol = volRange[0]
# 最大音量
maxVol = volRange[1]
vol = 0
volBar = 400
volPer = 0
def overlay_img(img, img_over, img_over_x, img_over_y):# 背景图像高宽img_w, img_h, img_c = img.shape# 覆盖图像高宽通道数img_over_h, img_over_w, img_over_c = img_over.shape# 转换成4通道if img_over_c == 3:img_over = cv2.cvtColor(img_over, cv2.COLOR_BGR2BGRA)# 遍历列for w in range(0, img_over_w):#遍历行for h in range(0, img_over_h):if img_over[h, w, 3] != 0:# 遍历三个通道for c in range(0, 3):x = img_over_x + wy = img_over_y + hif x >= img_w or y >= img_h:breakimg[y-40, x, c] = img_over[h, w, c]return imgwhile True:success, img = cap.read()gray_frame = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)height, width, channel = img.shapefaces = face_Cascade.detectMultiScale(gray_frame, 1.15, 5)for (x, y, w, h) in faces:gw = wgh = int(height * w / width)tiga_img = cv2.resize(tiga_img, (gw, gh+gh))print(gw, gh)if 0 <= x < img.shape[1] and 0 <= y < img.shape[0]:overlay_img(img, tiga_img, x, y)img = detector.findHands(img)lmList = detector.findPosition(img, draw=False)if len(lmList) != 0:# print(lmList[4], lmList[8])x1, y1 = lmList[4][1], lmList[4][2]x2, y2 = lmList[8][1], lmList[8][2]cv2.circle(img, (x1, y1), 15, (255, 0, 255), cv2.FILLED)cv2.circle(img, (x2, y2), 15, (255, 0, 255), cv2.FILLED)cv2.line(img, (x1, y1), (x2, y2), (255, 0, 255), 3)cx, cy = (x1+x2)//2, (y1+y2)//2cv2.circle(img, (cx, cy), 15, (255, 0, 255), cv2.FILLED)length = math.hypot(x2 - x1, y2 - y1)print(length)# Hand rang 130 25# Vomume Range -65 0vol = np.interp(length, [25, 175], [minVol, maxVol])volBar = np.interp(length, [25, 175], [400, 150])volPer = np.interp(length, [25, 175], [0, 100])print(int(length), vol)volume.SetMasterVolumeLevel(vol, None)if length<25:cv2.circle(img, (cx, cy), 15, (0, 255, 0), cv2.FILLED)cv2.rectangle(img, (50, 150), (85, 400), (255, 0, 0), 3)cv2.rectangle(img, (50, int(volBar)), (85, 400), (255, 0, 0), cv2.FILLED)cv2.putText(img, f'{int(volPer)} %', (40, 450), cv2.FONT_HERSHEY_COMPLEX, 1, (255, 0, 0), 3)cTime = time.time()fps = 1/(cTime - pTime)pTime = cTimecv2.putText(img, f'FPS:{int(fps)}', (40, 50), cv2.FONT_HERSHEY_COMPLEX, 1, (255, 0, 0), 3)cv2.imshow("img", img)cv2.waitKey(1)

1. 导入必要的库

  • OpenCV (cv2): 用于图像处理,例如读取图像、转换颜色空间、绘制形状等。
  • NumPy (np): 用于数值计算,特别是线性插值。
  • HandTrackingModule as htm: 导入自定义的手部检测模块。
  • math: 提供数学功能,例如计算两点间的距离。
  • ctypes, comtypes, pycaw.pycaw: 用于与操作系统的音量控制交互。

2. 初始化参数和对象

  • 摄像头大小 (wCam, hCam): 定义摄像头的宽度和高度。
  • 摄像头 (cap): 通过 OpenCV 初始化摄像头,并设置宽度和高度。
  • 时间 (pTime): 用于计算帧率。
  • 图像叠加 (tiga_img): 读取一个图像文件,稍后用于叠加。
  • 手部检测器 (detector): 使用自定义的手部检测模块创建检测器对象,设置检测置信度为 0.7。
  • 人脸检测 (face_Cascade): 加载 OpenCV 的 Haar 级联分类器来检测人脸。
  • 音量控制 (volume): 通过 pycaw 访问系统的音量控制,获取音量范围。

3. 定义图像叠加函数 overlay_img

该函数负责将一个图像叠加到另一个图像上的特定位置。它遍历覆盖图像的每个像素,并将非透明像素复制到背景图像的相应位置。

4. 主循环

在无限循环中,代码执行以下任务:

a. 人脸检测和图像叠加

  • 读取图像: 从摄像头捕获图像。
  • 灰度转换: 将图像转换为灰度,以便进行人脸检测。
  • 人脸检测: 使用级联分类器检测人脸。
  • 调整叠加图像: 根据人脸大小调整叠加图像的大小。
  • 叠加图像: 调用 overlay_img 函数将图像叠加到人脸上。

b. 手部检测和音量控制

  • 检测手部: 调用 detector.findHands 在图像上检测并绘制手部。
  • 找到位置: 调用 detector.findPosition 获取手部标记的位置。
  • 计算距离: 计算手部标记 4 和 8 之间的距离。
  • 绘制形状: 在这两个点上绘制圆圈,并在它们之间绘制线条。
  • 音量映射: 使用 NumPy 的 np.interp 函数将手的距离映射到音量范围。
  • 设置音量: 调用 volume.SetMasterVolumeLevel 设置系统音量。

c. 可视化

  • 绘制音量条: 在图像上绘制一个表示音量级别的矩形条。
  • 计算帧率: 使用当前时间和上一帧的时间计算帧率。
  • 绘制帧率: 在图像上绘制帧率文本。

d. 显示结果

  • 显示图像: 使用 OpenCV 的 imshow 方法显示处理后的图像。
  • 等待: 通过 OpenCV 的 waitKey 方法等待 1 毫秒,这样可以实时更新图像。

总结

这个代码集成了多个功能:通过摄像头捕获图像,检测人脸并在人脸上叠加图像,检测手部并通过手指之间的距离控制系统音量,然后通过 OpenCV 实时显示结果。它结合了图像处理、人脸和手部检测、系统交互和实时可视化,展示了计算机视觉和人机交互的强大功能。

效果

image-20230821012535304
(B站演示视频)[https://www.bilibili.com/video/BV1Xu41177Gz/?spm_id_from=333.999.0.0]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/104750.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker容器:docker-compose管理创建LNMP服务并运行Wordpress网站平台

文章目录 一&#xff0e;项目环境1. 环境描述2.项目需求 二&#xff0e;部署过程1.安装Docker2.安装Docker加速器3.Docker-Compose安装部署4.准备依赖文件、配置nginx5.配置mysql6.配置php7.编写docker-compose.yml8.验证 三.容器快照&#xff0c;然后将Docker镜像打包成tar包备…

【3D激光SLAM】LOAM源代码解析--laserOdometry.cpp

系列文章目录 【3D激光SLAM】LOAM源代码解析–scanRegistration.cpp 【3D激光SLAM】LOAM源代码解析–laserOdometry.cpp 【3D激光SLAM】LOAM源代码解析–laserMapping.cpp 【3D激光SLAM】LOAM源代码解析–transformMaintenance.cpp 写在前面 本系列文章将对LOAM源代码进行讲解…

SpringCloud学习笔记(五)_Consul注册中心

本章使用的Consul版本是 1.7.2 项目架构图如下&#xff1a; 搭建服务提供者 1、新建一个maven项目&#xff08;test-springcloud-provider-payment8006&#xff09; 结构如下&#xff1a; 2、引入依赖&#xff0c;编辑pom文件 1 <!-- spring-cloud 整合 consul --> 2…

图数据库Neo4j学习五渲染图数据库neo4jd3

文章目录 1.现成的工具2.Neo4j JavaScript Driver3.neovis4.neo4jd34.1neo4jd3和neovis对比4.2获取neo4jd34.3neo4jd3的数据结构4.4Spring data neo4.4.1 定义返回数据格式4.4.1.1NeoResults4.4.1.2GraphVO4.4.1.3NodeVO4.4.1.4ShipVO 4.4.2 SDN查询解析4.4.2.1 Repo查询语句4.…

stm32的位带操作

在51单片机中&#xff0c;我们可以使用P2^1来对单片机的某一位进行操作&#xff0c;到了stm32&#xff0c;我们通过位带操作&#xff0c;将寄存器的每一位映射到一个32位的地址。如下是我查资料摘录的一些图片。 映射方式 SRAM: AliasAddr 0x22000000 (A-0X20000000)*8*4n*4…

Git 安装、配置并把项目托管到码云 Gitee

错误聚集篇&#xff1a; 由于我 git 碰见大量错误&#xff0c;所以集合了一下&#xff1a; git 把项目托管到 码云出现的错误集合_打不着的大喇叭的博客-CSDN博客https://blog.csdn.net/weixin_49931650/article/details/132460492 1、安装 git 1.1 安装步骤 1.1.1 下载对应…

Cesium常用功能封装,js编码,每个功能独立封装——第1篇

Cesium常用功能封装&#xff0c;js编码&#xff0c;每个功能独立封装&#xff0c;方便直接应用到项目中。 本脚手架项目是前后端一整套&#xff0c;包括权限管理。前端框架采用Vue3 js ElementUI-Plus&#xff0c;后端采用Spring Boot Mysql Redis&#xff0c;GIS引擎本项目…

​LeetCode解法汇总1267. 统计参与通信的服务器

目录链接&#xff1a; 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目&#xff1a; https://github.com/September26/java-algorithms 原题链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 描述&#xff1a; 这里有一幅…

学习JAVA打卡第四十一天

字符串与字符数组、字节数组 ⑴字符串与字符数组 String类的构造方法String&#xff08;char a[]&#xff09;和String&#xff08;char a[]&#xff09;,int offset,int length,分别用数组a中的全部字符和部分字符创建string对象。 String类也提供将string对象的字符序列存…

C++信息学奥赛1147:最高分数的学生姓名

#include <iostream> #include <string> using namespace std; int main() {int n;// 输入一个整数ncin>>n;cin.ignore();string arr;string str;int max0;int fen;// 循环读取n个评分和对应的字符串for(int i0;i<n;i){cin>>fen>>arr;if(fen&…

数学——七桥问题——图论

当涉及数学&#xff0c;有很多不同的话题可以讨论。你是否有特定的数学领域、概念或问题想要了解更多&#xff1f;以下是一些常见的数学领域和主题&#xff0c;你可以选择一个或者告诉我你感兴趣的具体内容&#xff0c;我将很乐意为你提供更多信息&#xff1a; 代数学&#xff…

【C++】右值引用,移动语义,完美转发

目录 右值引用移动语义拷贝构造与移动构造 万能引用与完美转发 右值引用 左值&#xff1a;可以出现在赋值符号的左边和右边&#xff0c;左值可以取地址。 右值&#xff1a;右值可以出现在赋值符号右边&#xff0c;不能出现在左边&#xff0c;右值不能取地址。 左值/右值引用就…

Vue--》打造个性化医疗服务的医院预约系统(七)完结篇

今天开始使用 vue3 + ts 搭建一个医院预约系统的前台页面,因为文章会将项目的每一个地方代码的书写都会讲解到,所以本项目会分成好几篇文章进行讲解,我会在最后一篇文章中会将项目代码开源到我的GithHub上,大家可以自行去进行下载运行,希望本文章对有帮助的朋友们能多多关…

数据库导出工具

之前根据数据库升级需求&#xff0c;需要导出旧版本数据&#xff08;sqlserver 6.5&#xff09;&#xff0c;利用c# winfrom写了一个小工具&#xff0c;导出数据。 →→→→→多了不说&#xff0c;少了不唠。进入正题→→→→ 连接数据库&#xff1a;输入数据库信息 连接成功…

wsl2中的ubuntu使用systemctl报错问题

显示如下错误&#xff1a;System has not been booted with systemd as init system (PID 1). Cant operate 原因在于wsl中的ubuntu不完整&#xff0c;手动安装systemctl貌似也不好用&#xff0c;可以使用等同的sysvinit命令 替换关系如下&#xff1a;

计算机网络(10) --- 高级IO

计算机网络&#xff08;9&#xff09; --- 数据链路层与MAC帧_哈里沃克的博客-CSDN博客数据链路层与MAC帧https://blog.csdn.net/m0_63488627/article/details/132178583?spm1001.2014.3001.5501 1.IO介绍 1.IO本质 1.如果数据没有出现&#xff0c;那么读取文件其实会被阻塞住…

openCV实战-系列教程5:边缘检测(Canny边缘检测/高斯滤波器/Sobel算子/非极大值抑制/线性插值法/梯度方向/双阈值检测 )、原理解析、源码解读

打印一个图片可以做出一个函数&#xff1a; def cv_show(img,name):cv2.imshow(name,img)cv2.waitKey()cv2.destroyAllWindows() 1、Canny边缘检测流程 Canny是一个科学家在1986年写了一篇论文&#xff0c;所以用自己的名字来命名这个检测算法&#xff0c;Canny边缘检测算法…

linux文本三剑客

linux文本三剑客 1、grep2、sed 1、grep 过滤 参数用法作用-igrep -i STRING xxx.txt从xxx.txt文件查找不区分大小写STRING-wgrep -w STRING xxx.txt精确匹配STRING-egrep -e STRING1 -e STRING2 xxx.txt查找多个STRING行-ngrep -n STRING xxx.txt查看STRING 在第几行-vgrep …

【【Verilog典型电路设计之log函数的Verilog HDL设计】】

Verilog典型电路设计之log函数的Verilog HDL设计 log函数是一种典型的单目计算函数&#xff0c;与其相应的还有指数函数、三角函数等。对于单目计算函数的硬件加速器设计一般两种简单方法:一种是查找表的方式;一种是使用泰勒级数展开成多项式进行近似计算。这两种方式在设计方…

检测输电线上的鸟巢,用SSD结合HSV色彩空间滤波器相结合的检测方法--论文中图还少一张,欠点意思

Detection of Bird Nests on Power Line Patrol Using Single Shot Detector Abstract 电力塔上鸟巢的存在对输电线路的安全稳定构成了威胁。近年来&#xff0c;利用无人机探测输电线路上的鸟巢已成为电力巡检的重要任务之一。图像处理方法从计算机视觉向功率图像识别的迁移日…