用手势识别来测试视力?试试用百度AI来实现想法

文章目录

  • ⭐ 前言
  • ⭐ 灵感来源
  • ⭐ 项目准备
  • ⭐ 项目实现
  • ⭐ 不足与展望

⭐ 前言

10月17日,以“生成未来(PROMPT THE WORLD)”为主题的百度世界2023将在北京首钢园举办。百度创始人、董事长兼首席执行官李彦宏将带来以“手把手教你做AI原生应用”为题的一小时演讲。关于大模型、AI原生应用的最新进展也将悉数亮相。

在这里插入图片描述

这是百度世界四年来首次回归线下举办,除多场主题论坛外,还带来近50项AI科技展,包括Prompt胶囊墙、AI全息数字人等,为参会者带来沉浸式AI体验。

⭐ 灵感来源

百度智能云千帆大模型平台是一站式企业级大模型平台,提供先进的生成式AI生产及应用全流程开发工具链。具有丰富的产品功能、多样的交付方案与服务、全面领先的平台功能、内置丰富优质的大模型能力、预置典型的应用范式。例如训练与推理性能方面,MLPerf榜单训练性能世界领先,千亿模型分布式并行训练加速能力和算力利用率大幅提升。

在这里插入图片描述

10月1放假期间使用手机的频率有点高,导致视力下降,打算去眼镜店重新配个眼镜。可能是学生放假的缘故,眼镜店的人还真不少,就连测视力都排起了长龙。想到百度AI提供的人体分析技术,做一款【智能视力表】应用的想法油然而生。
准备的图片如下:

在这里插入图片描述

3(Three)代表左,4(Four)代表右,上(Thumb_up)就是上,下(Thumb_down)就是下。以下就以动作代表的含义来描述。括号中的英文就是最终应用根据手势识别出的文字信息。
创意步骤:

  • 将视力表中的“E”从上到下分好组,提前录入应用;
  • 打开智能视力表,将手机固定到眼睛50cm的正前方,“上”代表左眼视力开始,“下”代表右眼视力开始;
  • 开始之后应用会按“E”从小到大的顺序来弹出,人做出上下左右的手势,应用识别之后给出是否正确的答案;
  • 如果正确就会给出同组的另一个“E”,连着两个回答正确才会通过,然后提示换另一只眼睛;如果连续的三次中有两个回答错误,就会弹出大一点的“E”,直到通过。
  • 两只眼睛测试完毕之后给出最终的结果。

⭐ 项目准备

废话不多说,搭建来一波。我用的是Python环境,学过Python的同学应该都会搭建环境了,没学过的同学可以自行百度安装(此处不是本文重点)。

(1)安装千帆SDK

pip install qianfan
注意:目前支持 Python >= 3.7版本。

(2)调用千帆SDK
步骤一,创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
步骤二,初始化AK 和 SK。
步骤三,调用SDK。

(3)视力表图片准备

如图,准备了几张示例照片,大家可以找专业的美工来定制不同的图片。

在这里插入图片描述

⭐ 项目实现

图片处理
模拟图片分组,将图片按照不同的视力数值分组

image_map = OrderedDict()
image_map[4.1] = ['4.1上.jpg', '4.1左.jpg']
image_map[5.1] = ['5.1上.jpg', '5.1下.jpg', '5.1左.jpg', '5.1右.jpg']

然后从最后一个索引开始随机弹出照片“5.1上.jpg”

在这里插入图片描述

代码如下:

def get_picture(image_map):index = len(image_map.items())key = list(image_map.keys())[index-1]value = list(image_map.values())[index-1]image = random.choice(value)return key,image

创建应用
打开人体分析页面,创建“智能视力表”应用,获取应用API Key(AK) 和 Secret Key(SK)。

在这里插入图片描述

获取签名
通过应用的API_KEY和SECRET_KEY 获取应用的 access_token

def get_access_token():url = "https://aip.baidubce.com/oauth/2.0/token"params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}return str(requests.post(url, params=params).json().get("access_token"))

手势识别
我们看到应用随机出现的“E”之后,用手势来表示看到的“E”开口方向

在这里插入图片描述

应用首先要获取到图片对应的base64编码

def get_file_content_as_base64(path, urlencoded=False):with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

根据获取的 access_token ,调用手势识别接口获取手势的意义。

def gesture():url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/gesture?access_token=" + get_access_token()payload = get_file_content_as_base64("下.jpg",True)headers = {'Content-Type': 'application/x-www-form-urlencoded','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

得到的调试结果如下:

{"result": [{"classname": "Thumb_up","top": 175,"left": 158,"probability": "0.5745857357978821","width": 397,"height": 536}],"result_num": 1,"log_id": "1711926132646834128"
}

将result中的classname取出与最早定义好的“上(Thumb_up)”对比来判断对错就可以了。

⭐ 不足与展望

我上边只是将创意进行了简单的实现,里边还有些许不完美的地方,比如视力表图片的制作,视力表图片的录入,判断连续几次成功或者失败的逻辑等都是可以继续优化的地方。希望在不久的将来我可以用上相关厂家提供的【智能视力表】。作为参会者,我非常期待在百度世界大会上看到最新的人工智能技术,希望AI科技展的AI全息数字人能带给我不一样的震撼与体验。同时也非常期待百度世界大会后将会有更多的AI原生应用涌现。最后,祝百度世界大会圆满成功。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/157087.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

校招C#面试题整理—Unity客户端

前言 博客已经1年多没有更新了,这一年主要在实习并准备秋招和春招,目前已经上岸Unity客户端岗位,现将去年校招遇到的一些面试题的事后整理分享出来。答案是笔者自己整理的不一定保证准确,欢迎大家在评论区指出。 Unity客户端岗的…

LabVIEW将视觉生成器AI用作OPC服务器

LabVIEW将视觉生成器AI用作OPC服务器 介绍如何将视觉生成器AI配置为OPC服务器,并使用共享变量共享视觉生成器AI生成的结果。OPC是一系列标准规范,定义了来自不同制造商的控制设备之间的实时数据通信。OPC数据访问通信是基于客户端服务器的通信。 共享系…

设计模式 - 状态模式

目录 一. 前言 二. 实现 一. 前言 状态模式(State Pattern):它主要用来解决对象在多种状态转换时,需要对外输出不同的行为的问题。状态和行为是一一对应的,状态之间可以相互转换。当一个对象的内在状态改变时&#x…

数学基础

线性代数 关键词:线性方程组、矩阵、增广矩阵(系数矩阵、常数项矩阵)、阶梯型矩阵、行最简矩阵、最简形矩阵、向量系统、向量加法、向量空间、基本单位向量、线性相关、线性无关、Span张成空间、 向量乘法(点积、内积、外积、叉积…

全流程GMS地下水数值模拟及溶质(包含反应性溶质)运移模拟技术深度应用

地下水数值模拟软件GMS操作为主,在教学中强调模块化教学,分为前期数据收集与处理;三维地质结构建模;地下水流动模型构建;地下水溶质运移模型构建和反应性溶质运移构建5个模块;采用全流程模式将地下水数值模…

【Overload游戏引擎细节分析】从视图投影矩阵提取视锥体及overload对视锥体的封装

overoad代码中包含一段有意思的代码,可以从视图投影矩阵逆推出摄像机的视锥体,本文来分析一下原理 一、平面的方程 视锥体是用平面来表示的,所以先看看平面的数学表达。 平面方程可以由其法线N(A, B, C)和一个点Q(x0,…

开发一个npm组件包(2)

通过vueelement 原来后台 开发npm包的时候 会遇到一下几个问题 入口文件变化为package/index 需要再配置打包方法 package.json下 "scripts": {"package": "vue-cli-service build --target lib ./src/package/index.js --name managerpage --dest…

C# 搭建一个简单的WebApi项目23.10.10

一、创建Web API 1、创建一个新的web API项目 启动VS 2019,并在“开始页”选择“创建新项目”。或从“文件”菜单选择“新建”,然后选择“项目”。 选择ASP.NET Web应用程序(.NET Framework) 2.点击下一步,到这个页面时选择Web API。 3.选中…

智能制造优化,RFID生产线管理系统解决方案

一、背景介绍 随着全球经济的发展,传统制造业面临着越来越高的成本和低利润的挑战,为了提升企业的整体利润率,优化管理流程成为必要的手段之一,在传统的制造企业中,生产线通常采用单件流生产模式,但这种模…

『heqingchun-ubuntu系统下安装nvidia显卡驱动3种方法』

ubuntu系统下安装nvidia显卡驱动3种方法 一、安装依赖 1.更新 sudo apt updatesudo apt upgrade -y2.基础工具 sudo apt install -y build-essential python图形界面相关 sudo apt install -y lightdm注:在弹出对话框选择"lightdm" 二、第一种:使用…

【网络编程】Linux网络编程基础与实战第一弹——网络基础

这里写目录标题 网络基础什么是协议典型协议 分层模型OSI七层模型TCP/IP四层模型 网络应用程序设计模式优缺点具体体现: 网络基础 什么是协议 从应用的角度出发,协议可理解为“一组规则”,是数据传输和数据的解释的规则。 假设,…

如何使用CSS和JavaScript实施暗模式?

近年来,暗模式作为用户界面选项备受追捧。它提供了更暗的背景和更亮的文本,不仅可以减轻眼睛疲劳,还可以节省电池续航时间,尤其是在OLED屏幕上。 不妨了解如何结合使用CSS和JavaScript为网站和Web应用程序添加暗模式选项。 了解暗…

来自小魔推的八大优势应用场景,这些你都了解吗?

进入2023年,大多数在做短视频宣传的实体商家都在考虑新的推广方式,而近期商家宣传工具已经逐渐被小魔推所种草,今天就把小魔推的应用场景与八大优势,统一给大家讲清楚! 1:员工专属推广码,商家可…

3.3 数据定义

思维导图: 前言: **核心概念**: - 关系数据库支持**三级模式结构**:模式、外模式、内模式。 - 这些模式中包括了如:模式、表、视图和索引等基本对象。 - SQL的数据定义功能主要包括了模式定义、表定义、视图和索引的定…

基于深度学习的“语义通信编解码技术”框架分类

目录 基于神经网络的语义提取基于神经网络的语义信源编码基于神经网络的语义信源信道联合编码基于神经网络的语义编码与数字调制联合设计参考文献 基于神经网络的语义提取 在现有的信源编码前端加上一个语义提取神经网络[53] ,如图所示。语义提取神经网络的输入是原…

基于工业5G网关的工业机器人监测控制方案

随着智能制造、自动化生产的发展进步,工业机器人的身影越来越多地出现在工厂现场,成为新型无人化、智能化生产制造的中坚力量。 工业机器人的运行伴生着海量的数据采集、传输、分析和反馈执行,因此也需要高速、低延迟的5G网络,支撑…

K8s Kubernetes Namespave Pod Label Deployment Service 实战

本章节将介绍如何在kubernetes集群中部署一个nginx服务,并且能够对其进行访问。 Namespace Namespace是kubernetes系统中的一种非常重要资源,它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离。 默认情况下,kubernetes集群中…

甘特图组件DHTMLX Gantt示例 - 如何有效管理团队工作时间?(一)

如果没有有效的时间管理工具,如工作时间日历,很难想象一个项目如何成功运转。这就是为什么我们的开发团队非常重视项目管理,并提供了多种选择来安排DHTMLX Gantt的工作时间。使用DHTMLX Gantt这个JavaScript库,您可以创建一个强大…

使用Tortoisegit界面拉起master主分支以副分支以及命令行操作

文章目录 1、Gui操作界面2、命令行操作3、合并分支到master分支上面 1、Gui操作界面 "小乌龟"通常指的是Git的图形用户界面(GUI)工具,其中比较常见的是TortoiseGit。下面是使用TortoiseGit来拉取(checkout)一…

android之TextView自由选择复制

文章目录 前言一、效果图二、实现步骤1.OnSelectListener2.SelectionInfo类3.TextLayoutUtil类4.复制弹框的xml布局5.弹框背景Drawable6.倒三角Drawable7.复制工具类8.调用 总结 前言 根据时代进步,那些干产品的也叼砖起来了,今天就遇到一个需求&#x…