“Hey Siri” 背后的黑科技大揭秘!

作者 | Vishant Batta

译者 | 苏本如,责编 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

以下是译文: 

如今苹果手机可随时检测并回答“Hey Siri”命令,有人可能会想,它是不是在随时记录我们的日常生活对话呢?

答案是否定的!

“Hey Siri”能做的并没有我们想象的那么多!

让我们先看看“Hey Siri!”的发展历史吧。

“Hey Siri!”作为预装语音助手Siri的附加功能,于2014年9月在iOS 8中发布。然而,在iOS 9(2015年9月)它升级了,只允许被用来识别用户的个性化语音。

而谷歌助手在2013年之前就已经有了这个功能,但是,在你的屏幕关闭时,它不能支持这个功能。即使是现在,很多安卓手机都不支持这个功能。

让我们来比较一下用户体验,如下图所示:

常规方式 vs.“Hey Siri!”

常规方式是这样的:用户拿起手机 -> 长按home按钮 -> Siri启动。

而在“Hey Siri!”方式下,用户只需说“Hey Siri!”,无需按键,就可以让Siri启动。

这样有一个好处是,因为当用户不方便使用手操作(如开车时),用户也可以使用手机的一些功能。 

Siri的前身:M9运动协处理器

 

“协处理器”可以理解为具有有限功能和电池消耗的辅助处理器,用来支持即使在手机空闲(屏幕关闭)时也可以访问“始终开启”的功能。

M9运动协处理器是苹果协处理器家族的第三代产品,于2015年9月与iPhone 6s一起推出。得益于它基于ARM、64位的A9片上系统所具有的强大的处理能力和微量的电池消耗,这个苹果手机著名的“唤醒”功能才得以实现。M9有时也被人们描述为“嵌入到运动协处理器上的始终在线处理器(AOP - Always on Processor)”

“Hey Siri!”是如何工作的?

当你第一次启用这个功能时,它会提示你说一定次数的“Hey Siri!”。然后你的iPhone将这些声音保存起来,用做将来识别你的个性化声音的“触发键”。

这个个性化的“触发键”保存在协处理器中,即使你的手机处于空闲状态,协处理器也会侦听(而不是听到)落到麦克风上的所有声音。 

因此,当声音落在麦克风上,并与“触发键”匹配成功后,协处理器就会激活主处理器开始录音(就像我们长按主屏幕按钮打开Siri一样)。然后,该录音被发送到服务器,并以类似于每个语音助手的过程进行解释。

想象一下这个过程,就好像你拥有数千把钥匙,你正试图找到哪把钥匙正好匹配你要打开的锁。

这里要注意的重要一点是,AOP处理器(A9)总是在“侦听”而不是“听”用户的声音。它就像一个婴儿,他一直在听人说话,但无法完全处理听到的话,只有在呼唤他的名字时,它才会被触发而开始工作。

M9运动协处理器于2015年9月与iPhone 6s一起发布。但正如本文一开始所说,“Hey Siri!”功能早于2014年9月就已经推出。那么,早期版本的iPhone 是如何能够“被动地”侦听呢?

好吧,如果你碰巧认识一个拥有iPhone 6的人,你可以检查一下“Hey Siri!”。即使你的手机处于空闲状态(屏幕关闭),该功能也只能在充电模式下工作。正如我们可以简单地推断的那样,它仅仅能在充电时获取少量的额外电量。看看下面iPhone 6 Siri的设置截图: 

“Hey Siri!”背后的算法

用户的声音会以0.01秒为一帧的单位被采样下来,然后每次将20个这样的帧(0.2秒),连续输入到深度神经网络(DNN),神经网络将这些声音转换为概率密度函数,当该函数值超过最低阈值时,从而激活主处理器。

DNN训练

这里的阈值不是固定不变的,而是根据背景噪声而变化。因此,为了清楚地理解,你可以说DNN每时每刻都在计算阈值。

此外,当第一次记录你的语音样本并生成“触发键”时,实际上是在训练该DNN并定义权重以计算概率。

对于不同的口音,DNN的训练是不同的。例如,“Hey Siri”的发音有点像美国英语中的“Serious”,只是它没有标点符号。而“Hey Siri!”中的“ i”发音长度不同,而且带有一个惊叹号。

“Hey Siri”背后的数学计算

下面的内容是为所有机器学习爱好者准备的:)。

这是深度神经网络(DNN)模型:

DNN模型

总的概率函数如下:

其中:

  • F(i,t)是模型中状态i的累计分数

  • q(i,t)是声学模型的输出。这个输出是语音类别的对数分数,它与时间t附近给定语音模式的第i个状态有关

  • s(i)是和留在状态i相关的开销

  • m(i)是从状态i继续向后移动的开销

这里的s(i)和m(i)与定义“触发键”时训练的权重相关,可以这样假设:

s(i)- 由“触发键”的单个帧决定,取决于音调、音量等参数。

m(i)- 取决于“触发键”的频率,或简而言之速度,以及s(i)参数改变的大小和快慢。

例如:m(i)和 s(i)对埃米纳姆(Eminem)和阿黛尔(Adele)来说是非常不同的,因为埃米纳姆唱得更快(实际上要快得多),同时变化较小。而阿黛尔唱得更慢些,而且变化更大。

考虑到处理功率和电池消耗,对于协处理器(32层)和主处理器(192层),DNN中的层级大小是不同的。

“Hey Siri!”这项功能虽然没有被广泛宣传,但它却是朝着自动化和提高移动电话易用性迈出的革命性一步。它也可以被视为一个很好的例子,说明一个小小的改变如何对用户体验产生巨大的影响,以及这些小小的革命性改变有时需要进行广泛的研究。

原文链接:https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

本文为 CSDN 翻译,转载请注明来源出处。

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE
中国顶尖的技术社区们在一个群里,会聊什么…京东智能内容创作算法的演进与实践:基于关键词自动生成摘要马化腾、马云并列成为中国首富;百度回应“将上线电商直播”;.NET 5 Preview 2 发布 | 极客头条程序员职场背锅甩锅指南警惕!新骗术出现:这些虚假二维码生成器已成功盗取 4.6 万美元!“出道” 5 年采用率达 78%,Kubernetes 的成功秘诀是什么?
  • 你点的每个“在看”,我都认真当成了AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44609.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGLM-RM(Reward Model)实现代码逐行讲解

这里我们尝试通过RM训练让模型学会从给定上下文中提取信息,来进行RM模型的实践。你可以从下面链接获取代码 GitHub - Pillars-Creation/ChatGLM-RLHF-LoRA-RM: ChatGLM-6B添加了RLHF的实现,以及部分核心代码的逐行讲解 ,实例部分是做了个新闻短标题的生成…

wochao!chatgpt 真的可以提高我的工作效率!

正确使用指南: https://www.explainthis.io/zh-hant/chatgpt/guidehttps://github.com/PlexPt/awesome-chatgpt-prompts-zh/

小马识途谈如何借助chatGPT提升工作效率

ChatGPT这么聪明会不会大家都要失业了?不用担心!ChatGPT不是跟人来抢饭碗的,是来帮助人提升工作效率的,当然也可以是一个很好的学习工具,小马识途营销顾问认为网络营销从业者可以利用它快速提升自己的能力。 1. 学习新…

优思学院|质量人如何利用ChatGPT提升工作效率?

在许多人知道怎么用ChatGPT之后,不少人开始思考如何利用这个工具来提升自己的工作效率。 质量人也不例外,在质量管理中,有许多重复的任务需要人手去完成。这些任务可能包括检查文档、审查流程、跟踪错误等。这些任务既耗费时间,又…

比起“一键脱衣”,这种 AI 技术更可怕

随着科技的发展,现在出现了许多高科技产品,比如 AI、ChatGPT 等等。 可以说 AI 颠覆了我们的认知,因为许多事情我们都可以交给人工智能去做,比如写程序、写论文、写PPT、绘图等等~ 目前我们打开一些软件后,…

如约而来 | 成功举办T00Ls论坛 “ 群英荟萃论技,共赴振兴网安 ”

沙龙概要 6月10日,在苏州希尔顿酒店T00ls论坛线下技术沙龙苏州站如期举办 。近年来,网络安全问题日益引起人们的关注,全球网络安全形势不断变化。为此,土司论坛联合百达智慧举办了一场以“低调求发展,潜心习安全”为主…

GPT神奇应用:辅助背单词

正文共 993 字,阅读大约需要 3 分钟 外语学习者必备技巧,您将在3分钟后获得以下超能力: 辅助背单词 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | nanako 编辑者 | Linda ●此图片…

Facebook如何安全度过新账号阶段不被封号

Facebook如何安全度过新账号阶段不被封号 今天来说下Facebook如何安全度过新账号阶段不被封号,这个应该是好多朋友都非常关心的问题,因为只有账号不被封后面才能有更多操作,加小组也好,创建主页管理主页也好,推广也好&…

ChatGTP--事务是否生效?

项目场景: 由于最近在做一个项目的cola代码改造,所以由于cola需要在 service 和 dao层中间加一层>>> gateway,和springcloud中的gateway不一样,这个仅仅是抽象了一层; 思考: 现在我的事务 依然在service中开启,那么我的事务经过了一个gateway后,再次调用d…

注册Tinder账号攻略 -- 解决账号被禁

Tinder是世界上最受欢迎的交友APP。每天,在Tinder上注册的左右滑动次数超过16亿次,匹配次数超过3000万次。Tinder的用户量每天都在不断的扩大,流量也自然更大,所以Tinder也成为了很多跨境电商朋友们推广的方式之一。 不过众所周知…

面向知乎的个性化推荐模型研究论文

面向知乎的个性化推荐模型研究 《面向知乎的个性化推荐模型研究》论文是大二暑假完成的,已投到《计算机应用与软件》中文核心期刊。论文主要对知乎提出一种基于混合算法的个性化推荐模型。论文基于用户模型、问题模型、推荐模型构建推荐系统,提出Person…

推荐只需要精确?顶会论文看多样化推荐研究趋势

©作者 | 林子涵 来源 | RUC AI Box 本文主要基于最近 2 年发表在顶级会议(KDD、SIGIR、WWW、CIKM、IJCAI等)的多样化推荐相关论文,介绍最新的研究工作,梳理其背后的技术脉络,同时在最后总结多样化推荐中潜在的研究…

【论文阅读】社交网络传播最大化问题-02

Leader-Based Community Detection Algorithmin Attributed Networks 以往leader-aware算法创新点问题定义定义基础概念定义创新概念 模型构造第一步:确定每个节点的leader第二步:合并小分支以得到最终结果 实验数据集人工合成网络现实世界的网络 基线方…

https://zhuanlan.zhihu.com/p/20397902

首发于 前端外刊评论 关注专栏 登录 写文章 Webpack傻瓜指南(二)开发和部署技巧 张轩 9 个月前 注意啦:如果你还没有看第一篇 请先看下第一篇的基础知识:Webpack傻瓜式指南(一) - 前端外刊评论 - 知乎专栏…

继续!从顶会论文看对比学习的应用!

公众号作者上杉翔二 悠闲会 信息检索 整理 | NewBeeNLP 上周,我们分享了对比学习的一些应用,从顶会论文看对比学习的应用! 本篇博文将继续整理一些对比学习的应用,主要是集中在MoCo和SimCLR等模型。 1、LCGNN MoCo架构…

知乎采集问答栏目以及文章教学

知乎文章质量怎么样 现在的年轻人越来越多的人喜欢知乎了,因为知乎平台的质量越来越高,我自己就比较喜欢使用知乎,很多问题我喜欢看知乎的答案,不喜欢看其它平台的,原因就是因为知乎的答案更权威,更靠谱一…

短视频自导自演,分镜脚本如何设计

前言: 在进入主题之前我先强调一下,这篇完全是番外,小编的主线还是以编码类为重的文章。至于原因有两点,一是距离上次更新到现在已经快一个月,所以先总结一下近期玩的东西补上。二是我确实正在再次尝试做短视频&#x…

制作钓鱼网站(克隆网站)

克隆网站主要指模仿相关网页的页面格式,自己制作页面颜色、标识均与原网站视觉效果相同,且域名差别不大,被用于谋取利益的非法网站。 利用social-enginner-toolkit(set)可制作多种钓鱼网站,下面是其中一种:获取用户凭证信息的网站。 准备:kali linux(IP192.168.xx…

Thonny编辑器介绍

相信很多在学习python的朋友都纠结,到底选哪个编辑器(IDE)好呢,下面给大家推荐一个编辑器————Thonny: Thonny编辑器是一个很简洁的编辑器,UI设计也很好看,虽然很简洁,但是它的功…

使用SniperPhish进行电子邮件钓鱼

关于SniperPhish SniperPhish是一款专为渗透测试人员以及安全研究专家设计的网络钓鱼研究工具,其主要目的是为了通过模拟真实场景中的网络钓鱼攻击来提升用户的安全保护意识。SniperPhish可以将研究人员创建的钓鱼网站和钓鱼邮件绑定在一起,以实现集中跟…