AR眼镜语音转文字实测!效果像开了弹幕,对话记录可保存回溯

8ecb875d75b58850ce1933a85a068f3b.png

本文经量子位(公众号 ID: QbitAI)授权转载,转载请联系出处

本文约1300,建议阅读5分钟

本文介绍了AR眼镜语音转文字实测的功能!

AR眼镜字幕功能效果到底咋样?

实测来了!

不光语音能实时转成文字,还能分辨说话人主体,甚至还能把文字记录都保存好,方便以后回溯。

2022年,一家来自英国的一家AR初创公司,大开了个脑洞。

他们把语音转文字的功能,搬到了AR眼镜上,让转好的文字能快速直接呈现在人们眼前。

主要目的就是为了服务听障人群。

毕竟在很多情况下,即便有助听器的帮助,听障人群还是需要有文字作为参考信息。

而通过AR眼镜的方式,生成字幕能直接呈现在人们眼前,接收信息能更加方便和迅速。

具体效果如何?往下看~

e6ba03043026cece22df0b581e339c77.gif


有种开弹幕的感觉

体验的效果大概如下左图所示,会有一个对话框,里面将标注说话者及对应语音内容。

体验者西蒙·希利(Simon·Hill)说,在刚戴上AR眼镜听对方说话时,它的文字转录准确率非常不错。

效果有点像平常用语音实时转文字的功能,在语音结束前,文本内容会一直有调整,最后等一段话说完,才会有个最终版本。

be3a06b5e668f13ad726ee2a1685188f.png

不过在对话情景下,两个人多聊一会,语音转写的速度会变慢一些。

XRAI内部人士表示,这是因为语音转文字的计算在云端上进行,有延迟很正常。

而且不止是实时转录,这个功能还支持搜索历史记录,在AR眼镜端和手机端都能搜,有点聊天软件那感觉了。

录下的语音在转写完成文字后,就会被立即删除,XRAI还强调这些文本也是只有用户自己可见。

如果没有AR眼镜,也能在手机上体验XRAI的功能。

有网友也戴着眼镜体验了一下,表示这个功能在转语音的速度上还是很快的,而且在AR界面里的呈现也不错。

0197c76937ff0aa187a126c591ea9b0d.png

缺点是需要选一下要识别的语言种类,在这里她测试的是法语。

495b722bdf6a68deb92bf8058d048ffe.gif

除此以外,西蒙大哥在体验中,也发现了一些小问题。

比如按照XRAI的设想,听障人士使用这一功能,需要一副AR眼镜+一款安卓手机。

是的,该应用暂时还不支持iOS系统。

而两台设备加起来,拿着比较麻烦,尤其是在AR眼镜重量还没有降下来的情况下,听障人士要戴人工耳蜗、还要戴一副AR眼镜,舒适度肯定不高。

西蒙表示:

我无法想象如何整天带着他们。

以及语音转文字的效果,西蒙也提出了一点质疑。他表示,对于听障人士来说,需要文字作为参考信息的情景,很可能是比较嘈杂的场所,这对于语音识别的算法提出一定要求。

而他在体验XRAI这项功能时,公司CMO特意把他领到了比较安静的环境演示,并坦言在嘈杂环境中的效果还不是很好。

1f34240d341bc01c800d99aa9d693045.png

以及在价格上,XRAI上线的AR眼镜是Nreal,国内售价2299元起,海外售价为379美元。

XRAI的服务也并不完全免费,基础免费版只能保存1天的对话记录,另外还有20美元/月、50美元/月两种套餐可以选择。

如果选择50美元/月的套餐,在基础功能上还将加一个人工智能助手。

但西蒙表示,作为一个还在起步阶段的产品,有缺点可以理解。

更关键的是,他们从无障碍的角度出发想要帮助听障人群,这一想法还是令人感到欣慰。

背后公司XRAI Glass

提供这项服务的公司来自英国,名叫XRAI Glass。

公司CEO为丹·斯卡夫(Dan Scarfe),他曾在高知特微软业务组(Cognizant Microsoft Business Group)担任首席问题官。

CTO蒂姆·斯卡夫(Tim Scarfe),获得了机器学习专业博士学位,也曾在微软工作。

按照领英显示,该公司在今年7月才刚刚成立。

合作的AR眼镜厂商Nreal于2017年成立,创始人徐驰曾在Magic Leap工作过。

85008e488c1b5de4ccfe2ccd8374a33b.png

参考链接:
[1]https://www.wired.com/story/xrai-glass-caption-ar-glasses-first-look/
[2]https://www.auganix.org/xrai-glass-launches-its-real-time-augmented-reality-closed-captioning-app-to-users-globally/

编辑:王菁

校对:林亦霖

a39537abe3debc179c4e39e4901d45f2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35954.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【facenet人脸识别】利用LFW数据集进行人脸比对测试

近期,做人脸识别项目,用到了facenet这个开源框架,并使用LFW人脸数据集进行了测试。现将该过程总结如下: 1 facenet简介 GitHub地址:GitHub - davidsandberg/facenet: Face recognition using Tensorflow facenet的原…

识别人脸关键点给人脸加眼镜特效

作者:busyboxs 本项目主要使用的 API 是人脸关键点检测。因为给人脸加眼镜特效其实只需要眼睛相关的关键点即可,所以本项目为了简单,使用的是百度 AI 人脸检测 API 中的 landmark4(左眼中心、右眼中心、鼻尖、嘴中心)…

开发之路,穷且益坚,不坠青云之志(入门开发者共勉)

引言 2023毕业季,距离笔者毕业已过2年有余。 互联网从业环境由盛转衰,互联网从业者数量剧增,市场竞争异常激烈,原本的利润空间被不断挤压,以至于很多开发者对互联网已经失去了信心与激情。 互联网的市场份额依旧是占…

【数据架构系列-03】数据仓库、大数据平台、数据中台... 我不太认同《DataFun数据智能知识地图》中的定义

关注DataFunTalk有2年多了,DataFun确实像创始人王大川讲的那样,践行选择、努力和利他原则,专注于大数据、人工智能技术应用的分享与交流,秉承着开源开放的精神,免费的共享了很多有营养的行业实践专业知识,对…

VS2022配置OpenGL+GLAD

Glew(The OpenGL Extension Wrangler Library)是对底层OpenGL接口的封装,可以让你的代码跨平台。Glad与Glew作用相同,可以看作它的升级版。 Freeglut(OpenGL Utility Toolkit)主要用于创建并管理窗口和Ope…

chatMOSS的使用方法

1、开发者们在VScode界面找到应用商店扩展 2、搜索ChatMoss 并安装 3、CtrlF9快速唤醒使用 4、注册登录 字符数会更多(填:zgy999139.com 双方都会获得可用字符数)。 笔者体验用来写点小东西确实体验,加快效率,大家可以…

CoinMarketCap推出加密资产数据APP

点击上方 “蓝色字” 可关注我们! 暴走时评: 加密货币数据提供商CoinMarketCap推出了其首款Android应用程序并改进了其Apple iOS产品。 值得注意的是,该应用程序提供了CoinMarketCap网站上尚未提供的功能,包括投资组合跟踪&#x…

加密货币--Cryptocurrency

原文链接 Ever since Nas Daily’s video came out about how I earned over $400,000 with less than $10,000 investing in Bitcoin and Ethereum, I’ve been getting hundreds of questions from people around the world about how to get started with cryptocurrency i…

GIBXChange上线MT5交易平台:MT5 LP MAM+5A对冲模式强势来袭

引子 人类近代史就是一部金融的发展史,尤其21世纪更是金融的时代。金融市场的流动性带动着社会资源更广维度流动分配。交易的全球化,推动着地区资源和生产资料的全球化分配。尤其以外汇、期货市场的发展,携带着全球最大规模资金流通量的交易盘口,重构着全球金融市场的新秩…

Ubcoin市场:加密货币-商品交易平台

Ubcoin是一个区块链平台,使用例如亚马逊、Etsy和eBay所用的线上市场模型,打造全球首个真正有别于传统的加密货币交易平台。Ubcoin用户仅需售卖真实商品即可换取加密货币,并且能够使用加密货币购买商品,整条链上无需法定货币的参与…

印度尼西亚通过加密货币期货交易规则

点击上方 “蓝色字” 可关注我们! 暴走时评: 印度尼西亚贸易部下属的商品期货交易监管机构(Bappebti)于周一公布了该国期货交易所的加密资产交易新规则,规定加密货币期货交易所必须进行登记,获准后才能运营…

放弃几百万年薪的后续

厂长:和洋哥认识很久了,最近他从网易离职,放弃了几百万的年薪,全身心的投入AIGC,刚开始我得到这个消息很是诧异,在详谈之后才明白了洋哥背后的思考逻辑,刚好今天他也写了篇文章做了解释&#xf…

盘点一个AI你画我猜的小工具

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 寻声暗问弹者谁,琵琶声停欲语迟。 大家好,我是Python进阶者。 一、前言 前几天在【ChatGPT&AI破局俱乐部】知识星球发现了一…

不愧是比亚迪!

最近这段时间,因为我自己准备买车嘛,然后先后去试驾了比亚迪汉、小鹏P7i、蔚来ET5、智己LS7这几辆车,接下来想分4篇文章依次给大家分享一下这四个品牌的车试驾体验。 比亚迪汉 小鹏P7i 蔚来ET5 这四个品牌总共花了三天时间,也算是…

使用AI,做抖音漫画短视频,4个人2天的工作量,1人仅需5小时即可完成

3 天前 ChatGPT云炬学长 ​关注 ​之前仅用一个多月就在抖音涨粉25w,虽然涨粉速度还可以,但账号至少需要4~5个人,(其中包括1个文案,2个漫画师,一个剪辑师,一个运营)才能保证日更。…

雷军也入局了...

风口理论的发明者雷总最近也杀入大模型&AI领域了,早在10多天前雷军在微博就发过一段话: 这段话其实已经暗示了雷军和他的小米已经在研发大模型产品了,相信要不了多久小米的大模型产品就会面世。 这下国内几乎所有互联网巨头都杀入了大模型…

阿里放大招了...

昨天阿里放了个大招:宣布自研大模型“通义千问”发布,不过目前只邀请企业用户进行体验测试,用户可通过官网申请,符合条件的用户可参与体验。 我没还没拿到邀请码,申请了体验资格正在排队中。但看完第三方的评测还是充满…

我干了一件大事!

最近读者朋友们应该都知道我做了一个付费社群,马上就要突破10000人了。 我一口气推了10多篇文章,都是关于我的AI星球:ChatGPT破局俱乐部。有些读者抱怨我:洋哥是不是在割韭菜? 另一方面因为我这个星球发展实在太快了&a…

转身卷OpenAI,这才真的香!

ChatGPT爆火后,OpenAI逐渐进入人们的视野。据levels.fyi显示,最近OpenAI给AI/ML岗(L5)开出$900k的高薪👇 反观其他大厂lowball的现状,转身卷OpenAI,是真的香! HC多、面试难&#xff…

自注意力机制(Self-Attention)

目录 一、注意力机制和自注意力机制的区别 二、引入自注意力机制的目的 三、Self-Attention详解 3.1 单个输出 3.2 矩阵形式 四、Multi-head Self-attention 五、Positional Encoding 六、Self-Attention和RNN的区别 一、注意力机制和自注意力机制的区别 Attention机制与…