“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”

整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

这几年 AI 发展和进化的速度,几乎可以用三个字来形容:杀疯了。

AI 下棋、AI 编程、AI 作画、AI 写小说、AI 预测蛋白质结构……当 AI 逐渐融入我们的生活,你是否设想过,我们的未来会如何发展?会像许多科幻电影和赛博朋克类小说中说的那样,让 AI 管理和安排我们的日常?

正如未来学家尼葛洛庞帝所说,“预测未来的最好方法,就是去创造未来”,最近国外一位小哥 RoberDam 便提前“体验”了一把他眼中的未来:“我 24 小时都用音频记录自己,然后用 AI 来处理这些信息——这会是未来吗?”
在这里插入图片描述
恰好出现的 Whisper

说来有些好笑,RoberDam 会对这个测试提起兴趣的原因之一,是 1TB 内存手机的出现:“迄今为止已经有多种型号的智能手机都具有 1TB 的内存,这能干什么呢?能全天候地记录自己的音频!”

恰好今年 9 月底,OpenAI 又发布了一个名为 Whisper 的语言 AI 模型,并声称它在英语语音识别方面的准确性已接近人类水平——RoberDam 灵光一闪,齐活儿!

“当然,这只是一个预测未来的实验,就是想看看什么可能、什么不可能。”

首先,RoberDam 买了几个麦克风带在身上,整天开着,记录他一天说的话。计划当一天结束后,他就把这些音频交由 OpenAI 的 Whisper 处理,转化为文本文件,从中提取信息。

不过,毕竟每天说的话太多,RoberDam 认为还是有必要画个重点的。因此,他创建了一个初级的“数字助理”程序,将一些重要信息通过关键词“Robert”和“End Robert”主动让其捕捉:“每次我说出‘Robert’这个词时,表明我之后所说的一切都是我对助手的命令,直到我再次说‘End Robert’,意味着命令结束。”

举两个例子:

  • 想让“数字助理”记录当天的体重,RoberDam 只需大声说:“Robert WEIGHT 60.1 end Robert。”
    在这里插入图片描述
  • 想让“数字助理”记录当天的睡眠时间,RoberDam 也只需说:“Robert SLEEP 7 hours 14 minutes end Robert。”
    在这里插入图片描述
    等一天结束,Whisper 将当天的音频处理并转换为文本后,“数字助理”程序就会负责搜索命令的文本并提取关键词之间的所有内容。

足以确保 100% 的隐私,还等同于“模拟 API”

说到这里,可能有些人会觉得,何必如此麻烦搞个“数字助理”,直接用 Google 的“OK GOOGLE”和苹果的“Siri”不香吗?

以“OK GOOGLE”为例,RoberDam 总结了三点局限:

  • 命令受限:不够了解“OK Google”可以交互式地做什么,对它的一些命令只会作为 Google 搜索返回。

  • 不够隐私:你对“OK Google”说的命令和完整音频文件都会一起保存在 Google 中,搜索历史记录就能查到。你不仅能听到自己的声音,旁边人的对话可能也会被录进去。

  • 同步处理:当你向 Google 发送命令时,通常会有几秒的延迟,可能用于搜索也可能在辨别你的命令,而这会分散你的注意力,让你关注它的反馈,有时候这比你直接手动操作还慢。

基于这三点,RoberDam 自己创建的“数字助理”就很好地解决了这些问题:

  • 命令受限:命令由 RoberDam 自己决定,他知道“数字助理”能处理什么。

  • 不够隐私:所有音频只有 RoberDam 一人拥有,确保 100% 隐私。

  • 同步处理:它是异步处理的,所以 RoberDam 不用费心盯着它有没有及时响应,想到了就说出命令,一天结束后它会自己处理。

另外值得一提的是,这个“数字助理”某种程度上来说等同于一个“模拟 API”——一些电子设备原本只能与手机连接,但现在 RoberDam 通过将音频交由“数字助理”处理,间接实现了多个设备之间的通信。

目前还存在一些弊端

总之,某一天 RoberDam 终于克服了羞耻心,时不时就对着麦克风喊着:“Robert……end Robert”,最终他明确向“数字助理”说的所有信息都可以集中在日常控制面板中:
在这里插入图片描述
不仅如此,RoberDam 表示,为了进一步了解当天的日程,还可以创建“我的日记”以生成当天所做事情的摘要:
在这里插入图片描述
不过,RoberDam 也承认,这种 AI 处理方式还存在一些弊端。例如:现阶段的“数字助理”并不会提醒他当天必须要做的事情;由于是异步处理的,只有到晚上才知道那些命令有没有被成功处理;还有在别人眼里,他的“自言自语”可能有点奇怪。

除了 RoberDam 主动要求“数字助理”处理的信息,他日常被麦克风记录下来的其他音频也有作用。以下是他目前正在进行的尝试:

  • 关系温度计

根据对夫妻关系的研究,通过研究夫妻对话,特别有关夫妻之间积极和消极互动,可以以高达 90% 的准确率预测夫妻是否要离婚:https://www.gottman.com/blog/the-magic-relationship-ratio-according-science/

  • 情绪分析

尝试按小时进行情绪分析,以便能够确定白天产生最大压力、放松、快乐和悲伤的情况。

  • 全面回顾

等于一个搜索引擎,可以完整回顾他对某个话题的确切看法。

对于 RoberDam 以上的研究,许多网友表示新奇和肯定:

“一般来说,我们不希望被别人监视,但我们自己活动的管理记录可能非常有价值。”

“好主意,以后可以搜索日志以供参考,因为它都是文本。”

那么,你认为这种形式会是 AI 发展的未来吗?

参考链接:

  • https://roberdam.com/en/wisper.html

  • https://news.ycombinator.com/item?id=33608437

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39100.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

抗住百万人直播、被联合国推荐,起底飞书技术演进之路!

你去公司上班了吗? 随着近期接连不断传来的好消息,上班族开始关心起这问题来。但许多企业在相关政策的号召下,仍采取远程办公的方式。据艾媒咨询的数据显示,今年春节期间中国远程办公企业规模超过 1800 万家,远程办公人…

听8位淘宝工程师聊聊他们眼中的元宇宙 | 1024特辑

我们是技术工作者,致力于思考和创新,用代码去解决生活中的问题,为消费者的快乐和幸福而努力。 今天是1024程序员节,我们邀请了8位不同岗位的淘宝工程师,聊了聊他们眼中的未来消费生活,他们眼中的元宇宙&…

数字人的新革命,BAT的“冲高”战场

配图来自Canva可画 ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。 2月份,岭南股份、风语筑、开普云等10多家公司&#xf…

数字化直播沟通

目录 前言 一、介绍数字化(5-10分钟) 主播提问(王): 回答(向): 什么是数字化? 好的,我们来看下一个问题:什么是数字化转型? 好的…

部署React项目到云服务器(步骤清晰)

部署React项目到云服务器 前言(下载相关软件)开始部署服务器以及域名购买实例远程连接 或 XShell 7 远程连接服务器XShell 7 连接云服务器操作使用FileZilla将 打包后的 build(可能你们那里打包是dist)文件塞到服务器文件夹感谢看到这里!点个关注再走啊!…

云服务安装配置git

搭建网站,我们有时候是直接从github拉取代码,这就要配置git。 云服务器搭建网站还需要一些其他的基础配置,前面我们已经讲到,未进行配置的可以参考之前的文章。 云服务基本配置:腾讯云服务器小白保姆级教程_大鹏bmfm…

【回答问题】ChatGPT上线了!写出coco数据集的图像分类训练和预测函数代码?

写出coco数据集的图像分类训练代码 好的,我会尽力写出图像分类训练代码。首先,你需要准备好 COCO 数据集的图像和标签,并将其转换成适合你模型使用的格式。其次,你需要选择一个图像分类模型,并定义好模型的结构。接下来,你可以使用 PyTorch 等深度学习框架来实现训练代码…

服务器访问次数限制实现的思路

有个每分钟只能访问10次接口的需求,想到2个实现方法分享给大家,希望可以一起进步,一开始的思路是记录下用户访问的时间和次数,然后在写一些方法实现。最先想到是记录在数据库里,刚好数据库有记录访问日志的表&#xff…

若登陆账号错误次数过多则限制登陆一定时长(自定义时长)

前提须知:登陆拦截器此演示:登陆5次错误 则限制登陆时长5秒 业务层实现方法 在控制器中使用此方法,若判断用户账户和密码是否正确则返回用户对象定义session中的key为’count’定义一个日期对象存放时间,时间是当前时间的后5秒,将此时间存放进session中key为’time’中若登陆…

根据IP限制指定时间内访问接口的次数

在网上看见有人问一个问题:想限制一下某个接口在一分钟之内只能被同一个ip请求指定次数。 方法比较多,这里就用Redis做一个简单的限制。 大致逻辑: 把请求的ip作为key,请求次数作为value存储在Redis里面,第一次请求value为1&am…

openAI--十拳剑助你做AI时代的弄潮儿

AI它厉害(diao)吗? 最近大家玩chatgpt还好吗? 有被它的恋爱情商暴击到吗? 有没有觉得那在leetcode上所向无敌的技巧都是浮云吗? 今天,我为大家带来十个很好的AI平台。这一篇先介绍一下&…

虚拟数字人和GPT-4的结合,能否迎来新爆发?

最近,ChatGPT一直在互联网上狂飙,从 去年11月底推出到月活过亿,仅花了2个月的 时间。它既可以拥有美国的医学牌照、参加司法考试,又能写小说、编代码、查资料,还可 以陪你闲聊,你问它什么话题,它…

在一个领域里面发光、发热

大家好,这期分享一些好的公众号给家,希望对你以后成长路有所帮助,据我了解,公众号的作者都是在自己的领域里很努力,发光、发热,大家喜欢的都可以关注一下,支持一下,在此感谢大家的认…

低代码平台助力AIGC:让人工智能技术更加普及和高效

今年人工智能的风是吹了一波又一波,从ChatGPT到文心一言,短短四个多月的时间,GPT完成了从3.0、3.5到4.0的推新发布,一步步刷新了民众对于目前人工智能技术发展的认知底线,让人们直观地感受到了人工智能技术的蓬勃发展。…

开源大语言模型LLMs汇总

向AI转型的程序员都关注了这个号👇👇👇 大语言模型 大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,…

黑群辉DSM 6.2.3 系统安装

修改引导程序配置文件 首先我们可以使用ChipEasy芯片无忧查找U盘的VID和PID。 以下图为例,这个U盘的VID是0930,PID是6544。 请记录好这两个值。下面修改配置文件需要用到。 逻辑盘符 : E:\ 此分区容量: 7.2G 设备ID : VID 090C PID 2000 设备序列号: …

群晖外网访问之安装神卓互联NAS插件的方法(保证成功)

PS:本教程适合x86架构也适合ARM架构的群晖系统,白群晖和小猫盘均可以。 最近买了一台群晖DS218play,家里还有一台DS918,总共算是有两台NAS了,但是苦于只能在家里的局域网访问,想实现在外面比如公司访问家里…

玩转群晖NAS套件系列五:Moments的安装与使用保姆级教程!

本章总结: 上一章节我们讲解《玩转群晖NAS套件系列四:Audio Station安装使用保姆级教程!》,此教程堪称史上手把手的保姆教程,受到广大网友的一致好评。 Moments是群晖专为多媒体文件量身定做的,它可以识别你…

2022年10月 cpolar软件实现内网穿透连接群晖NAS

前言 1.cpolar简介 cpolar是一款拥有远程控制和内网穿透功能的软件。而且还可以监控端口的HTTP请求,利用实时的cpolar Web UI开发者工具,让您调试代码更容易。您可以监听所有隧道上的HTTP消息包,分析消息包的结构内容,找出问题点…

黑群晖6.1.4-DS3615xs_65217安装使用教程、含下载资源、亲测有效

安装所需硬件条件 黑群晖号称无硬件要求,就像java号称一次编译到处执行一样,打广告骗新手而已,别太当真。 首先,正版的群晖,你肯定就得用他们自己的硬件,该硬件有绝对合适的硬件环境,还有产品识…