人工智能增强的音频和聊天协作服务

论文标题:AI-enabled Audio and Chat Collaboration Services

中文标题:人工智能增强的音频和聊天协作服务

作者信息:

  • Emil P. Andersen, Norwegian Defence Research Establishment (FFI), Kjeller, Norway
  • Jesper R. Goksør, Sindre E. Halleraker, Ole P. Myhre, Tobias S. Omdal, Herman H. Seternes, Leander S. Thorstad, Norwegian University of Science and Technology (NTNU), Trondheim, Norway
  • Frank T. Johnsen, Simen Kvalø, Norwegian Defence Research Establishment (FFI), Kjeller, Norway

论文出处:MILCOM 2024 - 2024 IEEE Military Communications Conference (MILCOM)


摘要
本文研究了一种改善战术边缘使用的音频服务的方法,这些服务适用于网络环境被描述为断开、间歇和有限(DIL)的情况。研究者们考虑使用较新的人工智能语音识别系统,即Vosk和OpenAI的Whisper,为服务带来转录功能。将语音音频转换为文本将减轻网络的负担,这在DIL环境中是一个重要的考虑因素。为了展示改善音频服务的方法,研究者们引入了一个语音转文本(STT)应用程序,该程序实现了Vosk和Whisper作为转录模块。应用程序构建在包含转录、消息传递和VoIP的技术栈上。除了具有STT功能外,还实现了反向功能:文本转语音模块,将文本消息转换回音频供接收者收听。论文讨论了应用程序的设计和架构,详细说明了如何使用一套技术构建技术栈,这些技术有利于在DIL网络中使用的音频服务。应用程序需要在资源稀缺的战术边缘工作,因此评估了实现的转录器的资源使用情况。最后,研究了两种转录器的准确性,以评估它们提供的服务质量。

引言
北约IST-201研究任务组专注于在DIL环境中支持服务的互操作性及其对将来联合任务网络(FMN)的潜在影响。IST-201特别关注通信和协作服务,旨在改善北约任务中多国合作的战术层面。本文讨论了人工智能(AI)如何用于改善音频服务,改善包括三个方面:首先,使用AI进行音频处理可以获得STT功能,便于与基于文本的即时消息服务集成;其次,结合基于文本的聊天和生成性AI,可以获得文本到语音(TTS)功能,允许文本消息被朗读给接收者;第三,传输文本而非音频需要更少的数据,显著减轻网络负载。本文讨论了一个实际的设计和实现,该实现已作为开源发布,以惠及研究社区。

相关工作
IST-201的目标是研究改善和支持DIL环境中协作服务的方法。该组的第一篇论文[4]专注于实验基于AI的音频编解码器,以改善战术边缘的音频服务质量(QoS)。实验表明,谷歌开发的基于AI的音频编解码器Lyra[5]与目前北约低数据速率通信中使用的标准化编解码器表现相似。这些实验在理想条件下进行,并进行了客观测试。为了更好地理解基于AI的音频编解码器(如谷歌Lyra)的好处,可能需要在更现实的网络环境中进行实验,并进行主观测试。IST-176组专注于将物联网(IoT)应用于使用标准化技术连接武装力量[6]。IST-150组则致力于提供战术级别服务的建议,他们确定发布/订阅协议MQTT是战术联合系统中交换信息的合适选择[7]。本文扩展了如何使用MQTT作为音频服务间数据交换的方法。

技术
应用程序的技术栈由三个部分组成:转录、消息传递和VoIP,大部分使用Python构建,部分使用C++。设计围绕几个基础组件:首先是Linphone音频软件用于VoIP,因为它已经在IST201的第一轮实验中使用过,其中评估了编解码器[4]。其次是MQTT作为发布/订阅组件,实现消息传递并将软件跨网络集成。剩余的软件实现列表见表I。大多数代码用Python编写,Linphone Python库用C++编写。

系统架构
为了提供应用程序架构的概览,使用了4+1架构视图模型。这个模型包括逻辑视图、过程视图、开发视图和物理视图。

 

 

测试
测试部分包括STT性能测试、功能测试、资源测试和准确性测试。STT性能测试比较了Vosk和Whisper两个STT组件的准确性、错误率和速度。功能测试验证了应用程序的各项功能和非功能需求。资源测试旨在找到应用程序在有限环境下运行所需的最小资源量。准确性测试评估了Linphone集成与转录器的协同工作情况。网络影响测试展示了通过STT技术,可以将原始音频的数据负载从每秒千比特减少到每秒比特的范围,显著释放网络带宽。

结论和未来工作
本文研究了在DIL环境中使用生成性AI支持协作音频服务的方法。研究了三种改善音频服务的方式:使用Vosk和Whisper自动语音识别系统实现音频服务的STT功能;提供TTS功能,允许转发的文本被朗读给接收者;发送文本消息减少了网络负载。Vosk和Whisper在测试中均显示出有希望的结果。在资源使用方面,Vosk比Whisper表现更好,但应考虑对不同语言的支持。两种自动语音识别系统均显示出良好的准确性,表明它们与Linphone音频软件集成良好。通过IST-201,目标是继续实验,以改善战术边缘的协作服务,包括音频服务。本文开发的应用程序满足了许多推进这项工作所需的功能和非功能需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/491361.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

构建树莓派温湿度监测系统:从硬件到软件的完整指南

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

企业内训|阅读行业产品运营实战训练营-某运营商数字娱乐公司

近日,TsingtaoAI公司为某运营商旗下数字娱乐公司组织的“阅读行业产品运营实战训练营”在杭州落下帷幕。此次训练营由TsingtaoAI资深互联网产品专家程靖主持。该公司的业务骨干——来自内容、市场、业务、产品与技术等跨部门核心岗位、拥有8-10年实战经验的中坚力量…

vue+node+mysql8.0,详细步骤及报错解决方案

1.下载需要安装的插件 下载express npm install express下载cors,用于处理接口跨域问题 npm install cors下载mysql npm install mysql 2.配置服务器 可以在vue项目的src同级创建server文件夹(这里的位置可随意选择) 然后依次创建&#…

C语言刷题(2)

5. 题目描述 KIKG今年5岁了,已经能够认识100以内的非负整数,并且并目能够 进行 100 以内的非负整数的加法计算,不过,老师发现KIK在进行大于等于100的正整数的计算时,规则如下: 1.只保留该数的最后两位,例…

360智脑张向征:共建可信可控AI生态 应对大模型安全挑战

发布 | 大力财经 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京市举办的通明湖人工智能开发与应用大会上,360智脑总裁张向征以“大模型安全研究与实践”为主题&…

相机标定中的相机模型

一、相机标定基本原理 在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,必须建立摄像机成像的几何模型,这些几何模型参数就是摄像机参数。在大多数条件下这些参数必须通过实验与计算才能得到&…

【大模型微调学习6】-实战Hugging Face Transformers工具库

【大模型微调学习6】-实战Hugging Face Transformers工具库 实战Hugging Face Transformers工具库1.Hugging Face Transformers 库是什么?2.HF Transformers 核心模块学习:Pipelines(1)如何下载hugging face的数据集和模型权重&am…

【AIGC进阶-ChatGPT提示词副业解析】探索生活的小确幸:在平凡中寻找幸福

引言 在这个快节奏的现代社会中,我们常常被各种压力和焦虑所困扰,忘记了生活中那些细小而珍贵的幸福时刻。本文将探讨如何在日常生活中发现和珍惜那些"小确幸",以及如何通过尝试新事物来丰富我们的生活体验。我们还将讨论保持神秘感和期待感对于维持生活乐趣的重要性…

使用 rvest 包快速抓取网页数据:从入门到精通

介绍 随着大数据和数据科学的迅速发展,互联网数据的抓取已经成为重要的信息获取手段之一。网页抓取(Web Scraping)可以帮助我们自动化地从网页中提取有价值的数据,应用广泛,包括新闻热点分析、金融数据采集等。在本篇…

在 DDD 中优雅的发送 Kafka 消息

前言 1:host 映射 下载 SwitchHost 配置一个映射地址。点击 添加一个本地环境,之后配置你的 IP kafka 这样就能找这个地址了。IP 为你本地的IP,如果是云服务器就是公网IP地址 使用docker-compose.yml进行一键部署安装 version: 3.0 # docker-compose …

c#上班,上学,交通方式接口

using System;namespace INTERFACE {abstract class Person{public string Name { get; set; }public int Age { get; set; }public virtual void ShowInfo(){Console.WriteLine($"Name: {Name}, Age: {Age}");}}// 接口 IWorkinterface IWork{void GotoCompany();}/…

Halcon 直连相机

一、相机类别 1、大恒示例 DahengCAM 使用大华相机,待补充... 2、大华例程 GigEVision 2.1 关键算子 1、查询指定图像采集接口信息。 info_framegrabber (GigEVision, info_boards, Information, ValueList) 获取结果 unique_name:302fac01cd50_MachineVision_MVA5B57MG20…

RPC 服务与 gRPC 的入门案例

RPC 协议 RPC(Remote Procedure Call Protocol)即远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务的协议,允许一个计算机程序可以像调用本地服务一样调用远程服务 。 RPC的主要作用是不同的服务间方法调用就像本地…

机器学习-正则化技术

文章目录 拟合正则化正则项L1 正则化(Lasso)L2 正则化(Ridge) 多元线性回归的正则化回归形式代码 拟合 过拟合:参数(特征)过多(理解为考虑很多因素)或者说过多专注于原来的训练数据…

数据可视化-2. 条形图

目录 1. 条形图适用场景分析 1.1 比较不同类别的数据 1.2 展示数据分布 1.3 强调特定数据点 1.4 展示时间序列数据的对比 1.5 数据可视化教育 1.6 特定领域的应用 2. 条形图局限性 3. 条形图图代码实现 3.1 Python 源代码 3.2 条形图效果(网页显示&#…

【DBeaver】连接带kerberos的hive[Apache|HDP]

目录 一、安装配置Kerberos客户端环境 1.1 安装Kerberos客户端 1.2 环境配置 二、基于Cloudera驱动创建连接 三、基于Hive原生驱动创建连接 一、安装配置Kerberos客户端环境 1.1 安装Kerberos客户端 在Kerberos官网下载,地址如下:https://web.mit.edu/kerberos…

SpringBoot+IDEA工具框架快捷键+注解备注

快捷键 ctrlr 搜索替换 ctrlshiftr 全局搜索和替换 altfninsert 自行补全函数和构造函数等 ctrlaltt 可以尝试添加东西 可以加try catch ctrlshiftt 生成接口对应的测试函数 ctrlh 可以查看当前类的一个继承和实现关系 大写CD回车 ide会自动生成cdata区的标签 x…

AI前沿分析:ChatGPT搜索上线,Google搜索地位能否守住?

名人说:莫听穿林打叶声,何妨吟啸且徐行。—— 苏轼 Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 引言:AI与搜索领域的激烈博弈一、ChatGPT搜索的优势是什么?1. 实时信息获取&#xf…

ScottPlot学习的常用笔记

ScottPlot学习的常用笔记 写在前面版本的选择第一个障碍:版本问题。 ScottPlot4.0的官方网站与示例官方起始页cookbook5.0Demo4.1 demo以4.1为例,解压和运行如下: 下载源代码和编译先说结论: 写在前面 之前调研的TraceCompass&am…

客户端(浏览器)vue3本地预览txt,doc,docx,pptx,pdf,xlsx,csv,

预览文件 1、入口文件preview/index.vue2、预览txt3、预览doc4、预览pdf5、预览pptx6、预览xlsx7、预览csv 1、入口文件preview/index.vue 预览样式&#xff0c;如pdf 文件目录如图所示&#xff1a; 代码如下 <template><div class"preview-wrap" ref&…