亚马逊云科技生成式AI技术辅助教学领域,近实时智能应答2D数字人搭建

 早在大语言模型如GPT-3.5等的兴起和被日渐广泛的采用之前,教育行业已经在AI辅助教学领域有过各种各样的尝试。在教育行业,人工智能技术的采用帮助教育行业更好地实现教学目标,提高教学质量、学习效率、学习体验、学习成果。例如,人工智能技术可以帮助教师更好地管理课堂,更好地识别学生的学习需求,更好地提供个性化的学习内容,更好地评估学生的学习成果,更好地提供学习支持。此外,人工智能技术还可以帮助教育行业更好地实现自动化,提高教育行业的效率和效果。总之,人工智能技术在教育行业的采用将会带来巨大的变化,为教育行业带来更多的发展机遇。

 亚马逊云科技也一直致力于提供更方便快捷,功能更强大的AI服务来支持教育行业客户的技术创新和业务创新。特别是Amazon Transcribe、Amazon Polly、Amazon Textract、Amazon Translate、Amazon Personalize、Amazon Rekognition、Amazon SageMaker等产品分别从自然语言处理、图形图像处理、模型研发部署等方面为教育行业提供了强有力的技术支持。

 本文结合Amazon Transcribe、Amazon Polly,以及OpenAI的大语言模型和D-ID.com公司的2D数字人生成技术,介绍实现一个演示用的可语音对话的智能2D数字人设计的服务和具体的实现过程。

 方案架构

 为了能在一个统一的用户界面呈现语音输入、语音输出,以及2D数字人视频播放的整体效果,本方案选择Gradio框架实现WebUI的功能。呈现的WebUI如下:

 用户可以通过直接输入文字内容或者使用麦克风输入语音,文字内容会使用Langchain附加上一定的上下文后送给OpenAI的GPT接口调用,语音输入会先调用Amazon Transcribe服务进行语音到文字的转换。经过GPT接口返回的文字内容,会调用AWS Polly形成语音文件,同时语音文件会作为D-ID.com提供的API渲染出2D的动态视频在前端自动展示和播放。

 本方案中语音输入,语音输出,文字响应生成,以及数字人视频生成的功能都可以做自由的组合和替换。特别是对于OpenAI接口的调用可以置换为对自部署的大语言模型的调用,同时2D数字人视频的生成也可以考虑其他类似服务,如Heygen等。

 具体实现

 语音输入部分

 Amazon Transcribe支持实时转录语音(流式传输),也可以转录Amazon S3存储桶中的语音文件(批处理)。Transcribe支持多达几十种的不同国家的语言。

 Transcribe的实时转录能力非常的强大,处理流数据的同时,不断的利用之前的上下文进行结果的实时矫正,可以通过下面这个截图看到Transcribe实时转录输出的效果:

 应答内容生成部分

 在本方案里,应答内容的生成借助Langchain这个开源框架,调用基于OpenAI的coversation接口,同时使用memory库对对话的上下文做了5轮保存。在实际的客户场景里,可以考虑更丰富的方式来规范回复的内容的有效性和客观性。

 比如可以使用Langchain的对话模版来对大模型的角色进行预设,或者使用Amazon Kendra,Amazon Opensearch这样的知识库构建和检索引擎,来进一步限制大模型应答的内容范围。

 语音输出部分

 Amazon Polly可以将文本转化为逼真的语音。它支持多种语言并且包含各种逼真的声音模拟,也包含中文普通话语音的模拟。

 可以构建支持语音并能用于各种位置的应用程序,并选择适合客户的声音。Amazon Polly也支持语音合成标记语言(SSML),它是一种基于XML的W3C标准标记语言,适用于语音合成应用程序,且支持使用通用SSML标签进行断句、重音和语调。自定义Amazon SSML标签提供了独特的选项,例如,能够以新闻播音员说话风格发出某些声音。这种灵活性能够帮助您创建逼真的语音,从而吸引并维持听众的注意力。

 在本方案中,可以使用Polly的实时语音生成接口,使用了中文普通话发音的VoiceID:Zhiyu,同时对特定的字符的发音做了定制化,这也是Polly一个非常有用的功能(Lexion)。

 2D数字人视频的生成部分

 这里可以使用一个外部第三方的SaaS服务。该服务由D-ID.com公司提供,对应的API可以直接接收文本输入和一张人脸图片来生成对应的动态播报视频,也可以接受语音文件加图片作为输入。

 当你输入文本的时候,该API接口可以选择制定AWS的Polly服务中的不同的Voice ID来自动为你合成语音。

 在本方案中,想体现中文的语音输出的效果,但是D-ID的API接口中暂时无法直接为中文文本指定中文的Voice ID。所以选择了先用Polly的API生成语音,再把语音和图片传送给D-ID的接口生成视频。

 总结

 今年是AIGC爆发的一年,也是教育行业所在的客户看到行业拐点的一年。在这个关键的历史性节点上,亚马逊云科技愿意和客户一起面对这些新的机会和挑战,以客户的需求为导向,帮助客户抓住AI浪潮带来的红利。

 目前除了本文展示的2D数字人的方案,亚马逊云科技也可以帮助客户提供基于3D数字人或者其他3D数字形象的直播,互动等方案。同时亚马逊云科技也会引入更多的技术合作伙伴如跃迁引擎来丰富整个数字人,数字形象直播、点播、互动等场景的解决方案,助力更多的教育行业客户加速AI技术的采用和落地。

 原发标题:近实时智能应答 2D 数字人搭建

 原发链接:https://aws.amazon.com/cn/blogs/china/near-real-time-intelligent-answering-2d-digital-human-construction/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/119226.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++基础语法——多态

目录 1.什么是多态? 2.多态的定义与实现 ①多态的构成条件 ②虚函数 ③虚函数的重写 1.协变 2.析构函数的重写 ④final和override 1.final 2.override ⑤重载、重写(覆盖)与重定义(隐藏)的区别 3.什么是抽…

QTday3

1.保存文件 void Widget::on_save_clicked() {QString filename QFileDialog::getSaveFileName(this,"选择文件","F:\\study\\huaqing\\save","Text File(*.txt)");if(filename.isNull()){QMessageBox::information(this,"提示",&qu…

苹果macOS 14开发者预览版Beta 7发布 新增超过100款视频壁纸和屏保

8 月 31 日,苹果向 Mac 电脑用户推送了 macOS 14 开发者预览版 Beta 7 更新(内部版本号:23A5337a),本次更新距离上次发布隔了 8 天。 苹果发布 Beta 7 更新的同时,还发布了第 6 个公测版,正式版…

性能测试(测试系列10)

目录 前言: 1.什么是性能测试 1.1生活中遇到的软件问题 1.2性能测试的定义 1.3性能测试和功能测试有什么区别 1.4性能的好坏的区分 1.5影响一个软件性能的因素 2.为什么要进行性能测试 3.性能测试常见的术语以及衡量指标 3.1并发 3.2用户数 3.3响应时间 …

神经网络--感知机

感知机 单层感知机原理 单层感知机:解决二分类问题,激活函数一般使用sign函数,基于误分类点到超平面的距离总和来构造损失函数,由损失函数推导出模型中损失函数对参数 w w w和 b b b的梯度,利用梯度下降法从而进行参数更新。让1代表A类,0代…

关于异或的小疑惑

今天写c&#xff0c;当我写出如下代码时&#xff0c;编译器报错了 #include<bits/stdc.h>using namespace std;int main(){int a1,b3,c2,d6;// cout<<(a^b^c^d)<<endl;cout<<a^b^c^d<<endl;return 0; } D:\sublineText\demo\demo.cpp: In funct…

C++ do...while 循环

不像 for 和 while 循环&#xff0c;它们是在循环头部测试循环条件。do…while 循环是在循环的尾部检查它的条件。 do…while 循环与 while 循环类似&#xff0c;但是 do…while 循环会确保至少执行一次循环。 语法 C 中 do…while 循环的语法&#xff1a; do {statement(s…

煤矿监管电子封条算法

煤矿监管电子封条算法基于yolov5网络模型深度学习框架&#xff0c;先进技术的创新举措&#xff0c;煤矿监管电子封条算法通过在现场运料运人井口、回风井口、车辆出入口等关键位置进行人员进出、人数变化和设备开停等情况的识别和分析。YOLO检测速度非常快。标准版本的YOLO可以…

MongoDB 的简介

MongoDB 趋势 对于 MongoDB 的认识 Q&A QA什么是 MongoDB&#xff1f; 一个以 JSON 为数据模型的文档数据库一个以 JSON 为数据模型的文档数据库文档来自于“JSON Document”&#xff0c;并非我们一般理解的 PDF&#xff0c;WORD谁开发 MongDB&#xff1f; 上市公司 MongoD…

SpringBoot核心原理与实践

第一章、SpringBoot简介 1、入门案例 2、官网创建压缩包程序 注意使用的版本pom文件中java --> 1.8、 springboot --> 2.5.0 3、SpringBoot快速启动 运行程序--找引导类 换技术、加技术--加starter 第二章、基础配置 1、配置文件格式 《1、端口号配置》 《2、将目录文…

DOCKER 部署 webman项目

# 设置基础镜像 FROM php:8.2-fpm# 安装必要的软件包和依赖项 RUN apt-get update && apt-get install -y \nginx \libzip-dev \libpng-dev \libjpeg-dev \libfreetype6-dev \&& rm -rf /var/lib/apt/lists/*# 安装 PHP 扩展 RUN docker-php-ext-configure gd …

leetcode 84. 柱状图中最大的矩形

2023.8.30 本题和接雨水 有点类似&#xff0c;依旧用双指针来解。但是本题要记录的是当前柱子 左右两侧第一个小于该柱子的索引。将其保存在两个数组中&#xff0c;最后再求最大面积。代码如下&#xff1a; class Solution { public:int largestRectangleArea(vector<int&g…

STM32f103入门(10)ADC模数转换器

ADC模数转换器 ADC简介AD单通道初始化代码编写第一步开启时钟第二步 RCCCLK分频 6分频 72M/612M第三步 配置GPIO 配置为AIN状态第四步&#xff0c;选择规则组的输入通道第五步 用结构体 初始化ADC第六步 对ADC进行校准编写获取电压函数初始化代码如下 Main函数编写 ADC简介 ADC…

AcWing 4405. 统计子矩阵(每日一题)

如果你觉得这篇题解对你有用&#xff0c;可以点点关注再走呗~ 题目描述 给定一个 NM 的矩阵 A&#xff0c;请你统计有多少个子矩阵 (最小 11&#xff0c;最大 NM) 满足子矩阵中所有数的和不超过给定的整数 K ? 输入格式 第一行包含三个整数 N,M 和 K。 之后 N 行每行包含 …

软件过程模型

软件过程模型 软件过程模型习惯上称为软件开发模型&#xff0c;它是软件开发全部过程、活动和任务的结构框架。典型的软件过程有瀑布模型、增量模型、演化模型&#xff08;原型模型、螺旋模型&#xff09;、喷泉模型、基于构件的开发模型和形式化方法模型等。 1. 瀑布模型 瀑…

DRM全解析 —— ADD_FB(2)

接前一篇文章&#xff1a;DRM全解析 —— ADD_FB&#xff08;1&#xff09; 本文参考以下博文&#xff1a; DRM驱动&#xff08;四&#xff09;之ADD_FB 特此致谢&#xff01; 上一回围绕libdrm与DRM在Linux内核中的接口&#xff1a; DRM_IOCTL_DEF(DRM_IOCTL_MODE_ADDFB, d…

抽象轻松c语言

目 c语言 c程序 c语言的核心在于语言&#xff0c;语言的作用是进行沟通&#xff0c;人与人之间的信息交换 人与人之间的信息交换是会有信息空白&#xff08;A表达信息&#xff0c;B接受信息&#xff0c;B对信息的处理会与A所以表达的信息具有差距&#xff0c;这段差距称为信…

同步与互斥

硬件指令 实现互斥&#xff1a;硬件指令&#xff0c;硬件实现的原子操作&#xff0c;不会被打断 tsl指令和xchg指令 当前指令执行完&#xff0c;才会检测中断 If the signal comes while an instruction is being executed, it is held until the execution of the instructi…

使用SpaceDesk连接平板作为电脑副屏详细步骤教程

文章目录 下载安装PC端安装安卓端安装 配置步骤PC端安卓端 连接 SpaceDesk官网链接https://www.spacedesk.net/ (应该是需要科学上网才能进入) SpaceDesk它可以连接安卓,苹果的平板,手机等&#xff0c;也可以连接其他可以打开网页&#xff08;HTML5&#xff09;的设备。 这里我…

JDK8安装及系统变量配置(包含错误处理)

jdk安装 一.下载JDK二.安装三.配置系统变量四.可能遇到的问题1.显示已经安装的问题 或者 读取注册表项值失败2.原因3.解决 五.验证安装成功 一.下载JDK JDK下载官网 二.安装 双击之后&#xff0c;一直下一步就ok 三.配置系统变量 1.找到配置系统变量的地方 2.配置系统变…