【大模型】AI视频课程制作工具开发

1. 需求信息

1.1 需求背景

讲师们在制作视频的过程中,发现录制课程比较麻烦,要保证环境安静,保证录制过程不出错,很容易反复重复录制,为了解决重复录制的工作量,想通过 ai 课程制作工具,来解决这些问题。

2. 业务分析

2.1 视频生成过程

  1. 视频素材来源: 首先由产品研发团队的产品、架构师协助提供基础资料,根据产品材料来输出ppt文档;
  2. 素材上传:使用的授课课件材料,如:PPT 或 PDF(也有doc课件大纲、课程详细内容,现在我们基本上用不上),上传到AI视频制作工具平台;
  3. 素材文本提取:a. 提取素材文本内容(ppt内容+备注);b. 将素材截图成图片;
  4. 演讲稿制作:将第3步提取的文字,交由混元来生成讲课稿,这里可以人工校验句子合理性;
  5. 演讲稿合成语音:将第4步生成的讲课稿合成音频文件;
  6. 合成视频:将音频、图片合成视频。

其中,2~6可以合成一步,就是在有讲课稿的情况下,直接提取备注合成视频。

2.2 视频课程权限

  1. 数据隔离和安全:课程以空间的概念相互隔离, 用户使用OA登录系统后,默认不可见其他同事创建的空间,只能看到自己创建的空间。
  2. 数据共享协作:空间创建者默认拥有空间管理权限,可以邀请其他同事协作;
  3. 超级管理员:超级管理员课件所以课件,超级管理员不可配置,只能研发修改数据库角色。

2.4 发音修正

部分专业英文缩写发音不准的问题,可以通过SMAL标记语言修正发音,因此提供一个发音修正管理菜单,用户可以自定义发音部分单词。

2.5 用户登录限制

  1. 系统接入OA登录,只能在内网访问;
  2. 给用户添加权限,必须在用户登录过系统之后,才能添加(必须用户登录之后,系统才会记录用户信息)。

3. 技术设计

3.1 视频制作流程

目前我们的技术方案是腾讯云语音合成(TTS)+视频合成(云点播)+混元大模型来搭建的。支持2种方式来生成视频:

  1. 无讲课稿的情况下,通过解析读取ppt文档的内容和备注, 调用混元大模型来生成演讲稿, 演讲稿生成语音, 再截取PPT的图片,来合成视频;
  2. 有讲课稿的情况下, 支持一件生成讲课视频。

整体流程入下图所示:

在这里插入图片描述

3.2 发音纠正

由于课程内容主要是腾讯云的产品培训,因此有很多腾讯云相关的专有英文名词和缩写,腾讯云TTS对这些词的合成不够理想,不过提供了SSML 标记语言,用来自定义纠正发音,如上图发音纠正部分。

3.3 相关技术工具

  1. 腾讯云对象存储cos,制作课程过程中的各种素材,包括:文件、图片、音频、视频等都是存储在cos里面
  2. 数据万象: PPT转PDF使用的是cos 自带的数据万象能力,可以把ppt转换为pdf格式文件
  3. 开源工具pptx:可以读取ppt的演讲稿的文本和备注;
  4. 开源工具PyPDF2:可以把pdf文件截取成图;
  5. 混元大模型:提供AIGC能力,写入prompt讲提取的课件文本生成讲课稿;
  6. 语音合成(TTS):使用腾讯云TTS将文本生成生动的语音;
  7. 视频合成:腾讯云点播将音频和图片按时间线生成视频;
  8. 后端web框架:fastapi,一个python的http服务框架;
  9. 前端框架:内部开源的TDesign。

4 问题

4.1 语音合成(TTS)

目前业务方使用反馈最多的是腾讯云TTS的语言合成效果问题,例如:

  1. 专有名词发音不正确;
  2. 同一个语音类型发音过程中切换;
  3. 中、英切换过程中出现不同发音。

针对上述问题已经在尝试2个不同的解决方案:

  1. 推动腾讯云TTS优化:已经拉通TTS产品团队在支持,并逐步在收集发音的base case;
  2. 调研开源TTS语音合成大模型,目前已知的ChatTTS 和阿里开源的CosyVoice 都有非常流畅的效果;
  3. 第三方云平台的TTS 实现,目前国内讯飞的合成效果也不错。

4.2 讲课稿生成

讲课稿的生成过程比较耗时,一个课程小节经常长达100+页ppt,每一页都需要AIGC生成后,还需要人工精调。

针对这个问题可以考虑:

  1. 增强知识库,随着课程制作素材的累积,我们将形成一个优质的知识库,可以提供大模型非常好的知识增强;
  2. 个性化微调大模型:随着数据的积累,可以使用混元一站式训练平台,对针对性微调个性化模型专门用来优化演讲稿生成。

附件

主要python工具包

  • fastapi==0.111.0 // fastapi web框架
  • python-pptx==0.6.23 // pptx 内容读取
  • pdf2image==1.17.0 // pdf转图片
  • tencentcloud-sdk-python==3.0.1132 // 调用腾讯云api

文本提取

from pptx import Presentation
import PyPDF2
import tempfile,io,requests
from dependencies import FILE_NAME_MAX_LENGTH, new_file_name
from logger_config import logger
from repo import schemas
from typing import List
from fastapi import HTTPException
from starlette.status import HTTP_400_BAD_REQUEST, HTTP_200_OK# 提取ppt中的正文和备注
def extract_info_from_ppt(ppt_url: str) -> List[schemas.PPtTextNode]:# 下载PDF文件logger.info('开始下载ppt文件: ' + ppt_url)response = requests.get(ppt_url)if response.status_code != HTTP_200_OK:logger.error("file download failed : " + ppt_url)raise HTTPException(status_code=HTTP_400_BAD_REQUEST,detail="文件下载失败",)pdf_bytes = response.content# 将字节流转换为文件对象file_obj = io.BytesIO(pdf_bytes)# 加载 PowerPoint 文档presentation = Presentation(file_obj)# 备注内容slide_infos : List[schemas.PPtTextNode] = []# 遍历幻灯片for slide in presentation.slides:# 获取幻灯片上的文本slide_text = ""for shape in slide.shapes:if hasattr(shape, "text"):slide_text += shape.text# 获取幻灯片的备注notes_slide = slide.notes_slide# 获取备注文本notes_text = notes_slide.notes_text_frame.text# 添加到备注列表slide_infos.append(schemas.PPtTextNode(text=slide_text, note=notes_text))return slide_infos
# 提取pdf中的内容
def extract_info_from_pdf(pdf_url: str):# 下载PDF文件logger.info('开始下载PDF文件: ' + pdf_url)response = requests.get(pdf_url)if response.status_code != HTTP_200_OK:raise HTTPException(status_code=HTTP_400_BAD_REQUEST,detail="文件下载失败",)pdf_bytes = response.content# 将字节流转换为文件对象file_obj = io.BytesIO(pdf_bytes)# 加载 PDF 文件pdf_reader = PyPDF2.PdfReader(file_obj)# 获取 PDF 文件的页数num_pages = len(pdf_reader.pages)# 遍历 PDF 文件的每一页slide_infos : List[schemas.PPtTextNode] = []for page_num in range(num_pages):# 获取当前页page = pdf_reader.pages[page_num]# 提取页面内容content = page.extract_text()# 添加到备注列表silde_info = schemas.PPtTextNode(text=content, notes="")slide_infos.append(silde_info)return slide_infos

pdf转图片

import os
from logic.qcloud import cosclient
import tempfile
from logger_config import logger
import requests,re
from pdf2image import convert_from_bytes
from typing import List
from repo import schemas
import tracemalloc
import configfrom dependencies import FILE_NAME_MAX_LENGTH, new_file_name# 定义一个函数来验证文件名是否安全
def is_safe_filename(filename):# 使用正则表达式来匹配合法的文件名return bool(re.match(r'^[\w\-.]+$', filename))def pdf_url_to_images(pdf_url: str, space_id: int)->List[schemas.PPtToImage]:# 下载PDF文件logger.info('开始下载PDF文件: ' + pdf_url)response = requests.get(pdf_url)pdf_bytes = response.content# 将PPT文件的每一页保存为图像output_folder = tempfile.mkdtemp()# 将PDF文件转换为图像tracemalloc.start()# 获取内存分配情况的快照if config.get_settings().is_tracemalloc == True:snapshot1 = tracemalloc.take_snapshot()images = convert_from_bytes(pdf_bytes)if config.get_settings().is_tracemalloc == True:snapshot2 = tracemalloc.take_snapshot()# 比较两个快照,找出内存分配差异top_stats = snapshot2.compare_to(snapshot1, "lineno")# 打印内存分配差异的统计信息for stat in top_stats[:10]:logger.info("读取文件后,内存分配差异: %s" % stat)total_size = sum(stat.size for stat in snapshot2.statistics("lineno"))# 将字节转换为合适的单位(如 MiB)total_size_mib = total_size / (1024 * 1024)logger.info(f"读取文件后,总内存分配: {total_size_mib:.2f} MiB")#image_urls = []file_infos : List[schemas.PPtToImage] = []for index, image in enumerate(images):image_path = os.path.join(output_folder, f"page_{index + 1}.png")image.save(image_path, "PNG")# 上传图像到COSurl = ""file_name = os.path.basename(image_path)image_key = new_file_name(file_name, space_id)if len(image_key) > FILE_NAME_MAX_LENGTH:image_key = image_key[:FILE_NAME_MAX_LENGTH]cosclient.put_object_file(image_path, image_key)url = cosclient.get_presigned_url(image_key)file_infos.append(schemas.PPtToImage(image_name=image_key, image_url=url))logger.info(f"Uploaded {image_path} to {image_key}")# 删除临时文件夹for image_filename in os.listdir(output_folder):# 验证文件名是否安全if is_safe_filename(image_filename):# 如果文件名安全,则删除文件os.unlink(os.path.join(output_folder, image_filename))else:# 如果文件名不安全,记录日志并跳过删除操作logger.warning(f"Unsafe filename detected: {image_filename}. Skipping deletion.")os.rmdir(output_folder)return file_infos

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/451735.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据轻松上云——Mbox边缘计算网关

随着工业4.0时代的到来,工厂数字化转型已成为提升生产效率、优化资源配置、增强企业竞争力的关键。我们凭借其先进的边缘计算网关与云平台技术,为工厂提供了高效、稳定的数据采集与上云解决方案。本文将为您介绍Mbox边缘计算网关如何配合明达云平台&…

【CS常见问题】你用的是VS2019,最高支持.NET5.0,但是项目将.NET6.0设为目标无法运行,怎么办?

.NET版本问题 报错示例报错分析最简单的方法步骤 报错示例 严重性 代码 说明 项目 文件 行 禁止显示状态 错误 NETSDK1045 当前 .NET SDK 不支持将 .NET 6.0 设置为目标。请将 .NET 5.0 或更低版本设置为目标,或使用支持 .NET 6.0 的 .NET SDK 版本。 ABFview C:\x…

◇【论文_20150225】 DQN_2015(nature) 〔Google DeepMind〕

整理代码 1:DQN CartPole_v1.ipynb https://www.nature.com/articles/nature14236 Human-level control through deep reinforcement learning 文章目录 摘要主体:要做什么 如何做的 要点keypoints实验 与 评估2 个指标和 各游戏的最好方法比较t-S…

【Linux网络编程】Socket编程--UDP(第一弹):实现客户端和服务器互相发送消息

🌈个人主页: 南桥几晴秋 🌈C专栏: 南桥谈C 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据…

.Net自动更新程序GeneralUpdate,适用于wpf,winfrom,控制台应用

GeneralUpdate是基于.net framwork4.5.2开发的一款(c/s应用)自动升级程序。 第一个版本叫Autoupdate 有人会奇怪为什么会改名称,稍微解释一下是因为在nuget上有重名的项目再者就是新版本更新功能不仅限于wpf程序的更新。 将更新的核心部分抽…

《Knowledge Perceived Multi-modal Pretraining in E-commerce》中文校对版

文章中文化系列目录 文章目录 文章中文化系列目录摘要CCS概念:关键词:1 引言2 相关工作2.1 多模态预训练2.2 知识图谱增强的预训练模型 3 方法3.1 模态编码层3.1.1 图像初始特征3.1.2 文本初始特征3.1.3 知识的表面形式特征 3.2 模态交互层3.2.1 图像模态…

day02 -- docker

1.docker的介绍 Docker 是一个开源的应用容器引擎,基于 Go语言 并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使…

填充与步幅

一个3x3的卷积核对6X6的图像进行卷积,得到一个4x4的图像 此时,生成图像长或宽 ln-f1 使用过滤器对图像进行卷积出现的问题有: 每次卷积后图像都会变小,当网络过深的时候,就会遗失许多像素 过滤器对边缘像素访问仅一…

基于C#开发游戏辅助工具的Windows底层相关方法详解

开发游戏辅助工具通常需要深入了解Windows操作系统的底层机制,以及如何与游戏进程进行有效交互。本文将基于C#语言,从Windows底层方法的角度来详细讲解开发游戏辅助工具的相关技术和概念。 一、游戏辅助工具的基本概述 游戏辅助工具,通常被称…

网络学习笔记

一、网络的结构与功能 网络的鲁棒性与抗毁性 如果在移走少量节点后网络中的绝大部分节点仍然是连通的,那么就该网络的连通性对节点故障具有鲁棒性 网络上的动力学 动力系统:自旋、振子或混沌的同步、可激发系统 传播过程:信息传播与拥堵…

git命令使用一览【自用】

git常见操作: git initgit remote add master【分支名字】 gitgits.xxxxx【仓库中获取的ssh链接或者http协议的链接】检查远程仓库是否链接成功。 git remote -v出现以下画面就可以git pull,git push了

可以与 FastAPI 不分伯仲的 Python 著名的 Web 框架

正如你所理解的,任何领域都不可能停止进步,不断使用相同的工具意味着不思进取。这一点在信息技术领域,尤其是网络开发行业非常明显。 关于网络框架,不论是 Django 和 Flask 等传统框架还是 Python 的新型高级框架,一直…

Semantic Kernel进阶:将ChatCompletion(聊天完成)服务添加到你的AI项目(三)

文章目录 Semantic Kernel进阶:将聊天完成服务添加到你的AI项目一、引言二、聊天完成服务的重要性三、基本介绍3.1 创建聊天完成服务3.2 依赖注入方式3.3 创建独立的服务实例 四、实战4.1 检索聊天完成服务4.2 使用聊天完成服务4.2.1 非流式4.2.2 流式 4.3 完整代码…

Mybatis多对一查询的配置及两种方法的使用示例对比以及Mybatis一对多查询两种方法使用示例及对比

一、Mybatis多对一查询的配置及两种方法的使用示例对比 为了试验Mybatis多对一的查询,我们先在数据库中建两个表,一个城市表,一个市区表,一个城市有多个区是一个一对多的关系;多个区对应一个城市是一个多对一的关系。建…

第五届光学与图像处理国际学术会议(ICOIP 2025)征稿中版面有限!

第五届光学与图像处理国际学术会议(ICOIP 2025) 2025 5th International Conference on Optics and Image Processing (ICOIP 2025) 重要信息 时间地点:2025年4月25-27日丨中国西安 截稿日期:2024年12月16日23:59 …

vue3项目使用百度地图实现地图选择功能代码封装(开箱即用)

vue3项目使用百度地图实现地图选择功能代码封装方案(开箱即用) <template><div class="bmapgl">

【软件测试】JUnit

Junit 是一个用于 Java 编程语言的单元测试框架&#xff0c;Selenium是自动化测试框架&#xff0c;专门用于Web测试 本篇博客介绍 Junit5 文章目录 Junit 使用语法注解参数执行顺序断言测试套件 Junit 使用 本篇博客使用 Idea集成开发环境 首先&#xff0c;创建新项目&#…

一图解千言,了解常见的流程图类型及其作用

在企业管理、软件研发过程中&#xff0c;经常会需要进行各种业务流程梳理&#xff0c;而流程图就是梳理业务时必要的手段&#xff0c;同时也是梳理的产出。但在不同的情况下适用的流程图又不尽相同。 本文我们就一起来总结一下8 种最常见的流程图类型 数据流程图 数据流程图&…

【CTF-SHOW】Web入门 Web14 【editor泄露-详】【var/www/html目录-详】

editor泄露问题通常出现在涉及文件编辑器或脚本编辑器的题目中&#xff0c;尤其是在Web安全或Pwn&#xff08;系统漏洞挖掘&#xff09;类别中。editor泄露的本质是由于系统未能妥善处理临时文件、编辑历史或进程信息&#xff0c;导致攻击者可以通过某种途径获取正在编辑的敏感…

javaweb-mybatis之动态sql

(1).if标签 编写好方法之后&#xff0c;选中方法名&#xff0c;alt回车&#xff0c;选第一个generate statement快捷生成xml里的标签 (2).foreach标签 用于批量删除 (3)sql和include标签