智能理解 PPT 内容，快速生成讲解视频

当我们想根据一版 PPT 制作出相对应的解锁视频时，从撰写解锁词，录制音频到剪辑视频，每一个环节都需要投入大量的时间和精力，本方案将依托于阿里云函数计算 FC 和百炼模型服务，实现从 PPT 到视频的全自动转换，将静态的 PPT 转化为动态视频。

本方案利用函数计算 FC 部署 Web 应用，调用百炼模型服务实现 PPT 到视频的自动转换。视觉模型智能理解 PPT 图文内容，快速生成相匹配的解说词；文本模型对解说词进行优化，提高其可读性和吸引力；语音模型则根据解说词生成生动流畅的旁白音频。整个过程高度集成，只需一键操作，系统即可自动整合图片、文本和音频素材，快速生成对应讲解视频。

适用客户

期望通过 AI 技术将 PPT 转换为教学视频的在线教育机构
希望减少视频内容创作时间和成本，专注于创意构思的自媒体创作者

使用产品

大模型服务平台百炼
函数计算
对象存储

架构与部署

在制作线上课程、自媒体内容或者活动宣传视频时，用户通常需要撰写解说词、录制音频和剪辑视频，制作流程繁琐且周期较长。本方案利用函数计算 FC 部署 Web 应用，调用百炼模型服务实现 PPT 到视频的自动转换。

方案中涉及多种模型：视觉模型（qwen-vl-max-latest）用于理解 PPT 图文内容，快速生成与之相匹配的解说词；文本模型（qwen-plus）对解说词进行优化，提高其可读性和吸引力；语音模型（cosyvoice-v1）则根据解说词生成生动流畅的旁白音频。系统自动整合图片、文本和音频素材，将原本静态的 PPT 转化为结构严谨、过渡自然的动态视频。整个过程高度集成化，用户只需进行简单的几步操作，即可轻松实现从 PPT 到视频的转换。

最终的运行环境将与下图展示的架构相似。

本方案的技术架构包括以下云服务：

函数计算 FC：用于部署应用程序。
对象存储 OSS Bucket：用于存储从 PPT 文件中分解出的每一页图片。
大模型服务平台百炼：提供视觉模型、文本模型和语音模型服务，用于解说词创作、解说词优化和语音合成。

部署应用

请点击前往部署 [ 1] 打开我们提供的函数计算应用模板，参考下表进行参数配置，然后单击创建并部署默认环境。

应用部署成功后如下图所示。

应用体验

应用部署完成后，可以在环境详情的环境信息中找到示例网站的访问域名。

点击访问域名，即可打开示例应用。

鼠标移动到示例 1，然后单击使用该示例。

当 PPT 被分解成图片后，点击生成解说词（文本理解） 按钮，视觉模型将依次分析每一张图片，并为对应的页面创建解说词文案。文本模型会对生成的解说词进行润色，确保表达自然流畅且易于理解。

说明：点击生成解说词按钮右侧的下拉图标，可以选择文本理解或者深度理解。

文本理解： 主要根据文字生成解说词，若配图关联度低则不予考虑。
深度理解： 深入理解并分析 PPT 中呈现的架构图、流程图等视觉信息，解读其含义与逻辑关系。

双击解说词区域可直接编辑当前页面的解说词。编辑完成后，只需点击页面其他任意位置即可自动保存更改。

旁白音频提供了两种不同的内置音色供您选择。

点击生成视频按钮，系统会根据解说词自动生成音频和字幕，最终和图片一起制作成动态视频。

说明：

系统将根据解说词生成音频和字幕，最后整合音频、字幕和图片合成视频。生成过程所需时间会根据 PPT 的页数有所不同，整个生成过程预计需要 5 分钟左右，请您耐心等待。
为了方便用户快速体验效果，当前应用为演示版本，体验完毕请及时释放资源。若想用于生产环境，建议下载源码：获取源码 [ 2] ，可以进行二次开发，同时打开登录鉴权功能。