AI 大爆发时代，音视频未来路在何方？

AI 大模型突然大火了

回顾2024年，计算机领域最大的变革应该就是大模型进一步火爆了。回顾下大模型的发展历程：

萌芽期：（1950-2005）
1956年：计算机专家约翰·麦卡锡首次提出“人工智能”概念，标志着AI领域的诞生。
1980年：卷积神经网络（CNN）的雏形诞生，为后续的深度学习奠定了基础。
1998年：LeNet-5的出现，标志着机器学习从浅层模型向深度学习模型的转变，为自然语言处理和计算机视觉等领域的研究奠定了基础。
探索沉淀期：（2006-2019）
2013年：Word2Vec模型的诞生，首次提出将单词转换为向量的“词向量模型”，极大地推动了自然语言处理技术的发展。
2014年：对抗式生成网络（GAN）的诞生，标志着深度学习进入了生成模型研究的新阶段。
2017年：Google提出了基于自注意力机制的Transformer架构，为大模型的预训练算法架构奠定了基础。
2018年：OpenAI和Google分别发布了GPT-1与BERT，标志着预训练大模型成为自然语言处理领域的主流。
迅猛发展期：（2020-至今）
2020年：OpenAI推出了GPT-3，模型参数规模达到1750亿，成为当时最大的语言模型，并在零样本学习任务上实现了巨大性能提升。
2022年11月：搭载了GPT-3.5的ChatGPT发布，以其逼真的自然语言交互和多场景内容生成能力，迅速成为互联网上的热门话题。
2023年3月：GPT-4的发布，这是一个超大规模的多模态预训练大模型，具备了多模态理解与多类型内容生成能力，标志着大数据、大算力和大算法的完美结合，大幅提升了大模型的预训练和生成能力。
2024年：大模型技术继续飞速发展。OpenAI在2024年9月12日宣布了其最新系列AI模型o1，这是第一个具备真正通用推理能力的大模型，在处理复杂问题和推理任务时展现出的能力，预示着人工智能技术的一个历史性转折点。此外，2024年多模态大模型也加速突破，如OpenAI发布GPT-4o开始深度探索端到端的实时多模态大模型能力。

国内的 AI 大模型发展

随着OpenAI的流行，国内也兴起了大模型热潮，涌现了一批大模型应用，其中日活较多的应用有：

豆包：字节跳动打造。
kimi：月之暗面推出。
文心一言：百度推出。
通义千问：阿里云打造。
智谱清言：智谱华章自研的AI大模型。
讯飞星火：科大讯飞打造。
天工：昆仑万维自主研发。
此外还有很多垂直领域的大模型应用，目前国内大模型应用已经到了百家齐放、百家争艳的阶段【统计数据来自网络】。

大模型的兴起对音视频的影响

大模型的兴起和音视频技术之间是相辅相成，共同发展的关系；大模型为音视频的应用提供了更多的可能性，而传统的音视频技术也是大模型技术落地应用的核心技术基础之一。

创作：多模态数字人的出现，为音视频的创作带来更加丰富的素材和创作空间；同时革新了传统音视频的创作方式；为创作者提供了更加高效、更加便捷的创作工具。
处理：大模型提升了音视频的处理效率和智能化程度；多模态大模型可以同时分析视频中图像、音频、文本信息。
交互：大模型实现更自然的实时交互，推动AI应用场景大爆发，比如AI客服、AI社交、AI老师等等，使得音视频交互进一步增强。
传输：AI技术也可以优化音视频传输，根据不同的网络和用户设备，自动调整音视频的分辨率、码流等，提高传输效率，同时个性化推荐和分发。
消费：大模型的兴起还提升了用户体验，拓展了消费场景，如虚拟演唱会、互动式视频游戏等等。

音视频技术迭代更新

FFmpeg

FFmpeg 是一个完整的跨平台音视频解决方案，用于记录、转换和流式处理音视频。它是目前最强大的音视频处理开源软件之一，被广泛应用于视频网站、播放器、编码器等多种场景中。

2024年，FFmpeg 开源项目也进行了版本的迭代更新：

2024.1.3：libavcodec库现在包含了一个原生VVC（Versatile Video Coding）解码器，支持该编解码器的大部分功能。进一步的优化和更多功能的支持即将到来。
2024.4.5：发布了FFmpeg 7.0“Dijkstra”，此版本不向后兼容，移除了6.0之前弃用的API。某些弃用的ffmpeg CLI选项也被移除，现在需要C11兼容的编译器来构建代码。
2024.5.13：FFmpeg社区宣布，德国的主权技术基金已成为其首个政府赞助商。
2024.6.2：FFmpeg现在实现了原生xHE-AAC解码器。
2024.9.30：FFmpeg 7.1“Péter”版本发布，在7.0版本中作为实验性功能合并的VVC解码器，经过足够的时间成熟和优化，现已被宣布为稳定功能；新增了对原生AAC USAC（xHE-AAC编码系统的一部分）解码器的支持；支持MV-HEVC解码；对Vulkan编码的支持，包括H264和HEVC。

因此，2024年FFmpeg依旧在稳步迭代更新，在音视频应用中继续扮演着核心地位角色。
在这里插入图片描述

WebRTC

作为音视频应用的另外一个核心角色开源项目，WebRTC（Web Real-Time Communication）用于在Web浏览器和移动应用程序之间实现实时音频、视频和数据共享。在RTC应用领域，可以说大部分应用核心都是采用的WebRTC或基于其改动的技术。

2024年，WebRTC 开源项目也进行了版本的迭代更新：

v125.6422.06.1（2024.10.31）：升级到WebRTC-SDK M125.6422.06.1，是125.6422.06的重新发布，因之前上传错误。
v125.6422.06（2024.10.31）：该版本因上传了错误的构建而不可用。原计划升级到WebRTC-SDK M125.6422.06，支持自定义音频输入，支持不使用麦克风的音频轨道。
v125.6422.05（2024.09.02）：升级到WebRTC-SDK M125.6422.05，为MediaStreamTrack添加了isDisposed方法。
v125.6422.04（2024.07.28）：升级到WebRTC-SDK M125.6422.04，修复了NetworkMonitor在分发原生观察者时的竞态条件。
v125.6422.03（2024.07.09）：升级到WebRTC-SDK M125.6422.03，修复了麦克风静音时指示器不消失的问题，允许通过反射跳过AudioTrack播放状态检查。
v125.6422.02（2024.06.15）：升级到WebRTC-SDK M125.6422.02。
v114.5735.11（2024.05.22）：升级到WebRTC-SDK M114.5735.11，使音频输出属性可修改。
v114.5735.10（2024.04.08）：升级到WebRTC-SDK M114.5735.10，为KeyProviderOptions添加了keyRingSize/discardFrameWhenCryptorNotReady。
v114.5735.09（2024.04.03）：升级到WebRTC-SDK M114.5735.09，修复了外部音频处理器采样率计算问题，允许在任何地址端口上进行ice gathering。

因此，2024年 WebRTC 依旧在稳步迭代更新，在音视频应用中继续扮演着核心地位角色。
在这里插入图片描述

编解码技术

x264

H264编码标准仍然占据着一定的视频编码标准市场份额，而 x264 作为符合H264编码标准的开源项目，占据着主流地位，在2024年仍然持续更新迭代，2024年的源码迭代提交记录说明如下：

Use sched_getaffinity on Android
ci: Test compiling for Android
Enable use of __sync_fetch_and_add() wherever detected instead of just X86
Use sysctlbyname(3) hw.logicalcpu on macOS
aarch64: defines involving bit shifts should be unsigned
Make use of sysconf(3) _SC_NPROCESSORS_ONLN and _SC_NPROCESSORS_CONF
Use getauxval() on Linux and elf_aux_info() on FreeBSD/OpenBSD on arm/ppc
Fix build with Android NDK and API < 24 for 32-bit targets
configure: Add DragonFly support
Provide x264_getauxval() wrapper for getauxvaul() and elf_aux_info()
aarch64: Use elf_aux_info() for CPU feature detection on FreeBSD/OpenBSD
configure: Check for SVE support in MS armasm64 via as_check
x86inc: Improve ELF PIC support for external function calls
loongarch: Enhance ultrafast encoding performance
loongarch: Fixed pixel_sa8d_16x16_lasx
loongarch: Add checkasm_call
loongarch: Update loongson_asm.S version to 0.4.0
x86inc: Improve XMM-spilling functionality on 64-bit Windows
x86inc: Restore the stack state between stack allocations
x86inc: Fix warnings with old nasm versions
ppc: Fix incompatible pointer type errors
aarch64: Use regular hwcaps flags instead of HWCAP_CPUID for CPU feature detection on Linux
CI: Switch 32/64-bit windows builds to LLVM
CI: Add config.log to job artifacts
x86inc: Add support for ELF CET properties
x86inc.asm: Add the crc32 SSE4.2 GPR instruction
x86inc: Add a cpu flag for the Ice Lake AVX-512 subset
x86inc: Add CLMUL cpu flag
x86inc: Add template defines for EVEX broadcasts
x86inc: Properly sort instructions in alphabetical order
Bump dates to 2024

在这里插入图片描述

x265

HEVC视频编码标准已经慢慢占据视频编码标准应用的主流地位，x265 作为符合HEVC标准的开源项目，在2024年迎来多次代码提交，对比2023年的代码提交记录，2024年是x265代码更新较多的年份。
在这里插入图片描述

其他音视频技术

VLC：2024.6.10发布了3.0.21版本，这是VLC 3.0分支的第22次更新。
VVenC：更新到了v1.12.0 版本。
libaom：陆续更新了v3.9.0、v3.10.0版本。
avs3：uAVS3e 1.0 版本发布。
此外还有OBS Studio、OpenCV、ijkplayer、JSMpeg、Opus、live555、Seetaface、GPUImage、Open nsfw model、Soundtouch、Jitsi等开源项目在音视频领域持续发光发热。

主流大厂音视频技术迭代更新

腾讯作为国内音视频应用的主流大厂之一，旗下有多款音视频应用app，比如腾讯会议、微信、腾讯视频、斗鱼等等，单单腾讯会议一个应用在20204年就更新了10个版本，如下表所示。此外在AVS3 编码标准、自研的TRTC、MSU编码大赛、SRS、SRT、VLC等项目中积极参与和发声，在音视频领域持续带来了非常重要的技术输出。
字节跳动作为音视频应用的另外一个主流大厂之一，旗下多款关于音视频应用app，比如抖音、剪映、西瓜视频、飞书等等在2024年都持续迭代多个版本。此外，PersonaTalk 技术、Seed-TTS、视频大模型Vidu、RTM超低延时直播技术、6DoF直播创新方案、ICASSP 2024音频挑战赛、Loopy项目等等，都体现出字节跳动在音视频领域的持续创新以及与AI的深度交互。
阿里巴巴作为国内音视频应用的另外一大厂，旗下也多款音视频应用app，比如优酷、淘宝、钉钉等等在2024年都持续迭代多个版本。此外，RTC技术升级、窄带高清™2.0、百炼大模型服务平台更新、通义听悟升级、CosyVoice语音生成大模型、AtomoVideo框架、超低延时直播RTS等等都体现了阿里在音视频领域的持续创新及与AI的深度交互。
此外，还有像快手、声网、微帧、即构、网易云信等等在2024年依旧在音视频领域贡献着力量。

音视频的未来之路

随着 LiveVideoStack平台停更了音视频技术，目前较为系统的音视频交流平台也就剩下一些比如CSDN等博客网站、公众号了。虽然随着AI大模型的爆发对音视频领域有一定的冲击，但音视频的未来一定是充满创新和机遇的。

技术多元化与智能化
- 编解码技术：新一代编解码器如H.266/VVC等正在加速研发和应用，有望在未来几年内实现更广泛的应用，进一步提高音视频质量和降低传输成本。
- AI融合：AI技术将深度融入音视频处理，实现智能分析、推荐及个性化处理。例如，AI编码技术可以根据内容特点自动调整编码参数，实现更高效的压缩和传输。
- 超低延迟技术：随着实时互动需求的增加，超低延迟技术成为重要发展方向。通过优化传输协议、提高编解码效率及利用边缘计算等技术手段，可以有效降低音视频传输的延迟时间，提升用户体验。
- 虚拟现实与增强现实：VR/AR技术的融合将为音视频技术带来更加沉浸式的体验。未来，随着VR/AR设备的普及和技术的成熟，音视频技术将在娱乐、教育、医疗等领域实现更加广泛的应用和创新。
沉浸式体验与个性化服务
- 3D音频和全息影像：通过3D音频和全息影像技术，为用户创造身临其境的视听感受，提升沉浸式体验。
- 个性化推荐：基于用户行为和偏好的个性化推荐算法，将为每位观众提供定制化的音视频内容，增强用户黏性。
边缘计算与传输优化
- 边缘计算：为了降低延迟，边缘计算将成为音视频通信的重要组成部分，数据将在离用户更近的地方处理。
- 传输协议：更高效的编码压缩算法和传输协议的出现，将进一步降低音视频数据的存储和传输成本。
传统行业智能化
- 智能化监控：在深井矿山、应急排障、隧道施工等领域，音视频技术结合AI技术可以实现智能化监控和管理，提高安全性和效率。
- 数字文旅：数字文旅等新兴产业将借助音视频技术实现更加丰富的用户体验。
网络安全与隐私保护
- 安全问题：随着音视频通信的普及，网络安全问题也日益突出，如何保护用户隐私和数据安全将成为重要课题。