音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

谷歌将 AI 芯片团队并入云计算部门追赶微软和亚马逊

OpenAI推出的ChatGPT获得一定成功，微软是OpenAI的重要投资者，它将ChatGPT植入必应搜索，威胁到谷歌搜索地位。谷歌将会整合旗下两个AI研发实验室DeepMind和谷歌Brain，以增强公司AI部门实力。

几行代码，GPT-3变ChatGPT！吴恩达高徒、华人CEO震撼发布Lamini引擎

Lamini的开发团队表示，你需要的只是几行代码，就可以用托管数据生成器俩训练自己的LLM，包括权重和其他所有的内容。此外，你也可以使用开源的LLM，用Lamini库对生成的数据进行微调。以及访问完整的LLM训练模块，使用从LoRa等速度优化，到虚拟私有云 (VPC) 部署等企业功能。

「AI教父」万字采访实录：AI航行的方向藏着巨大的冰山

被誉为「深度学习教父」的 Geoffrey Hinton 是深度神经网络技术的奠基人之一，对人工智能的发展做出了重要贡献，曾获得过计算机领域的最高荣誉「图灵奖」。在 2023 年 3 月初的一场采访上，Geoffrey Hinton 曾就 AI 的发展做了详细的解读，完整地阐述了他对大语言模型的看法和忧虑。

Stability AI连扔两个王炸：首个开源RLHF模型，DeepFloyd IF像素级出图

一位Youtube主播对Stable Vicuna进行了实测，Stable Vicuna在每一次测试中，都击败了前任王者Vicuna。

ICLR 2023 | 负责任的人工智能，守护机器学习的进阶思考

负责任的人工智能方向的三篇研究工作：分别拓展了差分隐私深度学习效率的边界、时序图的可解释性研究以及预训练语言模型在文本生成中的安全性。

后GPT时代，多模态是最大的机会

吴恩达联手OpenAI上线免费课程：一个半小时学会ChatGPT Prompt工程

https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

哈工大自然语言处理研究所公开《ChatGPT调研报告》

2023年3月6日，哈工大自然语言处理研究所师生联合撰写出《ChatGPT调研报告》，对“大模型”技术进行了系统的介绍。5月4日，研究所决定将该报告公开，以期听取同行意见，并随着“大模型”技术的发展，持续对报告进行更新。

Glean：大模型时代的企业内入口级产品，最了解员工的“AI同事”

Glean 是企业搜索和知识管理平台，因为充分利用自身积累的企业数据，积极拥抱 LLM 受到关注。Glean 与 100+ SaaS 应用相连接，用户可以跨应用搜索企业数据，并且针对不同用户个性化生成答案和结果。如果说 ChatGPT 是互联网的新入口，Glean 则有望成为针对企业场景的入口级产品——所有 SaaS 应用的第一界面、所有员工的 AI 助手。

用ChatGPT直播带货！Firework发布全球首个直播购物GPT

视频技术服务平台Firework，宣布推出首个用于视频直播服务的类ChatGPT生成式AI产品，以帮助播主提升商业化转化率和客户体验。据悉，美国著名连锁超市The Fresh Market将成为该产品的首批用户，将其用于视频直播、网络销售等。

苹果 Siri 团队内幕曝光：挣扎、斗争、重组

AIGC产品井喷时，地处加州一隅的苹果却仿佛是一个没有被 AI 打扰的世界。

最新英伟达图形学研究推动生成式人工智能（generative AI）进入下一阶段

英伟达将在SIGGRAPH（计算机图形学年度最重要的会议）上公布约20篇研究论文，未来的研究将需要集合跨学科的知识和技术，以推动生成式AI的发展并探索新的前沿。

https://blogs.nvidia.com/blog/2023/05/02/graphics-research-advances-generative-ai-next-frontier/

2023LiveVideoStackCon 上海站专题评审团招募中

如果您在本专业领域有1-3年的工作/研究经验，又热衷于技术交流，欢迎您申报本次上海站评审团，点击题目或正文链接参与报名。

Dav1d解码器最新版本1.2.0的更新内容总结

用户可以从更高效、更稳定的AV1解码体验中受益；开发者则可以利用Dav1d的开源代码进行二次开发和改进。

https://jbkempf.com/blog/2023/dav1d-1.2.0/

使用更快的AV1编码器改进视频通话

本文介绍了Chrome浏览器中AV1编解码器的新功能和优势，对于关注网络视频体验的用户和开发人员来说都是非常有用的信息。

https://developer.chrome.com/blog/av1/

OBS Studio 29.1 经历5个测试版后今天正式发布，它具有AV1和HEVC RTMP流支持

现在，所有主要厂商都广泛支持GPU加速的AV1视频编码，基于CPU的AV1编码也在不断提高性能，OBS Studio 29.1增加了支持，能够通过RTMP将AV1和HEVC流传到YouTube。增强型RTMP v1扩展了RTMP协议，以支持较新的AV1和HEVC/H.265编解码器，并在协议中支HDR，但HDR还不支持作为OBS Studio新功能的一部分。这种AV1/HEVC流媒体的YouTube集成目前也被视为测试版。对于流媒体来说，这比H.264要好得多!

https://github.com/obsproject/obs-studio/releases/tag/29.1.0

AI 3D创作来了？“抢饭碗”成真

生成式AI仅仅依靠一张图片或者输入关键文字就能转化成3D模型，这种惊人的创作很快就让人对这个领域产生了一连串的畅想：AI 3D创作真的要来了吗？内容创作者的饭碗还稳吗？以上将从VR内容制作的两个重要环节：建模与渲染进行分析。

高精地图生成技术大揭秘

目前学术界和工业界（尤其自动驾驶公司）均开始研究HD地图生成，也有一些公开的学术数据集以及非常多的学术工作，此外各家自动驾驶公司也在AIDAY上公开分享技术方案。从这些公开信息来看，也观察到了一些行业趋势，例如在线建图、图像BEV感知、点图融合以及车道线矢量拓扑建模等。本文将对相关的学术工作和自动驾驶公司的技术方案进行解读，以及谈谈个人的一些思考。

这两球的颜色是一样的？不，我不信！

为文本到图像的 diffusion 模型添加条件控制

本文提出一种神经网络结构 ControlNet，用来控制预训练的大型扩散模型，并使其支持额外的输入条件。此外，训练 ControlNet 与微调扩散模型一样快，并且模型可以在个人设备上进行训练。如果有强大的计算集群，该模型可以扩展到大量数据。此外，Stable diffusion 等大型扩散模型可以用 ControlNet 增强，以实现边缘图、分割图、关键点等条件输入。

全球数字科技十大趋势、科研实力对比与人才分布

阿里研究院、智谱AI联合发布了《2023全球数字科技技术发展研究报告》。报告基于AMiner科技情报平台的数据，利用文献计量方法，为数字科技研究前沿“画像”，揭示创新活跃程度，在系统、客观的分析方法基础上，总结2023全球数字科技十大趋势。

只有这个爆款社交应用，中国无法复制，为什么？

Discord可能是非常少有的，在美国已经超过百亿美金体量而在中国没有模仿者跑通的 2C 互联网平台级应用。背后的原因，涉及到天时地利人和等多种因素，包括互联网趋势的变化、国内外游戏行业生态差异、社交软件市场差异等等。

音视频通讯QoS技术及其演进

本文从更宏观、更宽泛的角度介绍了QoS的概念和分类，从音视频通讯QoS领域的常用技术到架构的演进过程做了简单汇总。随着音视频通讯新场景的不断涌现，更实时，更高清变得越来越重要，相关技术也会往这个方向倾斜，同时基于大数据分析的QoS相关技术应用将会逐渐渗透。

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

新技术让手机摄像头成为高分辨率显微镜

新加坡研究人员开发出世界上最小的LED（发光二极管），可以将现有手机摄像头转换为高分辨率显微镜。新LED小于光的波长，用于制造世界上最小的全息显微镜，为手机等日常设备中的现有相机仅通过修改硅芯片和软件即可转换为显微镜铺平了道路。

动效素材极速交付：腾讯PAG动效组件技术揭秘

为了降低或消除动画相关的研发成本，腾讯内部历时 5 年研发了一套 PAG 动画工作流的解决方案，能够一键将 AE 动画内容导出并应用到几乎所有的主流平台。LiveVideoStackCon 2022北京站邀请到了腾讯媒资产品中心副总监陈仁健,为大家系统地分享在产品需求的驱动下，PAG遇到的技术挑战和实践经验细节。

音视频码流工具汇总

作者分享了7个在平时开发过程中经常会用到音视频分析工具，可以收藏。

VAT轻量级动画技术

Vertex Animation Texture 顶点动画贴图即VAT，顾名思义是一种将动画烘焙到贴图的技术，该技术能够充分利用图片格式并行存储动画所需数据。

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军

近日，CVPR NTIRE 2023 比赛结果公布，来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍，从37支队伍中脱颖而出，拿下该比赛（唯一赛道）冠军。大淘宝分享了此次的夺冠方案。

得物直播低延迟探索

直播延迟问题涉及的因素较多，包括推流端和播放端的缓存设置、传输协议、GOP控制等方面。为了解决延迟问题，在实际开发中，为了达到更好的用户体验，我们需要对这些因素进行综合考虑和优化，在不断的实践和实验中寻找最佳方案，通过综合使用这些技术方案，可以更好地提高直播平台的实时性和观看体验。

Google AI团队开发出ISOR，可通过在室内环境中收集数据来改善机器人在户外环境中的行动能力

本文详细说明了ISOR方法的工作原理，该方法使用室内模拟器和基于视觉的位置估计器来捕获机器人在室内和户外环境中的移动数据。最后，作者提供了一些实际案例，展示了ISOR方法在机器人导航和物体识别等方面的应用。

https://ai.googleblog.com/2023/05/indoorsim-to-outdoorreal-learning-to.html

Github 3k+！南科大 VIP Lab 近期开源 Track-Anything | SAM + VOS: 一键视频标注

本文主要介绍了一个新的计算机视觉算法模型Track Anything Model, TAM。该模型的设计灵感来自于已经受到广泛关注的Segment Anything Model, SAM，SAM 是一种在图像分割方面表现出色的模型。然而，SAM 在视频中的分割性能一般表现较差。因此，本文提出了一种基于交互式设计的新模型TAM，旨在实现视频中的高性能交互式跟踪和分割。

如何在十分钟内部署Fastly的下一代WAF

文章介绍了如何在不到10分钟内部署Fastly的下一代Web应用程序防火墙（WAF）。作者提供了一个简单易懂的步骤指南，帮助读者快速部署Fastly的WAF。这些步骤包括创建Fastly账户、配置服务、设置防火墙规则以及测试WAF。文章还提到了Fastly的Dashboard，它提供了实时的安全事件报告和可视化数据，使用户可以更好地了解其网络安全状况。

https://www.fastly.com/blog/how-to-deploy-fastlys-next-gen-waf-in-less-than-10-minutes

Streaming Media East 2023

文章介绍了VVC在在线视频领域的应用和发展趋势。在即将举行的Streaming Media East 2023上，圆桌“Ready for Action”将探讨VVC的应用和优势，并为参与者提供有关如何利用VVC优化其在线视频业务的实用建议。

https://www.streamingmedia.com/Articles/News/Online-Video-News/Jan-Ozer-Talks-VVC-Ready-for-Action-Workshop-Coming-Up-at-Streaming-Media-East-2023-158436.aspx