音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

YC爆发AIGC潮，100+项目完整盘点

硅谷顶级孵化器Y Combinator冲向AI创业者，2023冬季孵化营一口气选了百家AI相关的创业项目，占到今年总孵化项目数量的近40%。

使用ChatGPT审计代码发现了200多个安全漏洞(GPT-4与GPT-3对比报告)

GPT-3 在此git 存储库中发现了 213 个安全漏洞。而相比之下，市场上很好的商业工具却只发现了99 个安全漏洞。尽管商业工具以更结构化的格式提供上下文，在手动审查 GPT-3 检测到的 99 / 213 个漏洞的随机样本后，有 4 个是误报。

探索AIGC在网易严选中的应用

网易严选是网易旗下的生活方式品牌，具备全品类的商品、独家APP以及其他全渠道复杂多元的设计业务环境。随着技术不断发展为设计领域带来了许多变化和机遇，网易严选设计中心积极响应，在3月初召集设计同学成立了AIGC小组。本文将从可行性和推广性的角度出发，详细介绍AIGC在商品、品牌、营销和体验等多个领域的应用与探索。

运用AIGC人工智能生产内容

更合适的思路应该是，设计师首先定义好规则与框架，从AI模型提供的成百上千个结果中寻找到最匹配我们诉求的结果，从而辅助我们更快更好的达成目标。

拥抱AIGC时代（一）：交易成本的变革

随着科技的不断发展，人工智能和自然语言处理技术逐渐崭露头角，其中以 ChatGPT 为代表的AIGC（AI Generated Content）技术，展现出了改变企业经营管理交易成本的巨大潜力。

内容生产背后的人工智能

生成对抗网络（GAN/Generative Adversarial Networks）就像这个时代的写实派画家，这位画家的大脑和画笔就是Generator和Discriminator两个网络。在实际使用过程中，我们提供真实输入后，它会在Generator中生成假图片并在Discriminator中和真图做对比。

ChatGPT之后，教育向何处去？

有一句话是这么说的：人类一直以来都是“人类＋机器”淘汰人类的一个过程。工业革命是如此，ChatGPT时代也是如此。

声网首席科学家钟声：洞察ChatGPT大模型带来的趋势、威胁和机会

ChatGPT一度被称之为人工智能的“iPhone时刻”，从ChatGPT到GPT-4，从“聊天机器人”到“人工替代”，这场关于大模型的讨论至今都是行业最关注的热点话题。

如何用 Midjourney 绘制你自己的皮克斯风格头像？

元宇宙时代，有个卡通形式的头像（Avatar）似乎是刚需了。我看到很多小伙伴都给自己弄了一个头像。大多保持了神似，很是羡慕。

构建ChatGPT等大语言模型代理，Fixie获得1700万美元种子轮融资

3月30日，Fixie宣布获得1700万美元种子轮融资，本次由Redpoint Ventures 领投，Madrona Venture Group、Zetta Venture Partners等跟投。同时推出大语言模型代理开发平台Fixie Developer Preview。

微软CTO对话比尔·盖茨：GPT-4与人工智能的未来

在微软与 OpenAI 的密切合作中，微软执行副总裁兼首席技术官 Kevin Scott 一直在思考一个问题：人工智能领域出现的惊人革命对 OpenAI、对微软、对所有利益相关者以及整个世界的意义是什么？

阿里巴巴和华为推出生成AI聊天机器人

本土巨头紧随其后。

https://www.theregister.com/2023/04/05/alibaba_huawei_chatgpt_clones/

基于FFmpeg和Wasm的Web端视频截帧方案

本文介绍Wasm截帧方案的实现原理和方案，解决了传统的基于canvas的截帧方案所存在的问题，实现更高效灵活的实现截帧能力。

基于质量体验和能耗感知的HTTP自适应流媒体内容消费方法

该方法考虑到了用户对于视频质量体验的需求和移动设备电池寿命的限制，通过优化视频码率选择和移动网络调整算法来提高用户的QoE和延长设备的电池寿命。

https://athena.itec.aau.at/2023/03/qoe-and-energy-aware-content-consumption-for-http-adaptive-streaming/

轻量级视频编码器可减少视频流传输中的复杂度和带宽消耗

该编码器采用自适应帧间距离预测（AFPD）技术，通过分析视频序列中的运动信息和空间信息来选择最适合的帧间距离，从而实现更高效的压缩。

https://multimediacommunication.blogspot.com/2023/03/light-weight-video-encoding-complexity.html

UiPath通过ChatGPT推出全新产品Clipboard AI，提供问答式业务流程自动化

一份PDF格式的租聘合同， Clipboard AI可以提供问答的方式快速查找该合同的所有数据，如组聘人是谁？租聘金额是多少？

编程的终局

作者认为，自动化和人工智能技术将会成为未来软件开发的重要趋势。因此，软件开发者需要不断学习和适应这些新技术，以便在未来的软件开发中取得成功。

https://cacm.acm.org/magazines/2023/1/267976-the-end-of-programming/fulltext

压缩下一个 token 通向超过人类的智能

最近在研究 OpenAI 发现，他们其实做的只是机器学习的第一原理，也是机器学习的终局：优化对于未来观察的无损传输的压缩大小。进一步分析后发现，这个理论非常 powerful，因为仅仅如此，便能通向超过人类的智能（Super-human Intelligence）。本文会介绍无损压缩的基本原理和具体实现以及对于 AI 未来发展的猜想。

https://zhuanlan.zhihu.com/p/619511222

地平线余凯：城区NOA离真正可用还需至少三年，L3十年都没戏

在与芯片深度耦合的算法领域，地平线在三月作为第一作者提出了一个基于Transformer端到端的自动算法框架，首次将检测、跟踪、预测、建图、轨迹预测端到端的用一个神经网络全部架构完成。这意味着有可能像ChatGPT一样用端到端大规模数据去训练一个完整的自动驾驶系统。

W3C 候选推荐标准: Web 神经网络 API

Web 神经网络 API 是一个底层浏览器 API，可实现机器学习模型的硬件加速，为计算机视觉、自然语言处理和生成或语音处理的高性能隐私保护使用开辟了道路。

生成AI将颠覆市场营销的规则

过去的一年里，生成AI席卷世界。从微软、Salesforce到谷歌，科技公司都在竭尽全力跟上竞争。不难看出原因：OpenAI具有革命性的语言模型GPT-4的出现，让大众看到大型语言模型（LLM）所提供的任务导向的高效。

https://www.theedgesingapore.com/digitaledge/focus/generative-ai-game-changer-marketers

客观评价模型与主观DMOS分数拟合的分享与实用性探讨

去年我们发过一篇文章《综合多项指标评价视频质量，才能更接近主观感受》，指出了不同客观评价指标的“喜”与“忧”，并表示“在日常评价视频质量时，单看一组指标数据容易产生误差，需综合多项指标，才能更接近主观感受”，得到了业内众多同仁的认同。

音视频编解码--PNG介绍

PNG (Portable Network Graphics) 是一种无损的位图图像格式。它是为了取代GIF格式而设计的，并且可以支持更多的颜色和透明度。

音频感知的主观属性

随着人们对主观听感的要求越来越高，最近二十年里出现了几十种描述声音的主观属性，细致地评价声音的不同感受。除了音色和空间感以外，人们还关注杂音、噪声、失真和干扰等音质缺陷。

谷歌续签AAC编解码器授权许可

谷歌通过Fraunhofer AAC编码器软件支持国际公开标准AAC-LC、HE-AAC和xHE-AAC，并为全球消费者提供数十亿小时的节目和内容。该成功合作的延续将使用户继续享受持续不间断的流媒体服务，并支持所有类型内容的传输，例如电影、音乐、有声读物和播客。

https://www.audioblog.iis.fraunhofer.com/cn/google-aac-license

华为推出OpenLab 3.0，加速新加坡和亚太地区的创新和数字化转型。

OpenLab3.0是一个面向亚太地区合作伙伴和高等教育机构的全球技术平台。根据各个行业的需求提供创新的行业解决方案，不断为建设数字亚太地区做出贡献。有了OpenLab3.0，各机构可以试验或应用华为的广泛的产品组合，其中包括Wi-Fi7等最新技术成果。

https://www.theedgesingapore.com/digitaledge/news/huawei-help-build-industry-ecosystems-apac-openlab30

GPT帮助SRS 5.0支持HTTP API鉴权

SRS 5.0的HTTP API支持鉴权了，感谢SRS开发者和GPT(GitHub Copilot)一起完成了代码、注释和双语文档。

AMD发布首款ASIC多媒体加速卡主打AI能力与高密度

在保证成本效益的同时，实现了高密度和低延时等性能上的突破。其AI+转码的视频处理能力更是顺应了AI时代。

芯片价格暴跌三星电子的投资方收益或迎14年最低

三月这一季度，韩国芯片制造商三星电子地芯片部门出现严重亏损，致使营业利润预计下滑90%。这是自世界经济危机以来三星面临最大的经济亏损。据集邦咨询的数据指出，DRAM芯片价格在第一季度滑落20%，并预计在第二季度滑落10%-15%。

https://www.scmp.com/tech/tech-trends/article/3216142/samsung-electronics-investors-brace-worst-profit-least-14-years-amid-chip-slump

欧盟芯片法案或将于本月通过批准

该提案意在下个十年，将欧盟芯片的市场份额增至20%。欧盟计划拨款430亿欧元（470亿美元）助力欧盟半导体行业的发展，追赶美国的步伐。欧盟此举意在降低对美国和亚洲的半导体行业的依赖。此前，国际供应链出现问题，致使欧洲的汽车生产商和制造商都受到打击。

https://www.scmp.com/tech/tech-war/article/3216131/eu-chips-act-likely-get-green-light-month

谷歌：超级计算机比Nvidia A100 芯片速度更快，更环保。

谷歌90%以上的AI培训工作都是由其定制芯片TPU (Tensor Processing Unit)完成的。如今，谷歌TPU已经更新至第四代。

https://www.scmp.com/tech/tech-trends/article/3216034/google-says-its-ai-supercomputer-faster-greener-nvidia-a100-chip

云天励飞上市

自商汤率先破局，云从科技紧随其后登陆科创板，再到如今云天励飞敲响上市钟声，逆水行舟的人工智能赛道上，挺过IPO这瓶“卸妆水”的洗礼，是AI明星们给予过往嘲笑与批评，最有力的回击。

Unity Industry发布帮助企业构建和部署交互式实时3D体验

从人机界面（HMI）到产品可视化，从智能工厂到数字孪生和仿真，Unity Industry使客户能够进行实时创建和协作，并将每一个用户接触点转化为沉浸式和交互式的实时3D体验，可以在Web、移动设备、PC、增强现实（AR）等任何地方的任何设备上使用。

回顾LiveVideoStackCon2022北京

两天的大会，聆听了几个talk、与十几人深入交流后，我大概总结了LiveVideoStackCon 2022北京大会学到的。

腾讯汤道生：下一代互联网的三个趋势

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生近日在博鳌亚洲论坛上就互联网的未来及趋势发表演讲。在论坛中，汤道生指出，AI驱动、全真互联、深入产业是下一代互联网的三大趋势。

https://www.tencent.com/zh-cn/articles/2201560.html

经纬张颖：2023，不只克服困难而是习惯困难

全新的一年已经到来，我们也在从疫情中快速恢复。今天我们想分享一篇，来自经纬创投张颖在最近的一次LP线上大会的演讲。

活动推荐

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱：speaker@livevideostack.com。

https://sh2023.livevideostack.cn/

【公开课】智能感知编码优化与落地实践

感知编码技术是互联网短视频、OTT等应用场景的重点优化手段，能更好的降低带宽成本、提升用户体验。4月11日 19点，我们邀请到了百度智能云视频技术架构师，视频处理和编解码算法技术负责人邢怀飞老师为大家讲述感知编码技术背景、核心技术和技术选型，并详细介绍百度智能云在智能感知编码优化方面的探索与应用落地实践。

时间：2023年4月11日 19:00