每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
谷歌全面反攻 ChatGPT!PaLM 2、Gemini 双杀,Bard 正式开放
以上是2023 Google I/O 大会的重点内容,AI含量极高。
谷歌推拥有26000个H100的超算,加速AI军备竞赛
云提供商正在组建 GPU 大军,以提供更多的 AI 火力。在今天举行的年度 Google I/O 开发者大会上,Google 宣布了一款拥有 26,000 个 GPU 的 AI 超级计算机——A3 ,这个超级计算机是谷歌与微软争夺 AI 霸权的斗争中投入更多资源进行积极反攻的又一证据。
OpenAI发布最新开源项目Shap-E,通过文本就能生成3D模型
5月6日,ChatGPT母公司OpenAI发布了最新开源项目Shap-E,通过文本就能生成3D模型。目前github已经突破2000颗星。
https://github.com/openai/shap-e
为什么剑桥出身的“AI教父”辛顿会担心?
人类社会的稳定性和鲁棒性并不是弱不禁风、一触即倒的,熟话说的好,“魔高一尺,道高一丈”,未雨绸缪、居安思危将会一直伴随着人类文明的进化发展,现在发生的,过去已经发生过,而且还不止一次,估计这次也不会例外......
HugNLP开源啦!教你玩转各种NLP任务,还可训类ChatGPT模型
在大模型训练异常火爆的今天,基于HugNLP框架,还推出了能够支持类ChatGPT模型进行训练和部署的产品HugChat。
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
Orillusion引擎正式开源!AIGC时代下的WebGPU轻量级3D渲染引擎!
IBM亮王炸!推出大模型Watsonx,7月将开源!
Watsonx由三大块组成,基础模型watsonx.ai;基于开放式 Lakehouse 架构构建的专用数据存储平台watsonx.data;用于AI安全治理的watsonx.governance。在这三大平台赋能下,可为用户提供一站式安全可靠的生成式AI服务。
「AI孙燕姿」全网沸腾!AI翻唱大爆发,整个华语乐坛都「复兴」了
2023春季《计算共形几何》课程总结
抖音关于人工智能生成内容的平台规范暨行业倡议
人工智能技术的快速发展,为互联网行业带来了更多可能性的同时,也带来了虚假信息、侵权等问题。参照《互联网信息服务深度合成管理规定》等法律法规,抖音提出十一条平台规范与行业倡议。
声网自研编码器 a264 & a265:更优画质更低能耗,进一步适配实时互动场景需求
“玲珑”编解码融合架构助力视频多元化需求
LiveVideoStackCon 2022北京站邀请到了安谋科技多媒体产品经理董峰,为我们分享“玲珑”编解码融合架构助力视频多元化需求。
MPEG LA和Via Licensing专利池的合并会带来哪些影响?
文章表示,该合并将使MPEG LA负责管理HEVC、AV1和VVC等主要视频编解码器的专利池,这些编解码器是当前和未来的许多流媒体应用程序所依赖的核心技术。此外,该合并还将减少客户在获取许可证时需要与多家公司沟通的复杂性,从而降低了使用这些编解码器的成本。
https://www.streamingmedia.com/Articles/News/Online-Video-News/Via-LAs-Heath-Hoglund-Talks-MPEG-LA-Via-Licensing-Patent-Pool-Merger-158547.aspx
元宇宙直播的终端架构设计和关键技术
5月16日 19:00,我们邀请到了百度智能云视频云资深研发工程师李明路老师围绕终端引擎技术发展与演进,详细介绍元宇宙直播技术体系、终端架构设计和关键技术,分享百度智能云在元宇宙直播场景中的实践探索。
AVIF 图像编码器添加了实验性 AV2 支持代码合并请求
看起来 AV2 的工作进展顺利,很高兴看到更新的 AVIF 图像格式支持也将得到及时支持
https://github.com/AOMediaCodec/libavif/pull/1361
Metal 和 OpenGLES 的差异,快速入门 Metal 开发
本文介绍Metal和Metal Shader Language,以及Metal和OpenGL ES的差异性,也是实现入门教程的心得总结。
Point2Pix:通过神经辐射场进行逼真的点云渲染
作者将点云和 NeRF 相结合,从⽽提出了⼀种名为 Point2Pix 的新型点云渲染器,可以从彩⾊点云合成逼真的图像。
存储芯片路线图
本文考虑的内存类型是 DRAM 和非易失性内存 (NVM)。重点是商品、独立芯片,因为这些芯片往往会推动内存技术。然而,嵌入式存储芯片预计将遵循与商品存储芯片相同的趋势,通常会有一些时间滞后。对于 DRAM 和 NVM,都考虑了详细的技术要求和潜在的解决方案。
云剪辑-B端在线剪辑⼯具架构设计与演进
我们在探索B端在线剪辑产品的过程中遇到不少挑战:如何满足快速与定制两种集成场景?如何保证云端视频合成的效率与质量?LiveVideoStackCon 2022北京站邀请到了腾讯云音视频的成锐林老师为我们分享他们团队是如何解答这一系列问题的。
音视频杂谈--AI工具大比拼
作者分别询问了印象AI、ChatGPT和Bard等TCP和UDP的区别,以上是它们的答案。
视频技术如何助力财险理赔?
这是一篇关于视频技术应用在保险行业里的文章。在整个理赔过程中,数字工具是缩短等待时间和提高客户满意度的关键。
音视频通讯QoS技术及其演进
利用多种算法和策略进行网络传输控制,最大限度满足弱网场景下的音视频用户体验。
通过DRM(Digital Radio Mondiale)数字广播进行远程教学
这是一篇详尽介绍DRM广播教育应用场景的文章,结合DRM技术特点和功能成功实现教育普及的理想远景。
https://www.audioblog.iis.fraunhofer.com/cn/radioschooling
南洋理工大学提出基于单目相机和超宽带传感器的VR-SLAM:实现高精度室内定位与建图
本文提出了一种使用单目相机和UWB传感器的SLAM系统。系统称为VRSLAM,是一个多阶段框架,利用每个传感器的优势并弥补其弱点。
首个系统综述!基于深度学习的相机标定技术最新研究进展!
本综述首次系统性地概述了深度学习驱动下的相机标定技术,涵盖了深度学习时代以来(8年时间跨度)各类相机模型标定及其应用的最新研究进展。
RTC 体验优化的“极值”度量与应用
LiveVideoStackCon 2022北京站邀请到火山引擎RTC团队负责人——杨智超,为大家介绍在实时通信场景下火山引擎RTC对体验的理解与应用落地。
NSDI 2015 | PCC:重新建构面向持续高性能的拥塞控制
本文作者提出了面向性能的拥塞控制,一种新的拥塞控制结构( PCC ),PCC 中持续关注控制机制中动作(asction)和基于经验的性能表现之间的联系,这样做能够使得 PCC 采取的动作能够持续导致高的性能表现。
如何以实时精度完善5G场内体验
这篇文章讨论了如何在场馆中提供完美的 5G 体验。作者认为,5G 可以极大地改善用户在场馆中的体验,包括视频流、VR/AR、实时互动等方面。
https://www.red5pro.com/blog/perfect-5g-in-venue-experiences/
LiveVideoStackCon 2023上海讲师招募中
LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。