音视频技术开发周刊 | 292

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

bcfc2e236e2287d3d12555758f1284ac.png

谷歌将 AI 芯片团队并入云计算部门 追赶微软和亚马逊

OpenAI推出的ChatGPT获得一定成功,微软是OpenAI的重要投资者,它将ChatGPT植入必应搜索,威胁到谷歌搜索地位。谷歌将会整合旗下两个AI研发实验室DeepMind和谷歌Brain,以增强公司AI部门实力。

几行代码,GPT-3变ChatGPT!吴恩达高徒、华人CEO震撼发布Lamini引擎

Lamini的开发团队表示,你需要的只是几行代码,就可以用托管数据生成器俩训练自己的LLM,包括权重和其他所有的内容。此外,你也可以使用开源的LLM,用Lamini库对生成的数据进行微调。以及访问完整的LLM训练模块,使用从LoRa等速度优化,到虚拟私有云 (VPC) 部署等企业功能。 

「AI教父」万字采访实录:AI航行的方向藏着巨大的冰山

被誉为「深度学习教父」的 Geoffrey Hinton 是深度神经网络技术的奠基人之一,对人工智能的发展做出了重要贡献,曾获得过计算机领域的最高荣誉「图灵奖」。在 2023 年 3 月初的一场采访上,Geoffrey Hinton 曾就 AI 的发展做了详细的解读,完整地阐述了他对大语言模型的看法和忧虑。

Stability AI连扔两个王炸:首个开源RLHF模型,DeepFloyd IF像素级出图

一位Youtube主播对Stable Vicuna进行了实测,Stable Vicuna在每一次测试中,都击败了前任王者Vicuna。

ICLR 2023 | 负责任的人工智能,守护机器学习的进阶思考

负责任的人工智能方向的三篇研究工作:分别拓展了差分隐私深度学习效率的边界、时序图的可解释性研究以及预训练语言模型在文本生成中的安全性。

后GPT时代,多模态是最大的机会

吴恩达联手OpenAI上线免费课程:一个半小时学会ChatGPT Prompt工程

https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/ 

哈工大自然语言处理研究所公开《ChatGPT调研报告》

2023年3月6日,哈工大自然语言处理研究所师生联合撰写出《ChatGPT调研报告》,对“大模型”技术进行了系统的介绍。5月4日,研究所决定将该报告公开,以期听取同行意见,并随着“大模型”技术的发展,持续对报告进行更新。

27b1a4a770037598be34a220ce7147aa.png

Glean:大模型时代的企业内入口级产品,最了解员工的“AI同事”

Glean 是企业搜索和知识管理平台,因为充分利用自身积累的企业数据,积极拥抱 LLM 受到关注。Glean 与 100+ SaaS 应用相连接,用户可以跨应用搜索企业数据,并且针对不同用户个性化生成答案和结果。如果说 ChatGPT 是互联网的新入口,Glean 则有望成为针对企业场景的入口级产品——所有 SaaS 应用的第一界面、所有员工的 AI 助手。

用ChatGPT直播带货!Firework发布全球首个直播购物GPT

视频技术服务平台Firework,宣布推出首个用于视频直播服务的类ChatGPT生成式AI产品,以帮助播主提升商业化转化率和客户体验。据悉,美国著名连锁超市The Fresh Market将成为该产品的首批用户,将其用于视频直播、网络销售等。

苹果 Siri 团队内幕曝光:挣扎、斗争、重组

AIGC产品井喷时,地处加州一隅的苹果却仿佛是一个没有被 AI 打扰的世界。

最新英伟达图形学研究推动生成式人工智能(generative AI)进入下一阶段

英伟达将在SIGGRAPH(计算机图形学年度最重要的会议)上公布约20篇研究论文,未来的研究将需要集合跨学科的知识和技术,以推动生成式AI的发展并探索新的前沿。

https://blogs.nvidia.com/blog/2023/05/02/graphics-research-advances-generative-ai-next-frontier/

2023LiveVideoStackCon 上海站专题评审团招募中

如果您在本专业领域有1-3年的工作/研究经验,又热衷于技术交流,欢迎您申报本次上海站评审团,点击题目或正文链接参与报名。

9fea753269ca0e64f319d999fa451eb6.png

Dav1d解码器最新版本1.2.0的更新内容总结

用户可以从更高效、更稳定的AV1解码体验中受益;开发者则可以利用Dav1d的开源代码进行二次开发和改进。

https://jbkempf.com/blog/2023/dav1d-1.2.0/

使用更快的AV1编码器改进视频通话

本文介绍了Chrome浏览器中AV1编解码器的新功能和优势,对于关注网络视频体验的用户和开发人员来说都是非常有用的信息。

https://developer.chrome.com/blog/av1/

OBS Studio 29.1 经历5个测试版后今天正式发布,它具有AV1和HEVC RTMP流支持

现在,所有主要厂商都广泛支持GPU加速的AV1视频编码,基于CPU的AV1编码也在不断提高性能,OBS Studio 29.1增加了支持,能够通过RTMP将AV1和HEVC流传到YouTube。增强型RTMP v1扩展了RTMP协议,以支持较新的AV1和HEVC/H.265编解码器,并在协议中支HDR,但HDR还不支持作为OBS Studio新功能的一部分。这种AV1/HEVC流媒体的YouTube集成目前也被视为测试版。对于流媒体来说,这比H.264要好得多!

https://github.com/obsproject/obs-studio/releases/tag/29.1.0

cf8a05dfb76affdfe902036223257b6e.png

AI 3D创作来了?“抢饭碗”成真

生成式AI仅仅依靠一张图片或者输入关键文字就能转化成3D模型,这种惊人的创作很快就让人对这个领域产生了一连串的畅想:AI 3D创作真的要来了吗?内容创作者的饭碗还稳吗?以上将从VR内容制作的两个重要环节:建模与渲染进行分析。

2acecf2556a541e60fdae8c5ca26fc91.png

高精地图生成技术大揭秘

目前学术界和工业界(尤其自动驾驶公司)均开始研究HD地图生成,也有一些公开的学术数据集以及非常多的学术工作,此外各家自动驾驶公司也在AIDAY上公开分享技术方案。从这些公开信息来看,也观察到了一些行业趋势,例如在线建图、图像BEV感知、点图融合以及车道线矢量拓扑建模等。本文将对相关的学术工作和自动驾驶公司的技术方案进行解读,以及谈谈个人的一些思考。

这两球的颜色是一样的?不,我不信!

为文本到图像的 diffusion 模型添加条件控制

本文提出一种神经网络结构 ControlNet,用来控制预训练的大型扩散模型,并使其支持额外的输入条件。此外,训练  ControlNet 与微调扩散模型一样快,并且模型可以在个人设备上进行训练。如果有强大的计算集群,该模型可以扩展到大量数据。此外,Stable diffusion 等大型扩散模型可以用 ControlNet 增强,以实现边缘图、分割图、关键点等条件输入。

cf53a273ea05122c9687447489e761b2.png

全球数字科技十大趋势、科研实力对比与人才分布

阿里研究院、智谱AI联合发布了《2023全球数字科技技术发展研究报告》。报告基于AMiner科技情报平台的数据,利用文献计量方法,为数字科技研究前沿“画像”,揭示创新活跃程度,在系统、客观的分析方法基础上,总结2023全球数字科技十大趋势。

63e220011751ecbd4852a22e697342e1.png

只有这个爆款社交应用,中国无法复制,为什么?

Discord可能是非常少有的,在美国已经超过百亿美金体量而在中国没有模仿者跑通的 2C 互联网平台级应用。背后的原因,涉及到天时地利人和等多种因素,包括互联网趋势的变化、国内外游戏行业生态差异、社交软件市场差异等等。

音视频通讯QoS技术及其演进

本文从更宏观、更宽泛的角度介绍了QoS的概念和分类,从音视频通讯QoS领域的常用技术到架构的演进过程做了简单汇总。随着音视频通讯新场景的不断涌现,更实时,更高清变得越来越重要,相关技术也会往这个方向倾斜,同时基于大数据分析的QoS相关技术应用将会逐渐渗透。

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

b3887b94befcce002e82a2591b9dc11f.png

新技术让手机摄像头成为高分辨率显微镜

新加坡研究人员开发出世界上最小的LED(发光二极管),可以将现有手机摄像头转换为高分辨率显微镜。新LED小于光的波长,用于制造世界上最小的全息显微镜,为手机等日常设备中的现有相机仅通过修改硅芯片和软件即可转换为显微镜铺平了道路。

动效素材极速交付:腾讯PAG动效组件技术揭秘

为了降低或消除动画相关的研发成本,腾讯内部历时 5 年研发了一套 PAG 动画工作流的解决方案,能够一键将 AE 动画内容导出并应用到几乎所有的主流平台。LiveVideoStackCon 2022北京站邀请到了腾讯媒资产品中心副总监陈仁健,为大家系统地分享在产品需求的驱动下,PAG遇到的技术挑战和实践经验细节。

音视频码流工具汇总

作者分享了7个在平时开发过程中经常会用到音视频分析工具,可以收藏。

VAT轻量级动画技术

Vertex Animation Texture 顶点动画贴图即VAT,顾名思义是一种将动画烘焙到贴图的技术,该技术能够充分利用图片格式并行存储动画所需数据。

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军

近日,CVPR NTIRE 2023 比赛结果公布,来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍,从37支队伍中脱颖而出,拿下该比赛(唯一赛道)冠军。大淘宝分享了此次的夺冠方案。

0796525172ea5965e14c172fd7fcf9de.png

得物直播低延迟探索

直播延迟问题涉及的因素较多,包括推流端和播放端的缓存设置、传输协议、GOP控制等方面。为了解决延迟问题,在实际开发中,为了达到更好的用户体验,我们需要对这些因素进行综合考虑和优化,在不断的实践和实验中寻找最佳方案,通过综合使用这些技术方案,可以更好地提高直播平台的实时性和观看体验。

6ddd3a882c211eab45cd4c52edd33de3.jpeg

Google AI团队开发出ISOR,可通过在室内环境中收集数据来改善机器人在户外环境中的行动能力

本文详细说明了ISOR方法的工作原理,该方法使用室内模拟器和基于视觉的位置估计器来捕获机器人在室内和户外环境中的移动数据。最后,作者提供了一些实际案例,展示了ISOR方法在机器人导航和物体识别等方面的应用。

https://ai.googleblog.com/2023/05/indoorsim-to-outdoorreal-learning-to.html

Github 3k+!南科大 VIP Lab 近期开源 Track-Anything | SAM + VOS: 一键视频标注

本文主要介绍了一个新的计算机视觉算法模型Track Anything Model, TAM。该模型的设计灵感来自于已经受到广泛关注的Segment Anything Model, SAM,SAM 是一种在图像分割方面表现出色的模型。然而,SAM 在视频中的分割性能一般表现较差。因此,本文提出了一种基于交互式设计的新模型TAM,旨在实现视频中的高性能交互式跟踪和分割。

6f8490adeb4380c3369fcf6f2bcc8b2e.png

如何在十分钟内部署Fastly的下一代WAF

文章介绍了如何在不到10分钟内部署Fastly的下一代Web应用程序防火墙(WAF)。作者提供了一个简单易懂的步骤指南,帮助读者快速部署Fastly的WAF。这些步骤包括创建Fastly账户、配置服务、设置防火墙规则以及测试WAF。文章还提到了Fastly的Dashboard,它提供了实时的安全事件报告和可视化数据,使用户可以更好地了解其网络安全状况。

https://www.fastly.com/blog/how-to-deploy-fastlys-next-gen-waf-in-less-than-10-minutes

bf803e0b9870abb1d54cfc89bbd5758a.png

Streaming Media East 2023

文章介绍了VVC在在线视频领域的应用和发展趋势。在即将举行的Streaming Media East 2023上,圆桌“Ready for Action”将探讨VVC的应用和优势,并为参与者提供有关如何利用VVC优化其在线视频业务的实用建议。

https://www.streamingmedia.com/Articles/News/Online-Video-News/Jan-Ozer-Talks-VVC-Ready-for-Action-Workshop-Coming-Up-at-Streaming-Media-East-2023-158436.aspx


b8f35ce828fcba5b606c92a0b7bd9aca.png

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28850.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CollovGPT——人工智能工具颠覆传统室内设计行业

作为线上室内设计领先的平台,Collov一直致力于使用先进的技术重新定义「室内设计」:让室内设计不再是一种奢侈品,而是每一个人都可以享受的生活体验。 经过两年的迭代和开发,我们现在正式上线CollovGPT — 一款基于Stable Diffusi…

扩散模型和Transformer梦幻联动!一举拿下新SOTA

作者丨羿阁 萧箫 来源丨量子位 导读 “U-Net已死,Transformer成为扩散模型新SOTA了!” 就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。 MILA在读ML博士生Ethan Caballero 论文…

92K Star !AI 都完全不需要咱们人类了?

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。 作者:Jina AI 创始人兼 CEO 肖涵博士 译者: 新智元编辑部 原文链接…

揭秘 Auto-GPT 喧嚣背后的残酷真相!

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。 本文来自 Jina 官方投稿,作者为 Jina AI 创始人兼 CEO 肖涵博士,如…

通过ChatGPT使用Mermaid.js生成时间序列图、组织结构图等

1、用mermaid.js 生成京东网站改版时间序列图 以下是使用Mermaid.js生成的京东网站改版时间序列图: gantttitle 京东网站改版时间序列图dateFormat YYYY-MM-DDsection 基础功能改版登录注册界面 :done, 2018-01-15, 10d购物车页面优化 :done, 2018-02-10, 10d商…

淘汰ChatGPT的Auto-GPT是炒作?自己跑代码,不需要人类,GitHub已破5万星

视学算法报道 编辑:编辑部 【导读】Auto-GPT究竟是一个开创性的项目,还是一个被过度炒作的AI实验?这篇文章为我们揭开了喧嚣背后的真相,并揭示了Auto-GPT不适合实际应用的局限性。 这两天,Auto-GPT——一款让最强语言…

AIPRM for ChatGPT 提示词模板扩展工具实践

(1)基本介绍 AIPRM for ChatGPT是一个Chrome浏览器扩展程序,基于Chromium内核开发的浏览器都可以使用该扩展,比如微软的Edge浏览器等。 在AIPRM的帮助下,我们可以在ChatGPT中一键使用各种专门为网站SEO、SaaS、营销、…

惊!掌握通义千问的关键,从这些必知内容开始!

今年快过半了,要说顶流话题还得是ChatGPT,相关话题的热度居高不下,而其从GPT-3.5到GPT-4的升级,也让我们深刻了解了什么叫一代版本一代神,从GPT-3.5到GPT-4,真的就是一个跨阶级式的升级。 技术内涵 ChatGPT…

讯飞星火大模型申请及测试:诚意满满

“ 大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 最近国产大模型跟下饺子似,隔几天就发布一个。厂家发布得起劲&#xf…

拍摄电话?窃听邮件?了解社会工程学攻击和你可能受到的风险

数据来源 本文仅用于信息安全的学习,请遵守相关法律法规,严禁用于非法途径。若观众因此作出任何危害网络安全的行为,后果自负,与本人无关。 社会工程学 社会工程学-渗透测试 社会工程学作用 亦思社会工程学 你注册过哪些网站&…

文心千帆为你而来

1. 前言 3月16号百度率先发布了国内第一个人工智能大语言模型—文心一言。文心一言的发布在业界引起了不小的震动。而文心一言的企业服务则由文心千帆大模型平台提供。文心千帆大模型平台是百度智能云打造出来的一站式大模型开发与应用平台,提供包括文心一言在内的…

第二弹进阶吴恩达 ChatGPT Prompt 技巧

第一弹笔记在这里: 总结吴恩达 ChatGPT Prompt 免费课程 今天分享第二弹,进阶篇。 第一点,任务序列化。 通常看完一篇长文,脑子里往往充满无数疑问。急切想知道所有答案,必须列一个问题清单。对话式问法,对…

CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…

Python与ChatGPT

Python的用途非常广泛,很多应用场景都可以使用 python 来满足自己的需求,比如自己平常使用 Python 来做网络应用后端开发、做批量处理小工具、做测试软件等,而目前非常热门的 ChatGPT 也与 python 有很大的关系。 据了解,在ChatG…

IOS越狱---checkra1n windows系统越狱

本篇教程适用小白初次越狱,无高阶操作,大佬请止步,本篇教程可能没有任何能学习的地方,以下问题如有不清楚的地方欢迎加微信 vaintech讨论交流 首先介绍所需要的工具 一支U盘(2g以上)一台电脑要被越狱的手…

【iOS逆向】某App越狱检测

1.目标 此篇文本为入门文章,大家莫抱过多期望。此文章的目的是教大家如何从UI入手,去定位自己想要的东西。 2.操作环境 mac系统 frida-ios-dump:砸壳 已越狱iOS设备:脱壳及frida调试 IDA Pro:静态分析 3.流程 …

Chat-GPT 聚合平台 Poe:集成多个 AI 聊天机器人

Chat-GPT 聚合平台 Poe:集成多个 AI 聊天机器人 介绍 Poe 是知名问答社区 Quora 推出的 AI 平台——开放探索平台 (Platform for Open Exploration, Poe)。Poe 集成了多个基于大型语言模型的聊天机器人,包括 ChatGPT,以及 Sage、Claude、Dr…

越狱手机如何让APP绕过越狱检测

当你越狱之后,某些APP检测到你越狱后,一些功能就会被禁用,比如微信、支付宝的指纹支付,下面这款插件就会帮你绕过越狱检测,正常使用APP里面的所有功能。 文章目录 1. 环境2. Cydia简介3. 过程(Liberty为例)3.1. 添加添…

完美越狱来了,unc0ver 更新 7.0.0 版本,但是别着急冲

说起完美越狱, 仿佛是很久的事情了。 时隔多年,完美越狱终于来了。 Fugu14 完美越狱发布,unc0ver 7.0.0 版本发布。 完美越狱 先说说事情起因、经过、结果。 9月01日,开发者 Linus Henze 演示了 iOS 14.5.1 完美越狱的视频。…

iOS“远程越狱”间谍软件Pegasus技术分析

关注我的博客,访问更多内容! 背景:通过研究发现,用户点击短信内的链接后,攻击者就会利用3个0day漏洞,对用户手机“远程越狱”,然后安装间谍软件,随后就能对设备进行全面控制&#x…