音视频技术开发周刊 | 285

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

e0398f88558c39318761e6852c66bfdb.png

GPT-4 Office全家桶发布

谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 Copilot,再次闪瞎全世界。从此,不管是Word、PPT、Excel,还是Outlook、Teams、Microsoft Viva、Power Platform,所有这些办公软件,通通都会得到GPT-4的加持!

GPT-4开发了一门编程语言

这家伙还有什么不会的?

https://lukebechtel.com/blog/gpt4-generating-code

用ChatGPT顺手写Linux Shell脚本

ChatGPT 能够像普通语言一样理解人类写的话语,并生成与之相关的语言文字输出。将ChatGPT应用于Shell脚本编写,意味着用户可以通过语言命令输入代码、命令及参数,ChatGPT可解析用户提供的语言,将其转化为Linux shell脚本代码。

谷歌工程主管:AIGC 将在 3 年内终结编程

前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 在芝加哥计算机协会的一个虚拟会议上表示,ChatGPT和GitHub Copilot预示着编程终结的开始。Welsh 断言,生成式 AI 将在 3 年内终结编程。

ChatGPT与新摩尔定律 我们与清华教授、衔远科技创始人周伯文聊了聊

OpenAI创始人Sam Altman又通过Twitter提出了“新摩尔定律”——宇宙中的智能总量(amount of intelligence)每18个月翻一倍。面对这个AI时代的“iPhone时刻”,我们陆续邀请学界与业界的资深专家,以及行业投资人与创业者进行深度交流。

何恺明 MIT 最新演讲:未来工作将聚焦 AI for science

何恺明是 CV 领域的翘楚,其谷歌学术被引用次数已经突破40万次,在2022年人工智能全球最具影响力学者榜单中,何恺明获得第一名。

Compression for AGI

Jack Rae 是 OpenAI 的团队负责人,主要研究大型语言模型和远程记忆。此前,他在 DeepMind 工作了 8 年,领导大型语言模型 (LLM) 研究组。在本次演讲中,我们讨论了基础模型如何开始验证 70 多年前形成的假设:更好地压缩源数据的统计模型最终会从中学习更多基础和通用功能。我们首先介绍压缩的一些基础知识,然后描述跨越数千亿个参数的更大的语言模型实际上是最先进的无损压缩器。我们讨论了在实现最佳压缩的过程中可能会出现的一些新兴功能和持续限制。

「AGI OS」时代,创业者如何做应用开发

人类的特殊之处在于,人拥有了足够的智慧来发明科学的方法和工具,工具的进化是人类文明的里程碑。我相信AI是人类在21世纪的最重要工具。在21年,我们认为“2010年手机前置摄像头的成熟,让视频创作的门槛大幅降低,催生了今天我们每天都在刷的抖音快手。我们一直在思考,什么是今天让创作门槛100倍降低的技术变量,那AIGC是我相信的一个答案。”2年后,我们有了GPT和扩散模型的作为新一代开发者的新工具,特别期待开发者使用新工具能创造出独特的用户体验。欢迎和我们交流。

4487503e76f4995bdd1daa7f7950bfeb.png

ChatGPT之后,AIGC会如何革新内容创作?

AI是否会让创作者们集体“失业”,甚至让“创作”本身走向衰颓,就像机械复制时代的艺术品可能失去“灵韵”那样。换言之,AIGC的流行给了我们一个重新审视“创作”是什么、是否为人所独有这些问题的机会。

了解AIGC音频/图像数据生成,这几篇论文给你划好了重点!

与文本生成更加关注抽象语义不同,声音和视觉模态还需要生成更多的细节信息。所以,声音和视觉内容(语音、音效、音乐、图像、视频等)的生成面临着一系列挑战:如何刻画声音视觉内容中复杂且高频的数据分布;如何建模生成过程中的一对多映射问题;如何利用大规模无标注数据解决数据稀疏性问题;在基于其它模态生成时,如何解决跨模态对齐问题等。

微软3D生成扩散模型RODIN,秒级定制3D数字化身

由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

基于扩散模型的3D智能创作引擎与内容投放算法最新实践

3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。

NeuMan:从单视角视频中创建数字人

作者提出了一个新颖的框架,可以从单一野外视频中重构人物和场景,并能够渲染出新的人体姿态和视角。给定一段由移动相机捕捉的视频,作者训练了两个 NeRF 模型:一个是人类的 NeRF 模型,另一个是场景的 NeRF 模型。为了训练这些模型,作者依赖现有的方法来估计人物和场景的粗略几何形状。

5af44318556ce4a23d3b02a0f16107a9.jpeg

库克力排众议于今年推出新头显设备

在产品打造方面,该头显历经7年开发,时间投入是iPhone的两倍,外界普遍猜测苹果将于今年6月推出这款设备,这个时间节点是苹果CEO蒂姆·库克与公司团队成员内部博弈的结果。

https://www.vrtuoluo.cn/535553.html

39a96667ce7911175c81895cc5e800b4.png

AOMedia电子刊(2023第一期)

新一期AOMedia电子刊,关于AV1生态演进和技术升级的重点消息全在这里。

https://storage.googleapis.com/downloads.aomedia.org/assets/pdf/AOMedia%20Decoder%20-%20Q1%202023%20Non-Members.pdf

解读帧间快速算法

本次介绍关于帧间快速算法的几篇论文,目标是缓解HEVC/VVC中复杂划分和编码带来的巨大复杂度提升。

在线视频协同:探究画面帧的准确性

视频协作平台会涉及网络、编解码等众多技术栈,并且要支持各类终端。其中一个关键能力是实现毫秒级的同步,这对于视频协作平台十分重要。本文来自分秒帧 web多媒体开发工程师耿学岩的投稿,详解了实现毫秒级同步遇到的两个挑战和解决方案。

024a3666d67a6e2fac38dc3bae5b305d.png

音视频编解码—JPEG3—Baseline流程介绍

JPEG 有许多指定版本,JPEG base line 压缩仅包含一组最低要求:是有损的,无法准确重建原始图像。Baseline(“标准”)使用大多数网络浏览器都能识别的格式。Baseline优化创建具有优化颜色和稍小文件大小的文件。

基于残差熵编码的JPEG无损转码框架

为了实现JPEG压缩图像的无损转码,该框架引入了残差压缩的熵模型和基于上下文的熵编码模型,可以有效地学习到残差量化DCT系数的分布并压缩。由于基于深度学习的有损变换编码和残差熵编码的协作,我们提出的JPEG无损转码架构在JPEG图像的再压缩具有较大优势。在多个图像压缩评估经典数据集上进行的大量实验表明,该框架相比于JPEG压缩图像可以再平均节省21.49%的比特,比最新的具有JPEG无损转码功能的JPEG-XL在比特节省方面高出3.51%。

梦工厂开源OpenMoonRay

MoonRay是梦工厂开发的制作 MCRT 渲染器,已被用于故事片驯龙高手:隐藏的世界,巨魔世界巡回演唱会等,开源采用Apache License 2.0 许可证。

https://github.com/dreamworksanimation/openmoonray

1b42f76f9c1459dd01b37be1ac8dd4af.png

从一道面试题看 TCP 的吞吐极限

分享一个 TCP 面试题:单条 TCP 流如何打满香港到旧金山的 320Gbps 专线?(补充,写成 400Gbps 更具迷惑性,但预测大多数人都会跑偏,320Gbps 也就白给了)

https://zhuanlan.zhihu.com/p/612825623

637dd2befcc69722c3dff67d2eea26c0.png

CVPR 2023|快手视频质量评估算法被顶会收录

计算机视觉领域顶级会议Computer Vision and Pattern Recognition Conference(CVPR 2023)将于6月18日至22日在加拿大温哥华召开,来自快手音视频技术团队题为《Quality-aware Pre-trained Models for Blind Image Quality Assessment》——适用于无参考图像/视频质量评估的质量感知预训练模型的最新研究成果被会议成功收录。

客观评价模型与主观DMOS分数拟合的分享与实用性探讨

虽然客观评价方法是让计算机尽量从人的主观视角出发来预测特定视频的评分,但不同客观评价指标与主观感受的符合程度差距不同,因此需要通过客观评价模型与主观评价DMOS分数的非线性拟合结果,基于预测的准确性、一致性、稳定性、单调性来衡量该客观评价方法的好坏。

b90e2ebf2392676e96690e725d0aaa89.jpeg

MRCP在美团语音交互中的实践和应用

要将 ASR、TTS 这些技术应用到电话系统上,还需要一些额外的工作和技术支撑,其中比较重要的技术之一也就是本文将要介绍的 MRCP。

https://tech.meituan.com/2023/03/09/practice-and-application-of-mrcp-in-voice-interaction-of-meituan.html

用多个声全息图打印3D物体

在本文中,我们将探讨这种采用多个声学全息图的创新方法的工作原理,并研究其潜在的应用和局限性。声学全息图是可以将声波塑造成复杂图案的设备。它们由具有特定图案的孔或凸起的3D打印板制成。

腾讯音乐天琴实验室首次发布三套开源数据集

此次发布的三套开源数据集分别是片段翻唱数据集、哼唱数据集和歌唱评价数据集。其中,片段翻唱数据集(Lyra-CoverSegment Dataset, 简称Lyra-CS Dataset)打破目前只有全曲翻唱开源数据集的局面,有助于研究解决听歌识曲难以识别翻唱改编的问题。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲,其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段,数据集总时长近400小时,包含超53万个录音片段。

https://lyracobar.y.qq.com/index.html

70198eb42eb59e15435ee85b1110aaed.png

2年帮数百万音视频创作者解决协作痛点,这家公司做对了什么?

分秒帧是一个帮助音视频行业来解决在线生产协同的SaaS工具,它的核心价值是帮助音视频行业的从业人员去提高创作和制作的效率,节省制作成本。


活动推荐

23ad6e1f4573732bb12e6a95e0a68493.png

倒计时11天:和LiveVideoStack在2023年的第一场约会

时隔15个月,再聚北京。

时间:2fa9cb7f4a6d94a8f16ff8d9b833f6c9.png2023年3月31日 - 4月1日

报名:59bdf02895f3fc8116e33018b6b84b63.png点击【阅读原文】了解详细信息,报名参与。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7924.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团以 20.65 亿人民币收购光年之外;ChatGPT 涉嫌信息盗窃被起诉;OpenCV 4.8.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

训练个人专属ChatGPT!港科大开源LMFlow:3090单卡5小时

本文来源 机器之心编辑部 拥有自己的 AI 大模型!开源项目 LMFlow 支持上千种模型,提供全流程高效训练方案。 2022 年 11 月 30 日,OpenAI 推出 ChatGPT,令人没想到的是,这个对话模型在 AI 圈掀起一股又一股讨论狂潮。…

Open AI官方「ChatGPT 打假工具」来啦!网友:等于瞎猜?

文|Alex 鱼羊 发自 凹非寺源|量子位 ChatGPT到处“造假”作弊,现在搞得OpenAI官方都坐不住了。 就在今天,OpenAI紧急发布官方打假工具:基于GPT打造,打开网页就能用。 好家伙,这岂不是真以己之矛…

ChatGPT最新版多功能批量写作工具激发创作的无限可能

随着科技的不断发展,人工智能逐渐渗透到各个领域,其中包括写作领域。近年来,OpenAI推出的ChatGPT最新版多功能批量写作工具,为写作者们带来了全新的创作体验。这一工具不仅能够帮助写作者提高工作效率,还能够激发创作的…

一个开源的 ChatGPT VSCode 插件

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:Github中文社区 近在百度推出文心一言后 阿里也开启了自家的ChatGPT的内测邀请,因此接下来的一个月huber会陆续给大家带来ChatGPT及周边内容。 vscode-ChatGPT 今天给大家推…

【VS】VSCode设置中英文模式

Vscode是一款开源的跨平台编辑器。默认情况下,vscode使用的语言为英文(us),如何将其显示语言修改成中文。 使用快捷键组合【CtrlShiftp】,在搜索框中输入“configure display language”,点击确定后; 修改locale.json…

工具 | VSCode+ChatGPT 编程利器

本文首发微信公众号:全副武装的大师兄(一个分享前沿技术,生活感受的公众号,关注我,率先了解好玩的工具) 托了GPT同学的福,最近编程时,常会在ChatGPT中说明自己的需求以生成代码&…

VScode:将VScode界面的显示语言改为简体中文,切换VScode界面的显示语言

VScode版本V1.54.1 VScode界面默认的语言为英语,需要安装简体中文语言包,语言包为插件(Extension)。 安装语言包 打开左侧插件栏(Extensions),在搜索框中输入chinese。 选择Chinese(Simplifi…

VSCode更改显示语言-如更改英语为中文或者将中文改为英语

目录 一、问题描述 二、问题解决 一、问题描述 VSCode属于一款前端开发超级牛13的开发软件,但是很多小伙伴安装好之后发现语言是英文的,毕竟大家英语不(yi)错(ban),但是总感觉中文的界面看着亲切一点,那么又该如何更改语言呢&am…

vs code 如何使用copilot(对接了chatgpt)

VS Code 是一个非常流行的开发工具,而 Copilot 则是一个基于 GPT 模型的代码生成工具,可以通过 VS Code 安装相关的插件来使用。 以下是在 VS Code 中使用 Copilot 的步骤: 下载安装 VS Code 插件 首先,你需要下载并安装 Copil…

我用 ChatGPT 做了一道菜 !!

自从使用ChatGPT之后,我的生活变得更加丰富了。 它以一个厨师的身份,为我提供各种健康美味的菜谱,以及干货知识、烹饪技巧等等,让我能够轻松地做出口感和营养都兼备的佳肴。 ChatGPT不仅为我提供各种各样的菜谱,包括…

ChatGLM-6B (介绍以及本地部署)

中文ChatGPT平替——ChatGLM-6B ChatGLM-6B简介官方实例本地部署1.下载代码2.通过conda创建虚拟环境3.修改代码4.模型量化5.详细代码 调用示例 ChatGLM-6B 简介 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构&…

Bagging 和 随机森林(Random Forest,RF)

前面已经了解到集成学习有两个流派,一个是 Boosting 派系,它的特点是各个弱学习器之间有依赖关系。另一种是 Bagging 流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。而随机森林又是对 Bagging 的一个改进算法&#…

随机森林Random Forest

引言 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机…

随机森林(random forest)

1.随机森林基本思想 Bagging决策树作为base model 每个决策树权重为1 Boostrap有放回的采样 2.决策树采用投票的方式。 假如训练了5颗树,其中4颗树是True,1颗树是False 那么结果就是True 3.单颗决策树建立的过程 (1)随即在N个样本中选择…

随机森林详解

随机森林(Random Forest)是属于集成学习的一种组合分类算法,集成学习的核心思想就是将若干个弱(基)分类器组合起来,得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成&am…

Bagging与随机森林

下图是基于树的算法的发展历程 1、Bagging Bagging [Breiman, 1996a] 是并行式集成学习方法最著名的代表. 1.1、Bagging原理 bagging算法:bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样,我们就可以得到T个采样集&#xff…

随机森林-参数解说

sklearn–随机深林 1.集成算法概述 集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都…

Random Forest随机森林算法

Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,这里只简单介绍该算法在分类上的应用。 Random Forest(随机森林)算…

【随机森林】random forests 简单介绍

Random Forest,顾名思义 Random 就是随机抽取; Forest 就是说这里不止一棵树,而由 一群决策树组成的一片森林 ,连起来就是用随机抽取的方法训练出一群决策树来完成分类任务。RF用了两次随机抽取, 一次是对训练样本的随机抽取; 另一…