音视频技术开发周刊 | 283

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

f6c51b0ed9a70a7d7860567aca7843bb.png

基于隐扩散模型的高分辨率图像合成

本文提出的隐扩散模型(LDM)在图像修补和类条件图像合成方面具有一定优势,并且在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上具有高度竞争性的性能,此外与基于像素的扩散模型相比显着降低了计算需求。

ChatGPT之父Sam Altman最新文章:AGI及未来计划

AGI也会带来严重的滥用、严重事故和社会混乱的风险。因此,OpenAI希望可以通过制定一些原则来确保 AGI 的好处最大化,并控制它的潜在巨大的风险。这些原则包括:(1)让AGI成为人类的放大器,促进人类最大程度地繁荣发展;(2)确保AGI的好处、访问权和治理得到广泛和公平的分享;(3)正确应对巨大风险,通过部署功能较弱的技术版本来不断学习和适应,以最大程度地减少“一次成功”的情况。通过这些原则,确保 AGI 的发展造福全人类。

微软发布AI模型Kosmos-1能通过视觉IQ测试

Kosmos-1可以提取图片上的问题,给图片写一段描述,通过视觉IQ测试。

https://arstechnica.com/information-technology/2023/03/microsoft-unveils-kosmos-1-an-ai-language-model-with-visual-perception-abilities/

bae2941e594cb8205d1b8100cc545c76.png

“你的AI侵犯了我的版权”:浅谈AIGC背后的版权保护问题

2023年1月23日,美国三名漫画艺术家针对包括Stability AI在内的三家AIGC商业应用公司,在加州北区法院发起集体诉讼,指控Stability AI研发的Stable Diffusion模型以及三名被告各自推出的、基于上述模型开发的付费AI图像生成工具构成版权侵权。

阿里发布图像生成基础模型Compose

阿里巴巴团队开发的这个重磅图像生成模型 Compose,支持多重引导条件的图像生成(合成)(扩散模型)。跟 Stable Diffuison 属于同等级别的基础模型,但路线有差异。

3D感知图像生成

提供一张打了关键部分标签图片即可生成多角度的图片。

https://www.cs.cmu.edu/~pix2pix3D/

扩散模型Diffusion Models的原理浅析

扩散模型 (Diffusion Models)在今年得到了非常广泛的关注,最令人震撼的是它在人工智能创作内容AIGC (AI Generated Content)领域的表现。扩散模型在文本生成图片任务 (Text-to-Image)上表现非常出色,能够生成非常有想象力的图片。

AI 绘画神器 Stable Diffusion 玩法大测评

22年以来,以 Stable Diffusion、Midjourney、NovelAI 等为代表的文本生成图像的跨模态应用相继涌现。基于 Stable Diffusion 生成人和场景的效果都比较好,本文就带大家深入体验这款绘画软件。

063e9d7e09c5d1e2ab55042b84a31f9a.jpeg

2023年十大VR软件开发工具

一片蓝海市场之下,VR 内容生态亟待更多开发商和工作室的加入。伴随着整个 XR 产业近两年关注度的上升,各大开发引擎工具商也开始重视 XR 内容的开发布局,满足更多开发者向 XR 内容的制作需求。

Meta AR硬件负责人:我们在搞一些全新的东西

https://tech.facebook.com/ideas/2023/2/meta-ar-future-wearable-tech-caitlin-kalinowski/

3eeea364d504e2acdc373700b277545f.png

芯片行业,新的关键词

过去的70年是半导体芯片行业突飞猛进的70年,而到了今天,芯片领域下一个创新的机会在哪里呢?在今年ISSCC的主旨演讲(Plenary)以及会议发表的论文中,我们认为核心关键词就是“系统级创新”(system inovation)。

2917e21399a3f89c4f55a120f7f2129d.png

HTTP/3落地Pinterest

HTTP/3正在不断获得新的应用部署,也有越来越多的案例证明了HTTP/3对流媒体应用的价值。随着生态逐步完善,HTTP/3份额会进一步提升。本文来自Pinterest技术博客,LiveVideoStack已获中文授权,感谢Liang Ma对本文的审校。

3d88db8c1bbb1c1c90007c25a9546d3d.png

云游戏音视频体验优化实践

从2019年开始,云游戏的热度迅速上升,云游戏平台如雨后春笋般出现。然而,目前还未出现一个影响力大的标志性平台,并且大家对云游戏的预期与云游戏的真实现状有出入。那么,如何才能为玩家提供高画质、超流畅和低时延的游戏体验呢?本文来自智杰融兴的吴振永在LiveVideoStack Meet厦门的分享整理而成。

1c5371b0569aacfcb29bd54f12237c39.png

来了,metaIPC1.0

metaRTC推出metaIPC正式版1.0,基于metaRTC6.0最新版二次开发,metaIPC是为嵌入式/摄像头量身打造的webRTC版IPC Camera,可安装在国内大多数Soc芯片上,如在君正/瑞芯微/MSTAR/海思等等已经有多个成熟产品应用。

https://www.toutiao.com/article/7204459065487950393/?wid=1677744468700

索尼开源SRT的状态分析工具

已在GitHub上开放。

https://www.haivision.com/blog/all/sony-statistics-exporter-for-srt-available/

FFmpeg 6.0发布

在 FFmpeg 5.1 发布约 6 个月后,FFmpeg 6.0 "Von Neumann" 现已正式发布。该版本包含了许多新的编码器和解码器、过滤器以及 FFmpeg CLI 工具方面的改进。同时改变了发行方式,所有主要版本现在都会增加 ABI 版本;官方计划每年推出一个主要版本更新。

https://zhuanlan.zhihu.com/p/610383406

fd3730eed497ea7916a707fca43678a1.png

Chromium中的现代摄像机处理

本文整理了 Michael Olbrich 在 FOSDEM 2023 对使用 xdg-desktop-portal 和 PipeWire 在 Chromium 中开发高级摄像机 API 的介绍,包括了现状、实现、进展等方面。

浏览器关键更新(2023年2月)

来自Google官方的整理。

https://web.dev/web-platform-02-2023/

Safari 测试版16.4支持AV1

https://developer.apple.com/documentation/safari-release-notes/safari-16_4-release-notes

174a4e91e4e461f4b7b39e8e316e9d83.png

抖音视频不良画质检测

抖音每天的投稿量和消费量巨大,人工去线上捞取视频诊断画质问题,耗时耗力且覆盖力度不够,因此多媒体评测室针对上述痛点问题,成立了视频异常检测算法研发专项,期望通过自动化检测算法检测出线上画质异常问题。

160d073ad50aebe889cc2f29a5179f5a.jpeg

语音识别技术在B站的落地实践

自动语音识别(Automatic Speech Recognition,ASR)技术目前已大规模落地于B站相关业务场景,例如音视频内容安全审核,AI字幕(C端,必剪,S12直播等),视频理解(全文检索)等。

趣丸科技语音转换技术的探索与实践

本文将主要介绍语音转换的基础,常见方法和模型,并结合实际业务需求,介绍趣丸科技在语音转换创新音乐玩法上的一些探索与实践。

0fbba6b82cce3193d86ff4002bf47a40.png

ChatGPT负责人John Schulman:如何做好研究

让我们一起回顾研究科学家和创始成员之一John Schulman两年前的一篇博文——机器学习研究指南「An Opinionated Guide to ML Research」,文中详细讲述了从研究问题选择,到实践落地过程中最至关重要的环节。

独家专访 OpenAI 创始人:ChatGPT 及通用人工智能将如何打破资本主义?

在1月中旬参观了 OpenAI 的旧金山办公室后,《福布斯》采访了这位最近不愿在媒体上露面的投资人和企业家,与他聊了聊 ChatGPT、通用人工智能(AGI),以及他的人工智能工具是否会对谷歌搜索构成威胁等话题。

a45275ee6fb4268fff2fdb27f7f1ecd2.png

声网母公司发布2022 Q4及全年财报:Q4营收4010万美元

第四季度 Agora,Inc.实现营收4010万美元,全年总营收1.61亿美元。

Google可能在自家品牌手机上提供文本生成图功能

https://9to5google.com/2023/02/24/gboard-imagen/


阅读/资源推荐

音视频编解码--JPEG知识总结

JPEG在大约25年前开发了著名的数字图片编码标准,称为JPEG图像格式。JPEG 是联合图像专家组创建的,旨在用于照片压缩的一个标准。

ACM MMSys 2023字节跳动短视频传输挑战赛报名

多媒体系统领域的顶级学术会议ACM MMSys 2023将于今年6月在加拿大温哥华举办,本届大会的内容之一,网络传输挑战赛(Grand Challenge)由字节跳动组织承办,将聚焦短视频多源传输场景,提供首个大规模边缘节点实验平台,旨在进一步探索边缘节点在短视频下载场景的研究与应用价值。

https://www.livevideostack.cn/news/acm_mmsys_2023_bytedance_challenge/

活动推荐

25e316d502b5365e8f5fbdf4c046779b.jpeg

倒计时:和LiveVideoStack在2023年的第一场约会

时隔15个月,再聚北京。

时间:d16e782b1a632f6ae513ac6cb2bf152e.png2023年3月31日 - 4月1日

报名:21148504e47b3f6f4e95f91061e210ae.png点击【阅读原文】了解详细信息,报名参与。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20484.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能摩尔定律?Sam Altman被Marcus怼了;再也不用学Excel了?自愿降薪 40% 的库克,要被“踢出”董事会?...

本周AI业界又有哪些新鲜事? ChatGPT 肯尼亚工人为ChatGPT标注数据,2美元/小时 作为近年来AI领域的爆炸技术,ChatGPT热度一直不减。然而,就和视频数据需要标注一样,ChatGPT在构建内容过滤器时也需要进行数据标注。这些数…

OpenAI 的外包数据标注员,时薪不足2美元,称工作是“精神创伤”

这是「进击的Coder」的第 810 篇技术分享 译者:核子可乐 策划:李冬梅 来源:infoQ “ 阅读本文大概需要 3 分钟。 ” ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士…

ChatGPT用transformer算法在训练么

transformer算法是什么 Transformer 算法是一种用于序列处理的神经网络架构,首次在 2017 年的论文 "Attention is All You Need" 中提出。 它的主要特点是使用了注意力机制,能够自动学习到序列中重要的信息,并在计算时给予更多的…

推特营销引流入门指南

一、关注 当您关注另一个Twitter用户时,您进行订阅,即可立即阅读其内容分享。因此,请评估您关注的人,尤其是刚开始时。跟踪新用户的一种简单方法是找到他们的个人资料,然后单击“关注”按钮。 Twitter对于那些疯狂点…

亚马逊、阿里国际、Shopee、Temu等跨境电商平台测评自养号经验分享

对于亚马逊、temu、阿里国际等平台商家来说,流量非常重要。商家需要想办法提高流量。卖家店铺没有流量怎么办? 获取流量的第一点:自然搜索 自然搜索流量的来源实际上是通过站点的优化来提高排名的效果。站点优化有很多维度,如选择合适的关键…

跨境电商 | Facebook营销推广全攻略

Facebook 现已成为各种规模公司的强大营销工具,并提供不同的营销方式,包括 Facebook Business Page、群组和 Facebook 广告,帮助企业在目标受众中建立意识,与 客户并以有效且具有成本效益的方式推动销售。 本文将介绍营销策略、…

亚马逊、速卖通、temu、国际站卖家如何做自养号测评?干货分享

在跨境出口平台电商中,相信“刷单”是永远不会有消失的一天! 珑哥突然想到,如果我们中国没有“某宝”,会不会改变下我们国人做电商走捷径的思维呢!其实就算没有某宝,相信只要我们国人做,刷单的…

Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究...

导读 自2023年以来,Google旗下两大顶级人工智能研究团队 DeepMind 与 Google Brain 被不断推上风口浪尖,如何应对OpenAI与微软强强联合?如何组织不被看好的 DeepMind 与 Google Brain 团队合并?Google和OpenAI都没有护城河吗&…

Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究

Demis Hassabis:毕业于伦敦大学学院,DeepMind创始人。游戏开发者、神经学家和人工智能企业家,AlphaGo的创造者,帮助Google展开一场全新的人工智能革命。 DeepMind Google Brain 科学 工程 N 指代 Nilay Patel,Verg…

一周 AIGC 丨北京市率先出台 AIGC 产业政策,百度“放弃”元宇宙转向 AIGC

风口的转变是迅猛的、措不及防的、毫无情感的。2021 年是元宇宙元年,然而轰轰烈烈不到两年就成“昨日黄花”。曾经紧随 Meta 步伐,推出元宇宙“希壤”的百度转身将对标对象换成 OpenAI,发布文心一言大模型。地方政府及时调整产业政策&#xf…

大语言模型速查表;ChatGPT发展路线图;11条市场营销ChatGPT Prompt;使用Midjourney制作专属头像 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 大语言模型速查表 Large Language Model Cheat Sheet ShowMeAI知识星球资源编码:R115 本份速查表的制作目的,是…

CVPR2023论文速递(2023.3.23)!已接入ChatGPT总结!共26篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…

衣柜收纳隔板问题

问买一个两列三行的收纳神器 图片如下 (有后盖无前盖) 连接格子如下 1/4圆 1/2圆 板子有两种底部与顶部均为正方形 侧边为长方形 问题 1 连接格子 多少个 2.板子多少个 以两列三行为例 先分析一层 假设是没有顶盖 最后加上 第一行 7个 三行总共21个 加…

多重收纳(类模板)C++

目录 题目描述 思路分析 AC代码 题目描述 现在我们要制作一种盒子,它能够收纳多种类型的元素,比如int、double、char、string等等。 我们每接收到一个数据都将它用这种盒子包装起来,然后放到同一个vector中。 为了能够包装不同类型的元…

AJAX框架衣柜收纳技巧,史上最强衣柜收纳神技!看完我一口气收拾了189件衣服……...

来源:有品生活 ID:pinpinlife 要说家里最容易乱的地方, 排第一位的肯定是衣柜了, 衣服不收好,出门翻箱倒柜都找不到, 找到脾气都上来了, 还谈什么开启一天好心情? 今天春姐姐就和大家…

概念收纳

凸 凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;…

win10桌面管理文件收纳_放心的电脑桌面收纳工具必备,电脑桌面win10应用商店

放心的电脑桌面收纳工具必备 可以用下面的方法恢复:在windows文献夹,或是其他文献夹中新建一个文本文献,文献名为“显示桌面”,或是另存为也可以,这时候文献图标就变成显示桌面的图标了,将其放入快速启动栏…

整理收纳的概念和意义

在各位心中,整理是否是一种“让杂乱无章的环境变得干净整齐”的行为呢?因为忙于工作,我们的家总是会在不知不觉中变得凌乱。很多人认为,整理是要等家里乱了之后才不得不进行的一种善后行为。但其实整理的初衷,并非单纯的善后希望…

软件测试工具收纳整理,最新收纳整理软件测评 什么值得用?!!

最新收纳整理软件测评 什么值得用?!! 2021-01-20 20:43:02 2点赞 0收藏 1评论 创作立场声明:在使用过一些收纳软件后的一些感受,分享给大家,希望对大家挑选适合自己的生活助手有所帮助。自己的东西多又杂不…

软件测试工具收纳整理,全网最良心的收纳整理App测评 抠细节抠到眼瞎!!!...

全网最良心的收纳整理App测评 抠细节抠到眼瞎!!! 2021-01-08 19:16:21 6点赞 36收藏 2评论 创作立场声明:我在本文中的软件测评来自自我使用后心得,希望能够与大家分享,做出一定帮助。 这款收纳神器&#x…