音视频技术开发周刊 | 290

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

c7bc8f60de1e15c6aea3729cab6251e8.png

TCSVT 2022 | 基于环路多帧预测的深度视频压缩 

本文基于端到端深度视频压缩框架,提出了一种环路多帧预测模块(in-loop frame prediction module),在不额外消耗码率的情况下,对当前帧实现基于多个参考帧的高效预测。

汇聚音视频新能量 探索行业新蓝海

作者从视频行业趋势和痛点出发,结合快手自身的探索、演进历程,分享技术变革和突破的思路,寻求行业新增长点。

英伟达Optical Flow SDK 为 Vulkan 带来加速运动处理

NVOFA是新型 NVIDIA GPU 上的专用硬件单元,用于以高性能计算一对图像之间的光流。NVIDIA Optical Flow SDK 公开了开发人员 API,使用户能够在应用程序中利用 NVOFA 硬件的强大功能。 

https://developer.nvidia.com/blog/accelerated-motion-processing-brought-to-vulkan-with-optical-flow-sdk/

516391a02ec72dc663e1771de3c5f227.png

什么是语音识别?

介绍了语音识别技术的基本概念、工作原理和应用场景。此外,作者还提到了一些开源和商业语音识别解决方案,如Google Cloud Speech-to-Text和Twilio Autopilot等。

https://www.twilio.com/blog/what-is-speech-recognition

为什么我们能判断声音的远近

本文探讨了双耳听觉在距离感知方面的重要性。并详细介绍了四个关键参数——声压级、直达声与混响声能量之比、频谱和双耳差异对距离感知的影响。

王博聊声学 | 音频主观评价方法 – MUSHRA

本文从音频感知的主观属性、评价方法、客观参数测量等方面与大家共同探讨技术挑战以及HBK的解决方案。

0c72585d2664783adb01f68b6c998d8b.png

RedPajama 模型发布,万亿级数据且开源

Together 发布 RedPajama 项目,旨在创建一套领先的全开源模型。目前,该项目已完成了第一步,成功复制了 LLaMA 训练数据集超过 1.2 万亿个数据 token。

https://www.together.xyz/blog/redpajama

ICLR 2023杰出论文奖得主独家分享:适配任意密集预测任务的通用小样本学习器

当计算机视觉模型学会了“举一反三”

对话Peter Lee:大模型在医疗健康领域应用的机遇与挑战

近期在微软研究院最新的 AI 前沿系列播客节目中,Peter Lee 与微软研究院副总裁、微软杰出首席科学家 Ashley Llorens 进行了一次深度对话,表达了他对于大模型在医疗健康领域应用潜力和挑战的看法,以及在大模型潮流的引领下,微软研究院对未来计算的研究规划。

10万月薪,大模型疯狂抢人

有业内人士预计:“国内能够进行相关技术研发的人才应该不超过1000人,保守一点来说仅有两三百号人。”但粗略计算下来,目前市场上已经存在几十个大模型项目了。抢人大战,燃起来了。

梁建章:人工智能如何影响经济和各行各业

未来的问题,不是人工智能能够干什么,而是人类选择会让人工智能干什么。

如何与孩子聊ChatGPT:AI大时代的完整版家长指南

供每一位关心时代变革与孩子成长的家长备查。 

迈向「大」和「统一」的视觉神经网络架构设计新思路

基础模型创新是视觉发展的核心源动力

大语言模型综述 

中国人民大学高瓴人工智能学院教师和学生调研了大语言模型的最新研究进展和主要技术路径,形成本领域的综述文章一篇,引用或介绍了相关论文420余篇,期望能为各位研究人员和工程人员提供一定的技术参考。

钉钉接入千问大模型,称未来将全面智能化

在千问大模型面世一周后,钉钉确认接入千问。目前,钉钉与大模型融合场景正在测试中,将在相关安全评估完成后上线。

解决深度学习中遇到的各种问题——自动微分方法——JAX(Just Another XLA)

相比于目前广泛使用的自动微分方法,JAX有更高的灵活性和可扩展性,并且可以在多个平台上运行,包括CPU、GPU和TPU等。JAX的另一个优势是能够支持一些基于源代码生成的编程语言,例如Python、NumPy和SciPy等。

https://ai.googleblog.com/2023/04/beyond-automatic-differentiation.html

DeepSpeed使用指南(简略版)

本文旨在简要地介绍Deepspeed进行大规模模型训练的核心理念,以及最基本的使用方法。

http://e.betheme.net/article/show-1318637.aspx?action=onClick

AI研究知识小组

AI主流工具合集,包含chatgpt、Midjourney和AI绘画和视频等。

https://zl49so8lbq.feishu.cn/wiki/wikcnLrLDTYCm2uxYKqzCVnCr1c  

全球最大的 ChatGPT 开源替代品来了,支持 35 种语言 

不用费心买 ChatGPT Plus了。

Google组建“Magi”项目组,将发布全新AI驱动的搜索引擎

新的搜索引擎将为用户提供比Google现有搜索服务更加个性化的体验,并试图预测用户的需求。目前,Google公司已经组建了一支由设计师、工程师和高管组成的团队,负责打造这个全新的搜索引擎。

拥有“意识”的AI:如何让大语言模型具备自我意识?

为了更好地探究意识与人工智能的关系,张江老师梳理了人类意识研究、意识理论与建模、自指与意识机器、以及自模拟意识机器等话题。

OpenAI的CEO表示,巨型AI模型的时代已经结束

他认为,由于大规模预训练的模型需要消耗大量的计算资源和能源,并且存在数据隐私和环境可持续性等问题,因此未来的AI技术发展将会转向小型、更具可解释性和更加环保的模型。

https://www.wired.com/story/openai-ceo-sam-altman-the-age-of-giant-ai-models-is-already-over/

梯度视角下的LoRA:简介、分析、猜测及推广 

DINOv2:在没有监督的情况下学习强健的视觉特征

https://github.com/facebookresearch/dinov2 

什么是涌现?

2bf6c1921e04b7f320f904c0bcc2d754.png

麻省理工学院专家探讨生成式AI,应该谦虚对待模型的潜能并还需要继续学习

AIGC如何用于推荐?中科大最新《生成式推荐: 迈向下一代推荐系统新范式》论文

这篇论文提出了一种新的生成式推荐系统范式GeneRec,它通过结合content generation和instruction guidance来服务用户的个性化信息需求。此外,作者还强调了多种fidelity checks的重要性,以确保生成内容的可信度。

揭秘 Auto-GPT 喧嚣背后的残酷真相!

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。

AdobeFirefly也开始支持视频了 

Adobe将生成式AI带入视频编辑,让算法辅助用户生成想要的视频效果

英伟达发布音频转视频模型LDMs

https://research.nvidia.com/labs/toronto-ai/VideoLDM/

微软开源“傻瓜式”类ChatGPT模型训练工具,成本大大降低,速度提升15倍

Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF(基于人类反馈的强化学习)技术,可将训练速度提升 15 倍以上,而成本却大大降低。

055dbef12c3ca6566367996748a40205.png

Amazon EC2 Inf2 已经正式上线,提供低成本、高性能的生成式 AI 推理服务。

详细地介绍了 Inf2 实例的特点和优势,为使用者提供了有用的指导和建议,使其更好地利用 Inf2 实例来进行生成式 AI 推理。

https://aws.amazon.com/cn/blogs/aws/amazon-ec2-inf2-instances-for-low-cost-high-performance-generative-ai-inference-are-now-generally-available/

英特尔的 Core i5 处理器是目前最具性价比的 CPU 之一,但哪一个是更适合你的?

作者提到,Core i5 处理器在价格和性能之间找到了很好的平衡点,可以满足大多数用户的需要。然而,不同型号的 Core i5 处理器有着不同的规格和特点,例如核心数量、时钟频率、缓存容量等,需要根据自己的使用需求和预算做出选择。

https://arstechnica.com/gadgets/2023/04/intels-core-i5-is-the-best-bargain-in-cpus-right-now-but-which-should-you-get/ 

全球首款3nm芯片,正式发布

据Marvell介绍,公司在该节点中的业界首创硅构建模块包括 112G XSR SerDes(串行器/解串行器)、Long Reach SerDes、PCIe Gen 6 / CXL 3.0 SerDes 和 240 Tbps 并行芯片到芯片互连。 

d965dd0d16febb75df97bb9ceb4df261.png

亚马逊 CEO 表示 AWS 员工现在将“大部分时间”花在优化客户的云上

贝佐斯表示AWS正在构建一个更加安全、可靠、高效、环保的云计算基础设施,同时也在扩展新的产品和服务以满足客户需求。

https://www.theregister.com/2023/04/17/amazon_annual_shareholder_letter_aws/

6214372990a16e9bdb87b8f5247edf21.png

PAG 4.2 版本正式发布:新增 3D 图层与视频替换能力,大幅优化 UI 播放性能

PAG 4.2 版本新增支持了大家需求比较强烈的 3D 图层,针对需要同时播放多个 PAG 动效的 UI 及列表场景进行了优化,同时在视频后编辑和素材加密等垂直领域进行了封装,满足特定场景的用户需求。

使用Flux.jl进行图像分类

AI模型技术国家标准正式发布 全球标准体系布局基本成型 

ef76985b5729b90ff907fd6016d15ffb.jpeg

BP-EVD:一种实时性视频去噪方法

本文基于深度学习的视频去噪方法,巧妙安排了时域上数据的利用方式,实现了高质量的实时视频去噪。

15c685a26b71a19690b3b175fdc25197.jpeg

如何系统的学习机器视觉技术?

文章是部分机器视觉方面知识汇总,建议想学习的同学收藏。

0083c0371b0a8517b0d54b8f943f0e9b.png

元宇宙场景下的实时互动RTI技术能力构建

LiveVideoStack 2022北京站邀请到了 ZEGO 即构科技的解决方案专家许明龙,为我们介绍 ZEGO 在元宇宙场景中的底层技术能力构建。

ec8c0ffb52c4cf5f1498cdd50734d54d.png

Edison如何帮助我们在网络上构建更快、更强大的Dropbox

Dropbox为未来十年重写了其核心网络服务堆栈:停用在过去13年中累积的技术债务,并将高流量表面迁移到一个经过未来化改进的平台,以便适应公司的多产品演进。

https://dropbox.tech/frontend/edison-webserver-a-faster-more-powerful-dropbox-on-the-web

9d87b8ef569a7900498b3495207641fe.png

NAB展区详解

介绍了NAB的展位和新技术,有兴趣的可以观看。

https://www.sportsvideo.org/2023/04/19/sportstechbuzz-at-nab-2023-wednesdays-latest-from-vegas/

2023春季火山引擎“FORCE·原动力”大会

4月18日,由火山引擎主办的2023春季火山引擎“FORCE·原动力”大会在上海召开。本次大会全方位地展示火山引擎在云技术、云服务和云场景方面的最新探索、应用与实践,呈现创新发展的战略蓝图。 

948a36f779cb44461fdc90486828f9e7.png

BlikVM的开源KVM-over-IP解决方案

它可以让你在使用Raspberry Pi CM4或Allwinner H616处理器的设备上,通过网络远程控制和管理其他计算机。BlikVM由一款基于树莓派HAT设计的PCIe板卡驱动,这个板卡提供了将视频信号和USB输入/输出通过网络传输的功能。

https://www.cnx-software.com/2023/04/18/blikvm-open-source-kvm-over-ip-raspberry-pi-cm4-raspberry-pi-hat-pcie-board-allwinner-h616/

CNCF 模糊测试开源项目的安全性和可靠性

CNCF项目的介绍、结果以及两个目标:1. 扩展现有设置以包含更多模糊器并将更多项目集成到 OSS-Fuzz 中;2. 通过增加维护者的参与和教育来提高模糊测试工作的可持续性。

https://www.cncf.io/blog/2023/04/18/cncf-fuzzing-open-source-projects-for-security-and-reliability/

112737bac30d81d5941c8f60f9e4ab11.jpeg

2023视频编解码现状

虽然HEVC是高效的编解码器,但因为其使用费用和专利限制等原因,AV1正在成为一个更加流行的选择。

https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/The-State-of-Video-Codecs-2023-158116.aspx

CVPR 2019 | 实用的全分辨率学习无损图像压缩

本文提出了第一个实用的学习无损图像压缩系统 L3C,并表明它优于流行的工程编解码器 PNG、WebP 和 JPEG2000。 

非线性矢量变换编码-全新编码框架的探索

提出了一种VQ码本初始化策略,解决了多级VQ难以联合优化的问题。

02920645bed5a20bef54fa1491d7abfa.png

英伟达悄然垄断算力:人工智能背后的新帝国

算力的扩张与通用、技术的开发与布局,是英伟达成功的因由。

日本如何利用AI来解决老人出行问题

东京羽田机场推出自动行驶的轮椅,用来给年老和行动不便的乘客使用,实现从安检口到乘机口之间自动驾驶。


活动推荐

427cb0fc5e609d3f02f665628cb3def9.jpeg

LiveVideoStackCon 2023上海站 讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

https://sh2023.livevideostack.cn/

ab8aab322b544a690805766df8e5f818.png

【公开课】开放XCDN直播方案设计与实践

4月25日 19:00,我们邀请到了百度智能云视频云技术架构师 柯于刚老师为大家介绍一种基于HTTP/3协议的直播方案,并详细解析如何采用统一协议协同使用云、边、端各级资源,采用开放式架构实现多厂商服务互通,以及如何高效利用复杂的边缘资源,实现视频的快速加载、稳定播放。

时间:2965b9c8335ee7c9461d787148218edb.png2023年4月25日 19:00

报名:4dd18fa2cb1e0e26aa107b6f7e533650.png扫描图中二维码或点击【阅读原文】预约报名,观看直播!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/70721.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【程序员如何买股票 一】 股票基础知识

这一系列的博客是源于《2019 时不我与》,为了契合2019年度计划对投资理财理论知识的学习而开展的。股票作为长期理财和主要收益来源(股票,房产,长期持有债券)的一种,知道怎么玩儿才能让财富增值。搜寻了很多…

从冬奥看中国科技(三):数字人的觉醒与进化

冬奥赛事已过半,我们的情绪也在酣畅淋漓的竞技中跌宕起伏。在谷爱凌自由式滑雪的比赛中,武大靖代表的短道速滑团体赛的金牌中激昂;也为年轻单板滑雪小将苏翊鸣的银牌成绩判罚不停争论,为顶级花滑运动员羽生结弦的冬奥成绩惋惜。 近…

Vue快速入门

文章目录 一、Vue概述1.1什么是vue1.2Vue的特点1.3Vue和其他框架 二、Vue实例选项和基础语法2.1Vue实例选项2.2第一个应用2.3Vue第一个数据处理应用2.4基础语法2.4.1插值表达式2.4.2指令:v-text/v-html2.4.3 v-once2.4.4v-show、v-if2.4.5v-bind2.4.6v-on2.4.7v-for…

浅聊自媒体热点文章的万能写法,肯定可以帮到你

随着闭幕式的结束,这届冬奥会也落下帷幕。 要说今年这届冬奥,最火的莫过于他们两个人——谷爱凌和羽生结弦。 一个阳光自信完美到让人感慨上帝到底为她关上了哪扇门,一个用生命挑战4A让大家看到了奥林匹克精神。 圈内自媒体都说:为…

集合框架最详细知识点含例题

# 集合框架 **集合**:把具有相同数据类型的一组变量,汇聚成一个整体,就被称之为集合。 **集合框架**:为了表示和操作集合而规定的一种统一标准的体系结构。最简单的集合如数组、队列和列表等。任何集合框架一般包含:对…

AI赋能花样滑冰,景联文科技提供3D数据标注业务

在本届北京冬奥会花样滑冰男子单人自由滑中,日本选手羽生结弦如约挑战公认难度极高花滑动作4A(阿克塞尔4周跳),虽然结局有些遗憾,在落地时不慎摔倒,并未挑战成功,最终以排名第四的总成绩无缘领奖…

一文读懂MySQL常用语法

MySQL查询语句链接地址 MySQL是什么? 成为MySQL大神的基础~ 数据类型 数值:整数,浮点数(小数) 日期:年,年月日,时分秒,年月日时分秒 字符串:文本类型字符串,二进制类型…

冬奥幕后故事:从低碳火炬到AI裁判,十四年后中国科技再上场

北京冬奥会开幕后,一个段子在社交媒体上流传甚广:“夏奥开幕式和冬奥开幕式就差半年,这半年人类科技进步真大啊。” 冬奥季终于到来。 2月4日晚,北京冬奥会开幕式来到了万众瞩目的主火炬点燃时刻,两名运动员共同点燃…

python实现图片切九宫格拼图

上一篇文章写道照片切成正方形,这篇文章将介绍,正方形怎么切割成九宫格,自己实现的九宫格发朋友很炫的。 先上代码: # -*- coding: utf-8 -*-from PIL import Image import sys# 将图片填充为正方形 def fill_image(image):width…

python实现图片切正方形

想做个照片切规则的正方形用来做九宫图,一般真实照片都是长方形那种,我见过别人把找照片填充成正方形,然后九宫格实在是太丑了,我喜欢整张图全是照片的。 不多赘述,上代码: import os from random import…

python深度学习基于pytorch——tensor中逐元素计算addcdiv()、clamp()

对tensor中的元素按个计算操作,方法如下图所示: 主要就是tensor之间的运算,已经附加代码输出部分,很容易理解。 import torch #coco #逐元素操作 torch.manual_seed(0) t torch.randn(1, 3) print(t) #tensor([[ 1.5410, -0.293…

如何有效追热点打造爆款作品,教你快速创作

追热点是小编必备的使命,没有热点的文章,就像没有珍珠的奶茶!没有灵魂!“拆解、模仿、反馈、总结、反复”,是助我们在任何领域从菜鸟到高手的秘密武器。今天就给大家介绍一下,追热点有什么必备姿势&#xf…

java集合框架

java集合框架 集合:把具有相同数据类型的一组变量,汇聚成一个整体,就被称之为集合。 集合框架:为了表示和操作集合而规定的一种统一标准的体系结构。最简单的集合如数组、队列和列表等。任何集合框架一般包含:对外的…

python实现 pdf转png格式

转换的图片要实现给固定像素坐标生成RGB值,找了好几段代码只能转换不能进行第二步 不说了,发出来就是解决了,先上代码: #!/usr/bin/env python # -*- coding:utf-8 -*- # Time : 2022/6/27 14:45 # Author : coco # File : tes…

css3学习(01认知,选择器,样式)

文章目录 一 基础认知1.1 CSS的介绍1.2 CSS语法规则1.3 CSS引入方式1.4 CSS常见三种引入方式的特点区别(书写位置、作用范围、使用场景) 二 基础选择器2.1 标签选择器2.2 类选择器2.3 id选择器2.4 通配符选择器 三 字体和文本样式【1】字体样式3.1.1 字体…

【CSS】——cascading stylesheets层叠式样式表

目录 0、CSS介绍 1、CSS语句组成 2、CSS选择器的选择方式 1)CSS选择器的方式和选择器大全: 2)常见的三种方式: 3、添加CSS方式 1)外部样式表 html调用css代码 css文件 html文件 展示 2)内部样式表…

汇佳学校|肖紫兮:花滑冠军+学科全优,背后有何秘诀?

隋文静、韩聪、申雪、赵宏博、羽生结弦、庞清、佟健……一连串热门花滑运动员/教练的名字闪耀了北京2022冬奥会,也让这项兼具优美与力量的冰上运动项目在大众之间火爆起来。 在汇佳,就有一名这样的冰上花滑运动员:默默苦练9年时间&#xff0…

从撞“新秀墙”到带团队,XTransfer海归码农升级之路

近来,互联网大厂纷纷被爆裁员,有些公司整个部门都被裁掉,有的应届生刚办理入职就被裁。几年前毕业进大厂是年轻人的首选,而如今大厂光芒正在逐渐褪去。 刚毕业不久的年轻人,应该是什么状态?很多人懵懵懂懂&…

HTML常用标签-1

1、标题标签 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width…

HTML简单介绍及你的第一个设计

一、HTML是啥&#xff1f; HTML的全称为超文本标记语言&#xff0c;英文名&#xff08;Hyper Text Markup Language&#xff09;是一种标记语言。它包括一系列标签&#xff0e;通过这些标签可以将网络上的文档格式统一&#xff0c;使分散的Internet资源连接为一个逻辑整体。HT…