音视频技术开发周刊 | 298

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cdc1f1583af676c7adebf1005415ae61.png

AI艺术在北京798,展望人工智能与环境的未来

本文很有意思的提出了个假设,通过人工智能和艺术家协作与实践产生环绕地球的叙事,去开启置身于AI时代与生态之中的想象。在这种协作中,如何重新想象我们共同生存的环境?如何通过这种协作对我们的生存环境甚至我们自身产生新的认识?如何去探讨二者共同的存在基础,真菌、地质、大气、天空、海洋······我们在这种共同生命体持续演化的模糊边界进行思考,在其间不断提出新的视角和问题,这正是盖娅与赛博格之间所创造的新的审美形式和想象空间。

AlphaDev突破十年算法瓶颈登上Nature,GPT-4紧随其后两步破解 

这篇经纬创投的文章中指出,近日,谷歌旗下DeepMind团队的人工智能项目AlphaDev研发出一种全新的数据排序方法,凭借一己之力提升排序算法的速度约70%,同时,对于哈希(Hash)算法,也找到了速度提高30%的办法。十多年来,C++排序库首次更改。这项最新的研究也登上了Nature。

坐不住的热心网友,尝试通过引导ChatGPT证明实力。仅仅一天时间,GPT-4在对话引导下,就能够通过两步获得和AlphaDev几乎相同的思路发现。让网友不禁感叹:大家还是低估了GPT-4。

‍LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归‍

Meta震撼发布了一个「类人」的人工智能模型 I-JEPA,它可以比现有模型更准确地分析和完成缺失的图像。

即使是如今最先进的AI系统,也始终无法突破一些关键限制。为了突破这层桎梏,Meta的首席AI科学家Yann LeCun提出了一种新的架构。

他的愿景是,创造出一个机器,让它能够学习世界如何运作的内部模型,这样它就可以更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。

今天Meta推出的图像联合嵌入预测架构I-JEPA模型,是史上第一个基于LeCun世界模型愿景关键部分的AI模型。

I-JEPA就是通过创建外部世界的内部模型来学习。在补全图像的过程中,它比较的是图像的抽象表征,而不是比较像素本身。在多个计算机视觉任务上,I-JEPA都表现出了强大的性能,并且比其他广泛使用的CV模型计算效率高得多。

ChatGPT重磅更新!价格打“骨折”,新增API函数调用,上下文飙升4倍

OpenAI 对 GPT 系列发布了重大更新,其中最核心的是 API 新增函数调用(Function calling)能力。

在这次更新中,OpenAI 重点介绍了函数调用:开发者不用手动选择函数,只需要模型描述需要用到的函数,何时调用哪个函数都是模型根据提示词自己决定的,与 GPT-4 调用插件的机制一样。

这些模型已经进行了微调,可以检测到何时需要调用函数,也可以生成符合函数签名的 JSON 响应。换句话说,函数调用使得开发者能够更可靠地从模型中获取结构化数据。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

本文中,有的人加入 OpenAI,有的人成立创业公司,也有的坚守谷歌 AI。当年正是他们共同开启了今天的 AI 大发展时代。

英伟达 RTX 4060 显卡本月推出

英伟达官网显示,RTX 4060 将在 6 月 29 日推出。RTX 4060 于上月和 RTX 4060 Ti 一同发布,原定于 7 月推出。这款显卡的国行价格定价 2399 元起。

RTX 4060 显卡在开启 RTX 40 系列显卡独有的帧生成技术后,性能是 RTX 3060 的 1.7 倍,关闭帧生成技术后性能是 RTX 3060 的 1.2 倍。

哔哩哔哩大规模AI模型推理实践

本文介绍,哔哩哔哩通过自研InferX推理框架+Triton模型服务部署,显著提升了计算资源使用效率,降低资源成本,保证服务响应时间和稳定,同时降低了ai服务开发部署成本,更快捷地支持各类型业务落地。

806897d61bcfdf94df08e5d6a59f5851.png

文本直生成音乐,Meta新开源模型MusicGen炸场!

6月13日,Meta(Facebook、Instagram等母公司)宣布开源了一款新的语言模型MusicGen,用户通过文本可直接生成音乐。

除了使用文本生成音乐之外,MusicGen还支持用户上传示例音乐,以增强音乐生成的准确性。例如,一首欢快的电子舞曲,带有切分音鼓、轻快的铺垫和强烈音乐波峰。然后再上传一首类似的歌曲《I Can't Stop》,点击生成即可。

体验了一下MusicGen,简单易用功能强大,资源消耗却很小。生成的音乐基本符合文本提示,音质通透、音频稳定、音峰抖动强烈等。总之,高音甜、中音准、低音稳,适合制作摇滚、舞曲、古典、流行、怀旧等背景音乐。

ChatGPT当债券分析师!金融科技巨头发布BondGPT,服务10万亿美元市场!

近日,全球金融科技领导者Broadridge(纽交所代码:BR)子公司LTX宣布,通过GPT-4打造了BondGPT,主要用于债券市场帮助客户回答各种与债券相关的问题,增强10.3 万亿美元的美国公司债券市场的流动和价格发现。目前,BondGPT已经投入使用。

据悉,为了增强ChatGPT的输出准确性和满足金融业务场景需求,LTX将Liquidity Cloud中的实时债券数据,输入到GPT-4大语言模型中,帮助金融机构、对冲基金等简化债券投资流程以及提供投资组合建议。

例如,有哪些收益率在5—8%之间的汽车债券,2030年后到期?;在过去30天的时间,哪些电信债券收益最高?;近5年,哪些零售企业的债券收益最高?;我有100万美元资金,想投资5年,有哪些高收益的债券选择?

ef61472ee569259e83d852582c3d7ef5.png

1530亿晶体管芯片发布,AMD正式叫板英伟达

在AMD的发布会上,最受人关注的毫无疑问是公司的Instinct MI 300系列。因为在英伟达GPU把持的AI时代,大家希望AMD的这系列芯片能成为万亿芯片巨头的最强竞争者。而从Lisa提供的参数看来,MI 300系列的新芯片拥有极强的竞争力。

“人工智能是塑造下一代计算的决定性技术,也是 AMD 最大的战略增长机会。”Lisa Su强调。

 bfbaa92299cc2901dbad137ca0b1ce9a.jpeg

使用Superb AI的套件和 NVIDIA TAO工具包创建高质量的计算机视觉应用程序

这篇文章演示了如何使用 Superb AI Suite 准备与 TAO Toolkit 兼容的高质量计算机视觉数据集。介绍了下载数据集、在Suite上新建项目、通过Suite SDK上传数据到项目、使用Superb AI的Auto-Label能力快速标注数据集、导出标注数据集、搭建TAO Toolkit的过程配置使用数据。 

https://developer.nvidia.com/blog/create-high-quality-computer-vision-applications-with-superb-ai-suite-and-nvidia-tao-toolkit/

1bf5918652647ae7f84b7791c541ee68.png

Text2NeRF:文本驱动的基于神经辐射场的三维场景生成

本文提出了 Text2NeRF 模型,一种通过组合 NeRF 的预训练的文生图扩散模型得到的文本驱动的三维场景生成框架。具体来说,本文的主要贡献有:

提出了一个文本驱动的真实感三维场景生成框架,该框架将扩散模型与NeRF表征相结合,支持从各种自然语言提示中零样本生成各种室内/室外场景;

引入PIU策略,逐步为3D场景生成具有视图一致性的新内容,并构建支撑集,在逐视图更新过程中为NeRF模型提供多视角约束;

采用深度损失来实现深度感知的 NeRF 优化,并引入两阶段的深度对齐策略来消除不同视角中估计的深度偏差。

图像与矩阵的关系

本文中讲到,数字图像是由许多像素(Pixel)组成,犹如肉身是由细胞构成的一样。当我们通过Photoshop等软件调节视觉元素的时候,本质上就是在调节像素。我们进行的每一步操作,最终会影响到所有像素或者某个特定区域的像素。所以在调整图像时,并不是改变整个图像的参数,而是在调节每个像素的参数。

如果要探究图像背后的奥秘,就会发现视频,图像,像素,分辨率,fps这些与图像形成息息相关的要素的尽头是线性代数。没错,就是你现在学的那个线性代数!可以通过此文了解一下与图像相关的一些概念。

acb290b3ee73e9df82451d1ca664dce4.png

视频编码格式和封装格式有什么关系?相机常见的编码格式有哪些?

看完本文,你将会知道两大问题:1.视频解码格式和封装格式的关系是什么?2.相机领域常见的编码格式有哪些?

视觉字幕:使用大型语言模型通过动态视觉效果增强视频会议

视频会议的最新进展通过实时字幕和噪声消除等功能显着改善了远程视频通信。然而,在各种情况下,动态视觉增强有助于更好地传达复杂和细微的信息。例如,在讨论在日本餐厅点什么时,您的朋友可以分享视觉效果,帮助您更有信心点“寿喜烧”。或者在谈论您最近去旧金山的家庭旅行时,您可能想展示一张您个人相册中的照片。

在ACM CHI 2023上展示的 “视觉字幕:通过即时视觉增强语言交流”中,介绍了一种使用语言提示通过实时视觉增强同步视频交流的系统。微调了一个大型语言模型,以使用为此目的策划的数据集在开放式词汇对话中主动建议相关的视觉效果。将 Visual Captions 开源为ARChat项目的一部分,该项目旨在通过实时转录快速构建增强通信的原型。

https://aigoogleblog.com/2023/06/visual-captions-using-large-language.html

新 Mac Studio 和 Mac Pro 最多可外接 8 台 4K 显示器

在新的支持文件中,苹果介绍了新 Mac Studio 和 Mac Pro 的外接显示器情况:有了 M2 Ultra,两款 Mac 最多都可以外接 8 台 60Hz 4K 显示器。

新 Mac Studio 有 1 个 HDMI 2.1 端口、新 Mac Pro 有 2 个 HDMI 2.1 端口,用户可以通过扩展这些端口,外接 60Hz 的 8K 显示器或者 240Hz 的 4K 显示器;M2 Ultra 芯片最多支持外接 6 台 Pro Display XDR。

M1 Ultra 芯片的 Mac Studio 最多可外接 5 个显示器。

c6b684a893c811994da02d73a47345da.png

基于机器学习的语音编解码器 Lyra

Lyra是一种基于机器学习的语音编解码器,通过引入预测方差正则化来降低对异常值的敏感性,从而提高性能。Lyra使用自回归模型WaveNet进行过程建模,并通过输入噪声抑制来显着提高性能。Lyra的实验表明其质量与双倍速率运行的传统编解码器相似或更好,并且适用于低速率视频通话和消费类设备。

元尺度的实时音频:REAL-TIME AUDIO AT META SCALE

本文介绍了元尺度上处理最困难的音频挑战方法,并深入探讨音频的可靠性,确保音频实际工作。最后将展望未来和 RTC 中最令人兴奋的领域之一,即元宇宙中的大型群组通话。

在开始大型沉浸式通话之前,首先要保证得到了正确的基本要素。通话中过长的延时会降低交互性,导致参与者频繁地重复确认通话内容,这不是自然的对话。许多呼叫通过低带宽连接进行,即使最好的 WiFi 网络也会出现拥塞,因此 robust packet loss(指数据通信中对丢包(packet loss)具有鲁棒性或健壮性的特性或算法)也是很重要的一个因素。为避免背景噪音和自己的声音回响,需要全双工、高品质的声学生态消除和非平稳的噪音抑制。全波段立体音频的提供使用户离实现高质量体验的目标更近一步。这一目标的下一步是实现身临其境的音频体验,如特殊音频,这是创造身临其境魔力的关键。

音频格式--MP3格式介绍

本文介绍了涵盖多种音视频文件和编码格式,包括但不限于MP4、AVI、MKV、H.264、AAC、MP3等。通过深入了解这些常见的音视频文件和编码格式,用户可以更好地理解它们在视频传输和存储中的应用,从而更好地应对实际的应用场景和问题。同时,这些知识也可以帮助用户更好地理解和掌握音视频开发基础,提升用户对于音视频的质量。

深度学习在声源定位中的应用

本文指出,通常情况下,SSL被简化为对源的到达方向(DoA)的估计,即它专注于方位角和仰角的估计,而不估计到麦克风阵列的距离。SSL具有许多实际应用,例如,例如声源分离、自动语音识别(ASR)、语音增强和房间声学分析等。

2469a9da236f60c4be616e6e14e4093c.png

WebRTC 支持已合并到 OBS 中 (discuss-webrtc)

https://groups.google.com/g/discuss-webrtc/c/tNPuUiT2bTs/m/bLth7DlsAAAJ

6f68d28f16d08456060c598a98e331b9.png

平行云——开启通往元宇宙的通道

本文认为,元宇宙是平行于真实世界的虚拟世界,是新一代互联网。具有真三维、可交互、可沉浸特性的XR,是构建元宇宙的终极数字媒体形态。如何打破XR终端设备与XR内容之间的紧耦合,实现任意平台、任意终端的线上访问,Cloud XR是其必由之路,从而开启通往元宇宙的通道。平行云是国际领先的Cloud XR的理念倡导者和技术先行者,致力于为行业伙伴和开发者提供低代码、开箱即用、高效部署的Cloud XR PaaS平台产品。已在全球范围内已吸引近千家企业用户,数万名独立开发者,产品及解决方案成熟应用于教育培训、数字孪生、医疗康复、虚拟直播、数字人、云活动、云游戏等场景。

IoT 如何改变可持续发展元宇宙的游戏规则

本文中的一项观点认为,虚拟宇宙可以说是当今可用的数字化转型最深刻的成果,它以一种非常基本的方式依赖于数据。因此,在过去 30 年的所有技术进步中,正是那些以数据为中心的技术才能实现元宇宙。尽管这里隐含着重要的广度和深度,但事实证明物联网 (IoT) 不仅是最具颠覆性的进步,而且是实现元宇宙最关键的进步。

https://techcommunity.microsoft.com/t5/green-tech-blog/how-iot-is-a-game-changer-for-the-sustainability-metaverse/ba-p/3291430

7dec7d1ac506dba239a9708de2ece00d.png

AI芯片行业专题报告:国产AI芯片的创业裂变

报告认为,释放算力的价值对国家整体经济发展将发挥推动作用。计算力指数每提高 1 点,数字经济和 GDP 将分别增长 3.5‰和 1.8‰。可见,国家计算力指数越高, 对经济的拉动作用越强。在业界,人工智能的应用产生了很多需求,其中最直接 的赛道是企业数字化转型。据 IDC 统计,全球范围内,企业在人工智能(AI)市场的技术投资从 2019 年的 612.4 亿美元增长至 2021 年的 924.0 亿美元,预计到 2022 年(同比)将增长 26.6%至 1,170.0 亿美元,并有望到 2025 年突破 2,000 亿美元,增幅高于企业数字化转型(DX)支出整体增幅。

2043d38adc90122d27ead1e738d605fe.png

2023 年媒体技术融资状况

作者的观点认为,企业资金和投资的公式通常如下所示:确定问题,并通过有利可图的解决方案、优秀的团队和巨大的增长潜力来解决它。但在媒体技术领域,大多数公司都在反对其他一些东西:将客户转移到SaaS模式,并赢得想要在内部构建一切的媒体公司。鉴于这些固有的挑战,对于该行业的公司来说,投资在哪些领域看起来是一个好主意?

虽然在过去几年中,数十亿美元投入到内容开发中,这引起了大家的注意,但在幕后,一系列视频技术供应商和工程师正在构建用于交付这些内容的基础设施。这种基础设施不仅被老派媒体公司使用,也被Netflix和下一代媒体公司等颠覆者使用。

根据标普全球市场财智的数据,科技、媒体和电信的风险投资 (VC) 融资占融资轮次总价值的比例从 41 年的 2019% 上升到 45 年的 2022%。娱乐业被认为在经济低迷时期比其他行业更具弹性。那么,获得资金需要什么?业务基础、增长率、技术和健全的商业模式。

https://www.sreamingmedia.com/Articles/Editorial/Featured-Articles/The-State-of-Media-Technology-Financing-2023-158121.aspx

9fe323e46f42573d4100570810745ebc.png

2023LiveVideoStackCon上海站已进入全价期

eb98d2ded962261110421eda4cc6a63f.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32424.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:用Python模拟串口:学习串口通信的好方法

用Python模拟串口:学习串口通信的好方法 计算机与外部设备之间的通信经常需要串口。串口通信是指通过串行通信协议在计算机与外部设备之间进行数据传输。在实验室工作中,在传感器网络和控制系统中我们经常使用串口进行通信。为了调试这些系统&#xff0…

绿联nas骚操作,没事帮你压测下网络

如果遇到路由器频繁掉网,且家里有个绿联nas,那么大概率是nas的锅, 没啥值钱东西,希望不要掏空我的资料~ 继扫盘之后的又一骚操作 发现自从更新最新版本后,家里频繁出现断网。因为路由器为与nas通过单口1000兆&#xff…

History of Object Recognition (物体识别)

在github上看到一副总结的非常好的图(原图地址)先码住 😀😀😀 物体识别的综述 🍀发展历史: 🌱图像分类(Image Classification) 任务:根据图像中…

谷歌 TensorFlow 物理检测 API,目前最好的物体识别方案?

原文:Is Google Tensorflow Object Detection API the easiest way to implement image recognition? 作者:Priya Dwivedi 译者:聂震坤 审校:屠敏 用大数据干大事! 目前有很多种图像识别的方案,而 Goog…

姿态识别、手势识别(附代码)

姿态识别技术是一种基于计算机视觉的人体姿态分析方法,可以通过分析人体的姿态,提取出人体的关键点和骨架信息,并对人体的姿态进行建模和识别。随着深度学习技术的发展,近年来姿态识别技术得到了广泛的应用和研究,其中Pose是一种基于深度学习的姿态识别工具包。本篇博客将…

用户手势检测-GestureDetector使用详解

前言:今天终于可以正常上班了,阿里的百技真的真的太累了,作为队长,不仅要考虑到每一个人的感受,而且要最大程度地使大家团结起来,共同完成一个任务,四天的时间,14个人的小组完成一个…

如何使用OpenCV对物体进行搜索检测与识别

在本教程中,我们将了解对象检测中称为“选择性搜索”的重要概念。我们还将用C 和Python共享OpenCV代码。 物体检测与物体识别 对象识别算法识别图像中存在哪些对象。它将整个图像作为输入,并输出该图像中存在的对象的类标签和类概率。例如,类…

通用物体识别使用攻略

作者:让天涯 一、需求描述 大家在出去旅游的时候,往往会对景点里的特色事物感兴趣,而一般情况下,如果没有导游的介绍,我们不太清楚这个景区里的特色景点是什么,有时候即使看到了一个事物,都不…

python姿态检测实现多人多姿态识别python行为识别openpose行为骨骼框架检测动作识别动作检测行为动作分类

效果演示: 视频演示: python行为识别行为骨骼框架检测动作识别动作检测行为动作分类 项目下载链接:https://download.csdn.net/download/babyai996/87552750 0环境项目配置教程:https://download.csdn.net/download/babyai996/87…

Win11集成 ChatGPT,任务栏取消分组真的回来了

时隔两月微软如期发布了 Win11 Moments 3 更新,版本号 22621.1778 。 微软这次更新带来了许多质量更新和功能改进。 直观的改动是任务栏,网络图标在连接加密隧道时会上锁,时间显示到秒也重新回归。 日常会用到的 AltTab 任务选项卡被限制到最…

​干货!影视剪辑大神常用避免侵权的8个秘籍首次公开【覃小龙课堂】

哈罗,我是您的老朋友:覃小龙,您可以称呼我为覃总,因为我是腾然MCN和火星电商的老板,我2016年创办腾然MCN至今,已经是自媒体的骨灰级老司机了,所以今天给您带来的主题是: 干货&#x…

影视剪辑,视频剪辑的万能剪辑技巧来啦,剪辑技巧合集

好多人在学习视频剪辑时不知道如何入手! 今天这一篇总结来啦! 首先要掌握的就是关于正确的视频剪辑流程 ①建立好项目文件夹。根据时间、地点、大体拍摄内容等分类,在不同的文件夹存入对应的物料和工程。 ②获取素材。提前收集好要用的包装…

影视剪辑,PR剪辑软件两个转场教程

一、古风渐变擦除转场:拖入视频1和视频2,将视频2放到视频1上面的轨道,2者重叠部分就是转场部分。 【效果】【渐变擦除】,拖到视频2。 在开头K关键帧,【效果控件】【渐变擦除】【过渡完成】K帧调到100。 在2段视频交接…

影视剪辑,你应该掌握的剪辑流程和技巧

很多朋友想学视频剪辑,但是不知道如何入手?今天就把我的压箱底都告诉你们啦! 应该先掌握的剪辑流程! 建立好项目文件夹。在每个级的文件夹存入对应的物料和工程。 获取素材。先收集要用的所有素材与音乐。 回看和分类。按照脚本的结构进行素材分类&am…

影视剪辑视频制作教程,必备私藏软件工具分享给大家

影视剪辑最直接粗暴的方式就是送钱给作者,你只要发出剪辑的视频,有流量就有钱。所以现在很多新手自媒体都会选择影视解说赛道,但是影视剪辑视频的创作过程也是有很多重点要抓的,不搞清楚,账号也很难做起来!…

我们要被淘汰了?从科技变革看"ChatGPT"与"无代码开发"

现在只要一上网,就能看见GPT都在说“好厉害”、“太牛了”、“新技术要诞生了”、“我们人类要被淘汰了”之类的话题。 但是这伟大的技术变革到底给我们带来了什么呢?答案好像又比较模糊。现在ChatGPT的代写、问答,以及开始做的搜索、办公是目…

计算机相关专业混体制的解决方案(考公务员)

文章目录 序:编制介绍1、公务员报考要求2、公务员工作待遇3、公务员工作内容4、公务员报考复习 序:编制介绍 编制介绍:编制,也就是常说的铁饭碗。 编制的诞生为了控制吃财政饭的人员数量无限膨胀而设置的,所以名额有限…

在线LLM应用集锦(持续更新ing...)

诸神缄默不语-个人CSDN博文目录 本博文关注能够在线直接用的AI大模型应用。 大模型冲鸭!加速! 最近更新时间:2023.7.24 最早更新时间:2023.6.8 文章目录 1. 自研2. 非自研3. LLM衍生服务 1. 自研 聊天机器人 ChatGPT https://c…

“云炬众创”小程序的操作演示

1是什么 “云炬众创”是云炬网络公司在国家“大众创新、万众创业”口号号召下开发的一个探索创业性的小程序,目前主要内容是考研真题等学习资料的免费分享和下载。 2为什么 (1)考研真题等学习有很重要的价值 (2)考…

ChatGPT应用|科大讯飞星火杯认知大模型场景创新赛开始报名了!

ChatGPT发布带来的 AI 浪潮在全球疯狂蔓延,国内掀起的大模型混战已经持续半年之久,国产大模型数量正以惊人的速度增长,据不完全统计,截止7月14号已经达到了111个,所谓的“神仙打架”不过如此了吧。 ( 包括但…