音视频技术开发周刊 | 302

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

45484d0fe04f897cf4a5d30a66479172.png

ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程

Code Interpreter 已经正式开放。

上海世界AI大会:MidJourney名字的来源是庄子?

MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言,认为AI将成为创造和想象力的新的载体和引擎。通过AI,我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney,霍尔兹表明它来自于道教著作《庄周》中的中道概念,他认为中国古典文学带来了很多最美丽的,最深沉的思想。

0967347cf64c2e9add9c8792680eae78.png

生成式AI时代的AI Infra—从DevOps->MLOps->LLMOps

这篇文章想要从AI Infra的角度出发,从更宏观的角度看Generative AI对AI Infra生态产生的变化,本文不局限于LLM,文中提到的LLM泛指一切Generative AI或者Foundation Models。

华为大模型登Nature正刊!比传统方法预测天气,快1万倍

盘古气象大模型或使人类得以重新审视气象预报模型的未来。

ff27756e207806e575b2213f0f478707.png

CIS制造工艺回顾与展望

CMOS图像传感器由于能够集成到具有高图像质量的智能手机中,因而正经历着巨大的增长。图像传感器发展的主要贡献之一是其制造工艺的创新。这篇文章详细回顾了CMOS图像传感器的不同制造工艺及其对智能手机图像质量的影响。讨论了使用硅通孔和Cu-Cu混合键合等技术制造CMOS图像传感器及其实验结果。

卖一颗芯片亏 23 万,自动驾驶芯片创业有多难

国内车载芯片创业公司黑芝麻智能向港交所递交上市申请材料,计划在港股主板挂牌。黑芝麻智能是仅有的两家实现量产上车的国产大算力芯片公司之一,其量产节奏和出货量仅次于地平线。

e7d2695c8edeaa737b248dd788d2c6ba.jpeg

通过诱导和限制表示的等变单视角姿态预测

该研究探讨了计算机视觉中的一个基本问题,即如何从二维图像中学习关于三维世界的信息。研究人员提出了一种理想的神经网络架构,该架构利用物体在三维空间中的旋转和平移特性,对新的图像进行预测。然而,将SO(3)的等变性应用于二维输入是具有挑战性的。为了解决这个问题,研究人员引入了SO(2)-等变性约束,并利用SO(2)在SO(3)上诱导和限制的表示来构建满足几何一致性约束的架构。

https://arxiv.org/abs/2307.03704

香港科技大学提出视角不变的场景图循环检测方法:迈向场景感知的机器视觉

针对室内场景中的视觉SLAM,这篇论文提出了一种基于增量生成场景图的回环检测方法。它综合考虑宏观视图拓扑、微观视图拓扑和语义实例的占有率,找出正确的对应关系。使用手持RGB-D序列进行的实验表明,该方法能够准确地检测出变化剧烈的视点中的环路。它在观察具有相似拓扑和外观的对象时保持了高精度。

09e16d918b8e9620a17937edce387aa4.png

从神经辐射场中移除物体

神经辐射场(NeRFs)是一种能够合成新视图的场景表示方法。现有的 NeRF 编辑框架很难实现这种指定物体的移除。本文提出一个框架,可以从 RGB-D 序列创建的 NeRF 表示中删除对象。NeRF inapinting 的方法利用了最近在 2D 图像 inpainting 方面的工作,并由用户提供的 mask 作为指导。该算法通过基于置信度的视图选择过程,选择使用哪些 inpainted 2D 图像来创建 NeRF,使生成的 NeRF 是 3D 一致的。本文所提出的NeRF编辑方法对以多视图一致的方式生成修复是有效的,并在一个全新的数据集上验证了所提出的方法。

图像压缩对视觉识别的鲁棒性分析

这篇文章的发现有助于在资源和带宽有限的情况下为用户部署视觉识别。在未来的工作中,希望探索在互联网规模的数据集上训练视觉识别模型时,本文的发现可以用于减少 I/O 绑定延迟。特别是,探索直接在潜在压缩图像表示上训练识别模型,而不是通过通常的 RGB 表示。

室内场景的凸分解(Convex Decomposition)

这篇文章关于三维图形的分割和重建。该研究描述了一种将复杂、杂乱的室内场景解析为简化的凸结构的方法。该团队使用简单的凸多边形作为基本元素来对场景结构进行抽象。利用学习到的回归过程,从RGBD输入中将场景解析为固定数量的凸多边形,并可选择使用分割信息来改善分解结果。

https://arxiv.org/abs/2307.04246

你不知道的分光测色仪结构

通过颜色的测量工具(统称为测色仪)可以轻松地得到被测物体在不同光源及各种条件下的色度数,甚至光谱曲线;有利于进行色彩的管理、控制及研发,方便不同厂家间的色彩交流和沟通;可以避免人为或环境因素造成的色彩判断偏差;无论室内室外,都可以做到更精准、客观地评判色彩。

688f9cddfbc35c95797e6f4d665b35cb.png

音视频工具--Onvif设备管理器

ONVIF 设备管理器 (ODM) 是一款免费的开源软件实用程序,旨在管理符合 ONVIF 标准的网络视频设备,例如 IP 摄像机、视频编码器和网络录像机 (NVR)。ONVIF 代表开放网络视频接口论坛,是基于 IP 的物理安全产品的全球标准化倡议,旨在促进不同制造商设备之间的互操作性。

直播道具高可用建设

根据2022年第四季度的财报数据显示,B站在跨年晚会期间的直播人气峰值达到了3.3亿。直播业务对于B站来说是一个重要的增长点,而道具投喂(赠送礼物,后面统称为道具投喂,礼物统称为道具)在直播业务中扮演着重要的角色。在这篇文章中,介绍了如何确保直播道具相关系统的高可用性,以实现99.99%的稳定性目标。文章将分为三个部分,分别是道具面板,道具投喂和多活。

f2c0485b61bfcf2d64bf161a9bb97915.png

Meta最新开源图形库IGL,star近2k,支持游戏开发、3D建模

IGL 是一个可直接调用 GPU 的跨平台图形库,通过底层跨平台接口封装了常见的 GPU 功能。Meta 称 IGL 的特性包括:跨平台兼容、高性能渲染、易于使用的 API、可扩展、完全开源、可用于任何项目,并且没有任何许可限制。

e8ab224ed60711dd92c2fd055fa10656.png

“Hey Siri”要成为历史了。

今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?

达摩院FunASR离线文件转写SDK发布,完成工业落地“最后一公里”

FunASR是由达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。

语音合成中的Lora,插件式speaker开发

语音合成中的Lora,插件式speaker开发,语音克隆的未来。

a3f0f17653e235400be81a15b7976fcd.png

苹果Vision Pro中文开发教程汇总

这篇文章介绍了将Unity VR应用带入完全沉浸式空间、开始构建空间计算应用等7个教程。

手持移动设备上凝视估计及其交互应用的全面综述

近年来,我们见证了越来越多的手持移动设备上采用凝视作为单一或辅助交互方式的互动系统。这一趋势是由这些设备的增强计算能力、更高分辨率和相机容量以及先进的机器学习技术(尤其是深度学习)所带来的凝视估计精度的提高驱动的。这篇文章旨在通过呈现一个端到端的综合视角来实现这一目标,从凝视捕捉传感器、凝视估计工作流程、深度学习技术到凝视交互应用的全面综述。

https://dl.acm.org/doi/10.1145/3606947

谷歌还能撑得起XR的野心吗?

苹果推出了有着划时代意义的Vision Pro,科技圈为此兴奋不已。Vision Pro公布数日后,谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一次采访中还表达过对Vision Pro的看法:“我对这项技术的潜力感到兴奋。” 

但几周后却传来谷歌停止开发AR眼镜项目“Iris”的消息,回想近些年谷歌在AR方面的投入,令人唏嘘。

14a0f7917d5f38e3fb8f98f5d00e4abf.png

EPIQ 2020 | SHVC based HTTP Adaptive Streaming over QUIC

这篇文章研究了QUIC和HTTP/2对ABR算法性能的影响。此外,提出了一种有效的方法,结合了传统的视频流传输方法(基于非可扩展视频编码格式)和一种重传技术,以利用可扩展视频编码格式进行自适应视频流传输。实验结果表明,在丢包和重传的情况下,QUIC从这种方法中获得了显著的好处。与HTTP/2相比,它提高了平均视频质量,并提供了更平滑的自适应行为。最后,本文证明了最初针对非可扩展视频编解码器设计的方法在可扩展视频(如可扩展高效视频编码,SHVC)上也能有效地工作。

e58a8e73c8ff1a5b673f9d1de69f1759.png

B站“横竖”都要

被短视频“冲击”一年后,中长视频能否如愿“逆天改命”?

867f810cbc3f24f0717e0345e6eaa9bc.png

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型

成维忠一直相信,人是未来 3D 交互的重中之重,而这种与“人”的交互,则必须通过 AI 和大模型来完成。

5fe6bc9195e3d9c22b83bf984cc7d514.png

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题,除了探索音视频技术在不同场景下的融合与发展外,还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里,你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂,与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会,你将有机会亲自与他们面对面,从他们丰富的经验中获得宝贵的技术心得。

28d249c2b0c304f3f076cce4e4033928.png

扫描图中二维码或点击“阅读原文 

查看更多LveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35847.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Window之系统开机Administrator账户被停用

在我们的Win7系统开机时如果没有设置其他账户,并且我们的Administrator账户被停用怎么进入Win7系统呢? 解决方法: 重启电脑后按F8进入安全模式, 右键点击“我的电脑” -- “管理” -- “本地用户和组” -- “用户” -- 右键“Ad…

Spug“账户已被系统禁用”的解决办法

前置文章: Spug发布前端项目实战全过程https://blog.csdn.net/wdy_2099/article/details/120215392 Spug设置报警提醒功能(钉钉、微信、邮箱)落地详细https://blog.csdn.net/wdy_2099/article/details/120224867 问题:未知原因导…

桌面计算机安全禁用账户,Win10电脑提示“你的账户已被停用,请向系统管理员咨询”的解决教程...

有用户在安装 解决方法一: 1、此情况可以长按电源键强制关机再开机看到WIN10登陆界面时再次长按电源键强制关机,如此三次后再开机会看到“查看高级修复选项”的按钮,点此按钮会进入WINRE环境,选择“疑难解答”; 2、选择“高级选项”; 3、选择…

【转】您的账户已被停用,请向系统管理员咨询解决办法

升级win10后发现开机时进入安全模式长按F8已经没用了,其实win10中把安全模式放入了系统修复模块,下面就来介绍下win10如何进入安全模式。 进入下边这个界面可通过按住 SHIFT 点击重启即可 工具/原料 win10 方法/步骤 打开“开始”菜单,找到里…

您的账户已被停用,请向系统管理员咨询 解决方案(亲测有效)

当你的电脑误操作了以下步骤,或者被篡改了设置了这里 那恭喜你,重启后就登不上Administrator账户了 首先看一下网上的三种无效方式 无效方式一:安全模式进入用户和组 一般两种方式进入安全模式: 方式一:F8进入 方式二:按住shift 重启 (1)选中其中的安全模式,在安全…

国庆节文字摘抄好词好句好段怎么写?用便签记录就可以

一般来说,在国庆节有不少学生都有一项这样的作业,这就是写国庆节文字摘抄,例如一些关于国庆节的好词好句好段,这不仅可以帮助我们积累一些知识,也可以让我们在以后的日常生活、写作文中使用到。那么国庆节文字照抄怎么…

我一直都以为摘录好词好句是一个好…

我一直都以为摘录好词好句是一个好习惯,以前我看到一些好词好句我就会把它们抄写到笔记本上,把它们背熟,然后到了写文章时就滴字不漏地照搬进去。直到现在我才明白,原来这是一个坏习惯,说是摘录,其实是抄袭…

关注CSDN社区微信,更多精彩等你来

CSDN社区微信公众号“程序人生”(微信ID:coder_life)来了,每天我们会将CSDN社区中大量的优质内容浓缩成1~3篇文章,推送到您的手机中,让您无论何时何地都能感受到知识的精彩、技术的力量。 扫描二维码关注&a…

常用值得收藏的网站/软件 持续更新中

学识决定眼界,眼界决定格局,格局决定人生。 文章目录 一、查询与资源类二、教育与学习类三、代码与资源类四、办工类五、技术与知识面类六、交流与分享类七、其他 这些年经常用的网站,觉得非常实用。与大家分享分享,独乐乐不如众乐…

1.Postman之发送get请求

Postman之发送get请求 1.创建一个集合 2.在集合中创建一个请求 3.GET请求获取北京今天天气: (1)天气API接口文档:http://doc.tianqiapi.com/603579 (2)请求API接口:http://www.tianqiapi.co…

关于PostMan发送请求获得响应

关于PostMan发送请求 在PostMan里面设置引用全局变量(环境变量和集合变量不常用) 附上官网变量设置:https://learning.postman.com/docs/writing-scripts/script-references/postman-sandbox-api-reference/#writing-test-assertions 1、点…

post请求变成了get请求,是怎么回事?

答案:**请求协议错了 ,请检查协议。**如果心急的就不用往下看了——特指jmeter接口请求 详解: 测试中有时要把用域名访问的接口,切换为用IP访问,这时,往往请求结果会出现Java报错,而且请求中 …

post请求,参数过长导致请求400

背景 近期参与项目,有一个功能在线标注非结构化数据,并把标注内容保存在后台,功能如下: 意外就这样不出意外的出现了,保存请求400 排查 第一阶段 参数key没有对应上吗?事与愿违,如果这么…

【无标题】gpt的明年

编辑:桃子 好困 【导读】苹果MAX力加满了!爆料称,苹果正秘密研发测试Apple GPT,Siri即将大升级,预计2024年推出。 「置身事外」的苹果,终于要放大招了。 彭博称,苹果正在暗中开发测试人工智能…

OpenAI Sam Altman对AI的最新思考:5.9 投资人峰会访谈 (全文+视频)

作者:城主 | 编辑:腾讯新闻 郝博阳 编者导语: 只经过了一个月,这个引领AI时代的男人似乎对之前的困惑都有了自己的答案。 在经历了数论关于AI监管的对谈和磋商后,最近很少发声的 Sam Altman 又一次接受了新访谈&#x…

穿越重生之门——小数点的风涅槃生之旅

文章导读 大家好,我是数行天下,上文讲述了异常家族新成员空指针从神秘出生到打败邪恶代码控制的AI败类的传奇故事。本篇借助ChatGPT和微软的new bing再推出一篇讲述小数点数字虚拟体从奇异降生到被数据采集程序抓走,送到一个数据清洗的新大陆…

素数判别和大数分解存在多项式算法

数学家假定黎曼猜想是正确的, 并据此认为属于NP完全问题的素数判别和整数分解必存在多项式算法。 NP完全问题与黎曼猜想紧密关联,且知黎曼猜想又是由互异版的哥德巴赫猜想在幕后操盘的。如果说物理学的前沿属于量子论和相对论的统一和细分,那…

阿里版ChatGPT突发官宣问世!紧追百度文心一言

上一篇:走了!再无百年阿里~ 来自 | CSDN(ID:CSDNnews) 4月7日 中午,阿里版类 ChatGPT 「通义千问」突然官宣: 没错,就这 3 行简短介绍 1 个官网地址,再无其他“剧透”。…

人工智能前沿——「小海带」超全视觉注意力机制资源分享(附下载链接)

&#x1f496;&#x1f496;>>>加勒比海带&#xff0c;QQ2479200884<<<&#x1f496;&#x1f496; &#x1f3c6;&#x1f3c6;>>>【YOLO魔法搭配&论文投稿咨询】<<<&#x1f3c6;&#x1f3c6; &#x1f431;‍&#x1f3cd;&…