音视频技术开发周刊 | 291

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

fdb300511f70de5f24f8c07baec9ca67.png

谷歌将 AI 芯片团队并入云计算部门 追赶微软和亚马逊

OpenAI推出的ChatGPT获得一定成功,微软是OpenAI的重要投资者,它将ChatGPT植入必应搜索,威胁到谷歌搜索地位。谷歌将会整合旗下两个AI研发实验室DeepMind和谷歌Brain,以增强公司AI部门实力。

Google DeepMind最新研究:如何将人类价值观融入AI?

政治哲学家 John Rawls 在《正义论》中探讨共生社会下的道德问题时,提到了一个旨在帮助确定群体决策公平原则的思想实验——无知之幕,Google DeepMind 认为,它可能是在管理 AI 时选择分配原则的合适机制。

美国NMA正式发布,ChatGPT等生成式AI监管原则

这是美国第一家权威机构正式发布的生成式AI监管原则,本次原则包括知识产权、透明度、问责制、公平、安全和设计6大部分,适用于文本、视频、图片、音频等其他格式的AI生成内容。

国内首个类 ChatGPT 模型:复旦大学 MOSS 正式开源,RTX 3090 显卡可运行

目前,MOSS 模型已上线开源,相关代码、数据、模型参数已在 Github 和 Hugging Face 等平台开放,供科研人员下载。

https://github.com/OpenLMLab/MOSS

全球首个车载语音GPT发布:SoundHound Chat AI for Automotive

据悉,这款AI内置了ChatGPT等当今顶级大语言模型产品,同时也支持汽车制造商自定义集成任何第三方大语言模型,以满足特定场景业务需求。众多汽车生产商对于该产品也产生了浓厚的兴趣。

https://www.businesswire.com/news/home/20230424005379/en/SoundHound-Launches-Chat-AI-For-Automotive-As-Study-Finds-50-Of-Regular-Drivers-Likely-To-Use-Generative-AI-Capabilities

WPP收购声音品牌服务商amp,将拓展基于生成式AI的品牌体验设计

完成收购后,amp将加入WPP旗下的品牌和设计咨询公司Landor & Fitch,增强后者在提供沉浸式品牌标识方面的专业知识,从而改变客户体验并使客户品牌在竞争激烈的市场中脱颖而出。

OpenAI将发布企业版订阅服务ChatGPT Business

OpenAI计划为ChatGPT引入一个新的订阅层,以满足企业客户的需求。这款被称为ChatGPT Business的产品被OpenAI公司描述为“为需要更多数据控制的专业人士以及寻求管理终端用户的企业提供服务”。

https://techcrunch.com/2023/04/25/openai-previews-business-plan-for-chatgpt-launches-new-privacy-controls/

投资10亿美元!普华永道扩大对ChatGPT、GPT-4的应用

全球四大会计事务所之一的普华永道(PwC)在宣布,计划在未来三年内投资10亿美元,扩大对ChatGPT、GPT-4等生成式AI的应用,并帮助客户通过生成式AI重构业务流程实现降本增效。

30de12f698a070a76b6aeb320786e5a1.png

AIGC的阿克琉斯之踵 

文章总结了ChatGPT的诸多难以忽视的问题,剖析了多模态大模型的本质、前提和不足,值得一看。

https://huaweicloud.blog.csdn.net/article/details/130284728?spm=1001.2014.3001.5502

AI音乐家:给我一个prompt,帮你实现编曲自由

来,放松一下,听点AI做的音乐吧。

1769a3663bc43c102086288f7f846e15.png

陆奇最新演讲实录:我的大模型世界观 

奇绩创坛创始人兼CEO陆奇是中国AI布道人,也是中国针对大模型最有发言权的人之一。到现在为止,你几乎很难在公开渠道听到陆奇的观点。本文涵盖了他对大模型时代的宏观思考,包括拐点的内在动因、技术演进、创业公司结构性机会点以及给创业者的建议。

对话算想未来创始人赵亚雄:希望做“为中国 AI 经济而生的 AWS” 

“未来一定是AI的世界”,赵亚雄博士的商业猜想转移到大模型。但他的商业方案“算想未来”不直接参与做大模型,而是要做大模型和AI应用的基础设施。未来“算想未来”要做AI的基础设施—— AI IaaS Cloud,区别于传统的云计算厂商,即一个以AI为导向的云计算厂商。

52c9fd2f3ea084ea0ea35c69d2b65cbe.png

如何在Java Spring Boot应用程序中使用Amazon S3存储桶来存储和检索媒体文件

这篇文章提供了一个非常实用的指南,教你如何在Java Spring Boot应用程序中集成Amazon S3存储桶来存储和检索媒体文件。它涵盖了所有必要的步骤和配置,并提供了有用的技巧和最佳实践。

https://www.twilio.com/blog/media-file-storage-java-spring-boot-amazon-s3-buckets

3fb2ca14d1c92e1535e83a426536f1f7.jpeg

腾讯多媒体实验室画质增强技术的前沿应用

LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍与大家分享画质增强技术的一些前沿探索和应用研究,在经典影像中非常重要的画质提升技术人脸修复和去压缩失真的能力,以及在腾讯视频和云游戏中能带来画质增强的技术。

333de3cddd65ed930917d8957c150c72.jpeg

美国海军空战中心开源!首个仅使用单目拍摄地面纹理的SLAM系统

64dac00178feedec7e7787af215d03b4.png

振动台系统的预防性维护

与被动维护不同,预防性测试方法为您的振动台是否会在不久的将来遇到问题提供了有价值的见解。实施预防性维护测试计划允许您在紧凑的测试计划的时间范围内规划维护,并降低计划外停机和设备故障的风险。 

AudioGPT:理解并生成语音、音乐和播报 

虽然ChatGPT一直在挑战我们的认知极限,但目前的大模型仍然无法处理复杂的音频信息或进行语音对话(如Siri或Alexa)。在本篇论文中,作者团队研发出名为AudioGPT的多模态 AI 系统。测试表明,AudioGPT在解决任务方面的能力,包括在多轮对话中理解和生成语音、音乐和声音中表现不凡。

http://export.arxiv.org/abs/2304.12995

2b293c471e41b2a11cf33c547a7772c7.png

SIGCOMM 2020|LiveNAS 神经增强型实时流媒体:通过在线学习改进实时视频摄取

规模增长背后抖音如何构建直播体验优化 

随着抖音直播用户持续增加,生态日渐丰富,在经历亿万规模化增长的过程之中,体验优化是必须要面对的问题,LiveVideoStackCon 2022北京站邀请到火山引擎直播技术负责人周一楠,分享抖音体验优化过程的一些探索与实践。

SIGCOMM 2020|LiveNAS 神经增强型实时流媒体:通过在线学习改进实时视频摄取

作者提出了 LiveNAS 实时视频摄取框架,它利用超分辨率深度神经网络来增强独立于 ingest 端网络带宽的实时视频质量。LiveNAS 通过 WebRTC 在各种真实世界的网络轨迹中实现了 PSNR 相比 WebRTC 平均 1.96 dB 的整体视频质量改进,并为直播流观众带来了显着 (12%-69%) 的 QoE 改进。

NAB2023:OpenGear 和 Dante 集成以及 Bridge Live 等新功能

AJA 正在开发一种新的 OpenGear 卡,可以将 Dante 音频直接集成到 OpenGear 系统中。这样,用户就可以将音频和视频信号共享相同的设备,从而简化工作流程并提高生产效率。此外,AJA 还发布了 Bridge Live,这是一种基于云的视频编码和传输解决方案。该系统可以帮助用户实现高质量的远程视频制作,并支持多个协议和格式,如 RTMP、SRT 和 HLS。

https://www.streamingmedia.com/Articles/News/Online-Video-News/NAB-2023-AJAs-Bryce-Button-Talks-OpenGear-Dante-Integration-and-Bridge-Live-158337.aspx

a67cc835987edb3dd8b3a48f0ac7c871.png

Wowza Streaming Engine + AMD Alveo U30 让高密度流媒体变得简单

在本届NAB2023中,AMD宣布和Wowza达成合作,以应对在流媒体处理方面所面临的挑战,例如高负载和高延迟。AMD Alveo U30加速卡可以提供高性能和低延迟。将Wowza Streaming Engine与AMD Alveo U30集成,以便实现高密度流媒体处理。

https://www.wowza.com/blog/high-density-streaming-made-easy-with-wowza-streaming-engine-amd-alveo-u30

26e3921ac58aa3bd387836cf861ad4fa.png

2023年中国智能视频编码行业白皮书


194bb0a7407fb5b059c3abb49910e157.png

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31178.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式AI年度观察 | 技术及产品快速迭代,生成内容质量及安全性仍需提升

原文链接: https://mp.weixin.qq.com/s/ED9mo5pxuDdyZmrFe-u7qw 一、2022年生成式AI发展观察 1.扩散模型和ChatGPT能力出众,多种生成模态涌现 扩散模型Diffusion(以下简称“扩散模型”)和神经网络模型CLIP结合,文生图实…

可信AI年度观察 | 生成式AI技术及产品快速迭代,生成内容质量及安全性仍需提升

自2021年起,生成式人工智能(以下简称“生成式AI”)连续两年入选Gartner《Hype Cycle for Artificial Intelligence》,被认为是未来重要的AI技术趋势。2022年以来,生成式AI产品不断涌现,生成内容模态多样&am…

孙燕姿谈“AI孙燕姿”:她的反应让人意外,深入体验揭示其背后的真相与潜力!

目录 前言AI歌手简介AI歌手的技术原理孙燕姿对“AI孙燕姿”的看法结论个人感受一、你听过AI歌手的音乐呈现吗?作为听众你的感受如何?二、你认为这种新型演艺模式能否获得广泛的市场认可?原因是什么?三、你认为AI歌手会取代流行歌手…

吞噬还是撬动?开发者如何应对大模型风暴?

责编 | 禾木木 出品 | CSDN(ID:CSDNnews) ChatGPT 的出现几乎改变了 AI 的风向,各方大佬都丝毫不吝惜溢美之词,比尔盖茨说这种人工智能技术出现的重大意义,不亚于互联网和个人电脑的诞生;英伟达…

《花雕学AI》ChatGPT跟人类的思考方式有什么不同?

一、ChatGPT是一个基于GPT-3.5的对话语言模型,它可以根据用户的输入生成多轮对话,也可以生成文本、代码、音乐等内容。ChatGPT的思考方式是利用大量的数据和强大的算力来学习语言的联合概率分布,从而能够根据上下文和目标生成合理和有趣的回复…

跟着ChatGPT学PsychoPy编程1:绘制一个随按键而变化的进度条

让GPT帮忙绘制一个随按键而发生的进度条(说的越详细越好): from psychopy import visual, event, core # 创建窗口 win visual.Window(size(800, 600), fullscrTrue) #True表示全屏 # 创建矩形框 rect visual.Rect(win, width0.1, height0.…

抖音服务器带宽有多大,才能供上亿人同时刷?

字节跳动有多少台服务器?字节跳动大型的数据中心出口带宽是多少? 最近看到一个有意思的提问:抖音服务器带宽有多大,为什么能够供那么多人同时刷?今天来给大家科普一下。 图片来自 Pexels 抖音,百度&#xf…

月报总结|Moonbeam 5月份大事一览

本月,Moonbeam迎来了Uniswap V3的部署,经过一年的社区讨论,UniSwap V3终于以5000万个同意票通过,将在未来一个月内部署于Moonbeam,为Web3用户提供更广泛公链生态的多链体验,加速应用之间跨链交互&#xff0…

月报总结|Moonbeam 4月份大事一览

本月,Moonbeam生态扶持进入下一里程碑!探索更多优质的早期Web3项目,Moonbeam Accelerator Program已公布进入最终加速孵化阶段的10家初创公司,这些幸运项目将在未来3个月接受顶级孵化公司和专业投资机构的培训,于下半年…

惊人的算力成本背后,自动驾驶公司如何加速研发创新

【摘要】AI算法模型的开发,测试和训练是自动驾驶公司最重要的工作之一,它们都需要大量GPU算力来支撑。然而,“一人一卡”的简单独占式GPU分配方式会导致GPU分配率高但实际利用率低,造成大量算力的浪费。基于远程GPU的GPU池化技术能…

Flutter 中使用 OpenAI GPT-3 进行语义化处理

Flutter 中使用 OpenAI GPT-3 进行语义化处理 视频 https://www.bilibili.com/video/BV1AA411X7o3/ 前言 最近 openai 的 ChatGPT 火了,然后我也想着用它来做点什么,于是就写了个 调用 openai api 语言执行工具,跑个测试,以后再有…

谷歌云|机密 GKE 节点可在计算优化的 C2D 虚拟机上使用

机密 GKE 节点可用于计算优化的 C2D 虚拟机。 许多公司已采用 Google Kubernetes Engine (GKE) 作为其应用程序基础架构中的关键组件。在某些情况下,使用容器和 Kubernetes 的优势可以超越传统架构,但迁移到云端并在云端运行应用程序通常需要战略规划以降…

【打卡-Coggle竞赛学习2023年3月】对话意图识别

学习链接: https://coggle.club/blog/30days-of-ml-202303 ## Part1 内容介绍 本月竞赛学习将以对话意图识别展开,意图识别是指分析用户的核心需求,错误的识别几乎可以确定找不到能满足用户需求的内容,导致产生非常差的用户体验…

魔法咒语

魔法咒语 题目描述 Chandra 是一个魔法天才。从一岁时接受火之教会洗礼之后, Chandra 就显示出对火元素无与伦比的亲和力,轻而易举地学会种种晦涩难解的法术。这也多亏 Chandra 有着常人难以企及的语言天赋,让她能轻松流利地说出咒语中那些极…

网络舆情监测系统TOOM

在当今社会网络信息纷繁错杂,一条小小的舆情信息很可能引发异常舆情风暴,导致严重的舆情危机,而网络舆情监测系统能,更好地全面监测网络信息,未雨绸缪,精准把控,及时发现及时处理,为…

讯飞星火大模型V1.5发布 刘庆峰:我们要追赶OpenAI

雷递网 乐天 6月9日 讯飞星火认知大模型V1.5今日正式发布。讯飞称,时隔一月,星火大模型不仅各项能力获得持续提升,且在综合能力上实现三大升级:开放式知识问答取得突破,多轮对话、逻辑和数学能力再升级。星火APP同步发…

英伟达把GPT-4塞进我的世界,打游戏快15倍:AI大佬沉默了

深度学习自然语言处理 分享来自:机器之心 游戏行业可能要变天? 通用 AI 大模型 GPT-4 进游戏了,进的是开放世界,而且玩出了高水平。 昨天,英伟达发布的 VOYAGER 给 AI 圈内带来了一点小小的震撼。 VOYAGER 是第一个大模…

英伟达将GPT-4接入我的世界,无需人类插手,打游戏快15倍!

夕小瑶科技说 分享 来源 | 机器之心 游戏行业可能要变天? 通用 AI 大模型 GPT-4 进游戏了,进的是开放世界,而且玩出了高水平。 昨天,英伟达发布的 VOYAGER 给 AI 圈内带来了一点小小的震撼。 VOYAGER 是第一个大模型驱动&#…

AI前沿速报0427:多领域的AI技术突破

​ 人工智能(AI)技术不断创新,引领全球各行各业的变革。本期速报为您带来了近期AI领域的一些重要发展: 【一、AI在时尚产业的应用】 AI技术在时尚产业的应用方面取得显著进展,如趋势预测、产品设计、个性化推荐以及减…

英伟达把GPT-4塞进我的世界,打游戏快15倍!AI大佬沉默了...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【Transformer】微信交流群 转载自:机器之心 游戏行业可能要变天? 通用 AI 大模型 GPT-4 进游戏了,进的是开放世界,而且玩出了…