每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
ChatGPT背后的经济账
ChatGPT能否取代Google、百度这样的传统搜索引擎?为什么中国不能很快做出ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本,从而造成对LLM的开发和应用偏离实际的误判。
一文读懂:有关ChatGPT的十个问题
根据 Similarweb 的数据,今年1 月,平均每天约有 1300 万独立访客使用 ChatGPT,是去年 12 月份的两倍多,累计用户超1亿,创下了互联网最快破亿应用的记录,超过了之前TikTok 9个月破亿的速度。
如何使用ModelScope训练自有的远场语音唤醒模型?
本文介绍魔搭社区中远场语音增强与唤醒一体化的语音唤醒模型的构成、体验方式,以及如何基于开发者自有数据进行模型的定制。
ChatGPT的前世今生,以及未来
据传,ChatGPT还成功通过了谷歌的编程面试,拿到了年薪18.3万美元的L3工程师offer。
ChatGPT横空出世,有很多你不知道的细节
1月底,美国《财富》杂志2/3月合刊的封面文章《全球爆红的ChatGPT是如何诞生的?》引爆了创投圈。
对话大模型中的事实错误:ChatGPT 的缺陷
一个引人瞩目的问题就是 ChatGPT 交互中仍会生成不少的事实性错误,对一些老幼皆知的简单问题也会一本正经的胡说八道。
音视频杂谈--ChatGPT和音视频开发
ChatGPT懂不懂音视频开发?
ChatGPT 教你 AI 绘画之 Midjourney 屠龙刀法第 1 卷
随着 AI 绘画取得了重大突破,横空出世的神器 Midjourney 也越来越被大家所熟知。如果把 Midjourney 比作屠龙宝刀,那么要用好这一利器的还得再配上一套『刀法』(提示词拼装技巧)。
2023北京,80位艺术家齐聚“大都东南”艺术科技展
卜桦、缪晓春、费俊、许毅博、田渊、邱宇等80多位艺术家的90余件人工智能、算法动画、机械装置、脑电波艺术、数据可视化、书法、绘画等多元形态作品在北京集中展出。
AR下的RTC技术与应用
LiveVideoStack很荣幸地邀请到了来自Rokid应用平台算法负责人,王文兵老师,为我们分享介绍AR下的RTC技术与应用。
ManVatar:基于运动感知神经体素的三维头像快速重建
本文提出了一种基于运动感知神经体素的快速三维头像重建方法 ManVata。ManVata是第一个将表情动作与标准外观解耦的头部模型,并用神经体素对表情动作进行建模。
FFmpeg 6.0有望在2023年秋季发布
VideoLAN 总裁 Jean-Baptiste Kempf 本周末在 FOSDEM 2023 上介绍了即将发布的 FFmpeg 6.0 版本以及 dav1d v1.1。FFmpeg 6.0的关键变化包括跨 Intel、NVIDIA 和 AMD GPU 的 AV1 硬件解码。FFmpeg 6.0 还将为 FFmpeg 命令行、RISC-V 架构优化、API 更改等带来多线程支持。
https://fosdem.org/2023/schedule/event/om_vlc/attachments/slides/5695/export/events/attachments/om_vlc/slides/5695/FFmpeg_VLC_js.pdf
AOM AV1 3.6 带来更多性能和效率优化
在使用 GCC 编译器工具链时还添加了 RISC-V 架构支持。
https://aomedia.googlesource.com/aom/+/refs/tags/v3.6.0
FreeSWITCH 1.10.9版本发布
这是一个重要的版本,包含了很多安全修复和稳定性改进。
QUIC 技术深入探究(1):QUIC 赋能未来
演讲者介绍了 QUIC,其优势和重要特征,并畅想了 QUIC 可以赋能的未来。
2023年十大流媒体发展趋势展望
经历了三年疫情,2023年流媒体将如何发展?虽然本文主要针对海外市场,但依然值得国内借鉴,比如AIGC、远程制播等领域领先国内许多。
未来科技创业畅想 | 5Y 3Sigma小圆桌年度回顾
本文来自五源资本,通过八场线上和线下的讨论会,针对消费机器人、通用机器人、自动驾驶、3D元宇宙、大模型与NLP、AIGC等不同领域的话题,有近百位来自工业界与学术界的朋友进行了观点分享与碰撞。
专访探索AGI的孤勇者,传奇工程师John Carmack:惊讶看不到如我这样的人
我坚信,实现AGI程序的源代码,一个人就能编写,规模是几万行。而不是Chrome三千万或者Twitter两千万那种量级。推理是:人的DNA信息量不到1GB,而大脑只有40MB,其中还有冗余和不精密的部分。十年内我们也能拥有匹配的硬件完成这项工作。
新版国家标准GB/T 28181-2022将于7月正式实施
与GB/T28181—2016相比,除结构调整和编辑性改动外,相关主要技术有一些变化。例如更改了标准范围,删除了“联网系统信息”“数字接入”“模拟接入”“模数混合型监控系统”“数字型监控系统”“监控点”“监控中心”的术语和定义。
Google AI 之旅的下一个重要阶段
Google 和 Alphabet CEO Sundar Pichai对ChatGPT的回应。
2022年32篇最佳AI论文:DALL·E 2、Stable Diffusion、ChatGPT等入选
Mila在读博士Louis Bouchard总结的论文列表,总体比较靠谱。GitHub上还有很多论文的短视频和文字解读、代码链接等。
https://hub.baai.ac.cn/view/22798
无损压缩鼻祖去世了,没有他就没有今天的Zip、PNG、MP3、PDF……
他就是Abraham Lempel,来自以色列的科学家。
oppo加入AAC音频专利池
oppo成为AAC中来自中国仅次于小米的第二大专利持有者。
https://www.iam-media.com/article/oppo-joins-licensings-aac-patent-pool
Zoom全球裁员15%
这可能是行业趋势扭转的信号?
https://blog.zoom.us/a-message-from-eric-yuan-ceo-of-zoom/
压着谷歌打!ChatGPT提前上岗微软搜索
就在谷歌预告Bard之后,微软已经抢先推出新版Bing和Edge浏览器。
阅读/资源推荐
2023年WebRTC趋势:黄金时代不在
随着疫情防控全面放开,混合办公成为主流的协作方式,WebRTC作为主流的RTC基础技术自然也受到影响。在2023年,WebRTC代表的RTC技术会有怎样的剧本?
一起来学习图片
Google官网的免费课程。
https://web.dev/learn-images/
活动推荐
【公开课】聊聊百度视频质量那些事儿
受限于各种因素,视频质量评测在实践中存在着诸多问题:主观评估的置信度如何保证?如何进行规模化的主观评估?如何解决不同设备的差异带来结果偏差?如何解决评估者的差异导致的结果偏差?如何对主观评估进行有效的管理和调度?如何解释主观评估和客观算法之间的一致性?
时间:2023年2月16日 19:00
报名:扫码关注LiveVideoStack小秘书,获得观看方式。
LiveVideoStackCon 2022北京站 一起见证多媒体趋势
时间:2023年3月31日-4月1日
报名:扫描图中二维码或点击【阅读原文】了解更多详细信息,报名参与。