每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
比尔盖茨:AI 时代开启
盖茨谈到AI如何改善人类的不平等现象,并在医疗、教育等方面做出贡献,但也存在风险。
GPT-4 Copilot X震撼来袭:AI写代码效率10倍提升
GitHub官宣:基于GPT-4的新一代代码生成工具Copilot X来了!
如何把ChatGPT集成到Twilio语音服务中?
给聊天机器人注入灵魂。
https://www.twilio.com/blog/integrate-openai-chatgpt-twilio-programmable-voice-functions
又一个辅助编程工具
集成了chatGPT的代码工具,一段文件描述就可以写好代码。
https://www.cursor.so/
从ChatGPT看AI在未来企业的应用前景
抛开具体的应用场景,我们发现,类似ChatGPT这样的AI对生产力的改变在未来会为个人及组织甚至整个产业带来前所未有的积极影响。
ChatGPT:生成式AI迎来拐点,商用落地前景可期
此报告来自国泰君安证券。
https://xueqiu.com/2524803655/241860556
Stuart Russell专访:关于ChatGPT,更多数据和更多算力不能带来真正的智能
本次采访也依循「a modern approach」,希望从一种切合技术和时代发展的视角,展现 Russell 教授对技术动向、智能理论,以及流行 VS 经典的思考,为 AI 研究人员和从业者带来启发。
来,给自己创造一套头像吧!
跟我一步一步做。
https://arstechnica.com/gadgets/2023/03/making-faces-how-to-train-an-ai-on-your-face-to-create-silly-portraits/
Adobe推出AI图像生成产品 Firefly 宣称自己是没有原罪的AI模型
Adobe 刚刚发布了自家的 AI图像生成模型套件 Adobe Firefly,现在还不能开放给用户使用,但可以申请 waitlist。
4个令人惊艳的ChatGPT项目开源了
今天,我将着重挑选几个优质的开源项目,对我们的日常工作、学习生活,都会有很大的帮助。
谷歌全面转向文字→视频生成
CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果:两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质,后者主要挑战视频长度,可以说各有千秋。
阿里巴巴达摩院发布开源文本到视频模型
这个文本到视频模型是基于Transformer架构和对抗生成网络(GAN)技术构建的。它可以将文字描述转换为与之匹配的视频,实现了自动化视频制作的目标。
https://modelscope.cn/models/damo/text-to-video-synthesis/summary
Midjourney画出完美中国情侣,画师、演员、模特
最新V5版的图像质量更高、输出更多样化、有更广泛的风格、支持无缝纹理、有更宽的纵横比、有更好的图像提示,以及更宽的动态范围……
Netflix:探索理解媒体内容的平台
Netflix探索了许多通过机器学习提升视频生产效率的方式,比如对话搜索和视频搜索。但由于不同项目均独立开发,维护成本巨大。目前,Netflix正在着手解决这一问题。
三一智能:SRS流媒体在交通行业的实践
近两年,汽车新四化的在很多车企中快速地推进。所谓汽车新四化,是指“电动化、网联化、智能化、共享化“。三一重工作为工程车辆的行业领头羊,也刻不容缓地开始数智化和电动化的研发和转型。
SRT开源六周年
超过600个成员加入SRT Alliance。
https://www.haivision.com/blog/all/srt-open-source-turns-six/
腾讯云音视频与FFmpeg开源生态
自由与开源软件的理念,从不解、争议、接受到如今如火如荼,经历了长期的历程。国内开源软件起步较晚,但进展迅速。腾讯经过几年的开源协同运动,也取得了不少成绩。其中,腾讯云音视频在FFmpeg、SRS等重要多媒体开源社区的贡献,颇具代表性。
如何通过FFmpeg进行VVC编码
本文将使用FFmpeg对Fraunhofer VVC编解码器进行测试。
https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/How-to-Produce-VVC-With-FFmpeg-157714.aspx
通过Apache Beam将Linkedin流媒体处理时间节省94%
迁移到Apache Beam,处理相同的作业时分配的内存和CPU时间都减少了一半。
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
bilibili-AVIF图片格式落地
AVIF格式能够带来许多优势,首先,AVIF格式具有明显的压缩率优势,可以比其他常用图片格式(如JPEG、PNG)节省更多的存储空间,减少图片加载所需时间和带宽,提高网站加载速度,提高访问者的体验;其次,AVIF格式丰富的特性支持,可以支持更多的设备和浏览器,提高图片的可用性,并可以免专利费的优势;最后,AVIF格式支持图片的质量优化,可以保证图片的质量,同时节省更多的容量。
小米前专利战略负责人Paul Lin谈专利池的利与弊
“专利池是很好的授权方式,但不是唯一的方式"。
https://www.iam-media.com/article/licensing-taps-xiaomis-former-ip-strategy-head-advisor
EPIC开发新的动作捕捉技术
“MetaHuman Animator”可以在几分钟内把频变成3D运动。
https://arstechnica.com/gaming/2023/03/epics-new-motion-capture-animation-tech-has-to-be-seen-to-be-believed/
全景声专辑《Divine Tides》再获格莱美
《Divine Tides》是基于MPEG-H三维声标准打造的360 Reality Audio索尼全新沉浸式音乐体验。
https://www.audioblog.iis.fraunhofer.com/cn/mpegh-grammy-2023
PDF文件可以嵌入声音了
通过Adobe PDF Embed API和Web Speech API就可以做到。
https://blog.developer.adobe.com/bring-voice-to-your-documents-9f1103ac60b5?gi=f735f2bb2f20
LE Audio爆发在即,解读未来音频产品功能应用,27年出货量将达15亿台
在2020年,蓝牙技术联盟推出了新一代蓝牙音频技术标准——低功耗音频LE Audio,带来了多项全新特性和LC3解码器,为未来蓝牙技术的应用提供了更多的畅享。
TikTok CEO未能说服国会
数据安全难题怎么解?
https://arstechnica.com/tech-policy/2023/03/congress-calls-tiktok-ceos-security-and-privacy-assurances-worthless/
Google认为拼多多App含恶意软件
该恶意软件是在Google应用商店之外的拼多多应用程序中发现的。
https://krebsonsecurity.com/2023/03/google-suspends-chinese-e-commerce-app-pinduoduo-over-malware/#comments
李开复正在筹组AI2.0公司
李开复在朋友圈表示:“我正在亲自筹组的 Project AI 2.0,是一个致力打造 AI 2.0全新平台和 AI-first 生产力应用的全球化公司。”
国内音视频开发的前景怎么样?一位老兵这么说
目前干我们这一行的年纪都比较大,我自己工作五年就是很年轻的了。年会上老板说除了音视频中心的大家都是比较年轻的......
marvell裁撤国内研发部门
marvell撤离研发部门,受损失最大的是marvell本身。对于员工来说,除了拿到赔偿金,相信也很快会在另外的企业找到发挥自己能力的岗位。
活动推荐
Adobe Summit 2023
拉斯维加斯,3月21-23日
https://business.adobe.com/summit/adobe-summit.html
倒计4天:和LiveVideoStack在2023年的第一场约会
下周五、六,再聚北京。
时间:2023年3月31日 - 4月1日
报名:点击【阅读原文】了解详细信息,报名参与。