ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。
📀 杰伦新歌听了没?发现QQ音乐虚拟社区『Music Zone』了吗?
QQ音乐于近期在其内测版本中加入了 Music Zone 功能,为用户提供一个类似于QQ秀『QQ小窝』的虚拟空间,以供用户完成一些有趣的社交体验。加入 Music Zone 后,用户可以更换自身形象,随意装扮自己的『家』,并点击墙壁的虚拟播播放器完成音乐播放,是音乐版元宇宙社交的探索。
工具&框架
🚧 『Neo4j + vis.js』实现 Neo4j 图数据可视化,看看《权力的游戏》角色关系
https://github.com/neo4j-contrib/neovis.js
Quickstart Example 展示了详细流程与代码。从一个空白的Neo4j实例开始,加载《权力的游戏》数据集,生成通过INTERACTS连接的角色节点图。随后拉入neovis.js,通过vis.js可视化库果,实现节点大小与角色的页游评分成正比、节点的颜色由社区属性决定、关系的粗细与INTERACTS关系上的权重属性成正比等可视化效果。
🚧 『FastestDet』轻量无锚目标检测框架
https://github.com/dog-qiuqiu/FastestDet
FastestDet 是针对计算资源紧缺的ARM平台设计的,突出单核效能,用来接替 yolo-fastest 系列算法。相比于业界已有的轻量级目标检测算法(如yolov5n、yolox-nano、nanoDet、pp-yolo-tiny、FastestDet),FastestDet 无论在速度还是参数量上,都是要小好几个数量级的——参数仅为250K,与最快速算法相比时间消耗减少30% ,当然精度自然也比不过。
🚧 『VNote』专注于Markdown的基于Qt的开源免费的笔记应用
https://github.com/vnotex/vnote
VNote 通过强大的笔记管理功能,使得 Markdown 的阅读、编辑、预览、图片管理、UML图表、流程图、数学公式等体验更加轻松舒适。VNote支持主流操作系统 Linux、Windows、macOS,并将支持更多的文档格式。
🚧 『ZeroMQ』可伸缩的分布式或并发应用程序设计的高性能异步消息库
https://github.com/zeromq/libzmq
ZeroMQ轻量级消息传递内核是一个库,它用传统上由专门的消息传递中间件产品提供的功能扩展了标准套接字接口。ZeroMQ套接字提供了一个异步消息队列的抽象,多种消息传递模式,消息过滤(订阅),对多种传输协议的无缝访问等等。
🚧 『TerminalImageViewer』终端看图工具
https://github.com/stefanhaustein/TerminalImageViewer
使用 RGB ANSI 编码和 unicode 块状图形字符在终端显示图像的小C++程序,通过将 4x8 像素单元映射到不同的 unicode 字符,来增强分辨率。
博文&分享
📚 『推荐系统算法工程师』相关的面试题
https://github.com/km1994/RES-Interview-Notes
本项目是作者们根据个人面试和经验总结出的推荐系统(RES) 面试准备的学习笔记与资料,该资料目前包含推荐各领域的面试题积累。
📚 『数据可视化实战』免费电子书
https://handsondataviz.org/
《Hands-On Data Visualization:Interactive Storytelling from Spreadsheets to Code》,作者 Jack Dougherty、Ilya Ilyankou。本书通过教程、实例和线上免费且易学的工具资源,一步步地引导如何将数据从电子表格中取出,并转化为生动的互动故事。不需要编码经验。
数据&资源
🔥 『SSL4EO-S12』用于地表观测无监督/自监督预训练的大规模多模态多时相数据集
https://github.com/zhu-xlab/SSL4EO-S12
SSL4EO-S12 数据集是一个大规模的多时空变异数据集,用于地球观测中的无监督/自监督预训练。该数据集包括来自全球 251079 个地点的无标签 patch triplets(Sentinel-1 dual-pol SAR, Sentinel-2 top-of-atmosphere multispectral, Sentinel-2 surface reflectance multispectral),每个 patch 覆盖2640m x 2640m,包括四个季节性时间戳。
🔥 『研究/提高图神经网络表现力』的论文列表
https://github.com/mengliu1998/awesome-expressive-gnn
Awesome Expressive GNN, A collection of papers studying / improving the expressiveness of graph neural networks (GNNs)。研究和/或改进图神经网络(GNN)的表达能力的论文集。
研究&论文
可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。
科研进展
- 2022年6月27日『语音』| Avocodo: Generative Adversarial Network for Artifact-free Vocoder
- 2022年6月27日『自然语言处理』| Dynamic-Group-Aware Networks for Multi-Agent Trajectory Prediction with Relational Reasoning
- 2022年6月30日『推理』| Forecasting Future World Events with Neural Networks
- 2022年6月28日『计算机视觉』| Pedestrian 3D Bounding Box Prediction
- 2022年6月30日『计算机视觉』| PolarFormer: Multi-camera 3D Object Detection with Polar Transformer
- 2022年6月29日『计算机视觉』| BoT-SORT: Robust Associations Multi-Pedestrian Tracking
⚡ 论文:Avocodo: Generative Adversarial Network for Artifact-free Vocoder
论文标题:Avocodo: Generative Adversarial Network for Artifact-free Vocoder
论文时间:27 Jun 2022
所属领域:语音
论文地址:https://arxiv.org/abs/2206.13404
代码实现:https://github.com/rishikksh20/Avocodo-pytorch
论文作者:Taejun Bak, Junmo Lee, Hanbin Bae, Jinhyeok Yang, Jae-Sung Bae, Young-Sun Joo
论文简介:Therefore, in this paper, we investigate the relationship between these artifacts and GAN-based neural vocoders and propose a GAN-based neural vocoder, called Avocodo, that allows the synthesis of high-fidelity speech with reduced artifacts./因此,在本文中,我们研究了这些假象与基于GAN的神经声码器之间的关系,并提出了一种基于GAN的神经声码器,称为Avocodo,它可以在减少假象的情况下合成高保真语音。
基于生成对抗神经网络(GAN)的神经声码器由于其快速的推理速度和轻量级网络而被广泛使用,同时生成高质量的语音波形。由于感知上重要的语音成分主要集中在低频段,大多数基于GAN的神经声码器进行多尺度分析,评估降频的语音波形。这种多尺度分析有助于发生器提高语音可懂度。然而,在初步实验中,我们观察到专注于低频段的多尺度分析会导致非预期的伪影,例如混叠和成像伪影,这些伪影会降低合成的语音波形质量。因此,在本文中,我们研究了这些伪影和基于GAN的神经声码器之间的关系,并提出了一种基于GAN的神经声码器,称为Avocodo,它可以在减少伪影的情况下合成高保真的语音。我们引入了两种鉴别器来评估不同角度的波形:协作式多波段鉴别器和子波段鉴别器。我们还利用一个伪正交镜像滤波器组来获得下采样的多波段波形,同时避免了混叠。实验结果表明,Avocodo在语音和歌声合成任务中都优于传统的基于GAN的神经声码器,并能合成无人工痕迹的语音。特别是,Avocodo甚至能够重现未见过的扬声器的高质量波形。
⚡ 论文:Dynamic-Group-Aware Networks for Multi-Agent Trajectory Prediction with Relational Reasoning
论文标题:Dynamic-Group-Aware Networks for Multi-Agent Trajectory Prediction with Relational Reasoning
论文时间:27 Jun 2022
所属领域:自然语言处理
对应任务:Relational Reasoning,Trajectory Prediction,因果推断,推断
论文地址:https://arxiv.org/abs/2206.13114
代码实现:https://github.com/mediabrain-sjtu/groupnet
论文作者:Chenxin Xu, Yuxi Wei, Bohan Tang, Sheng Yin, Ya zhang, Siheng Chen
论文简介:Demystifying the interactions among multiple agents from their past trajectories is fundamental to precise and interpretable trajectory prediction./从过去的轨迹中解读多个代理人之间的相互作用是精确和可解释的轨迹预测的基础。
从多个代理人过去的轨迹中解读他们之间的相互作用是精确和可解释的轨迹预测的基础。然而,以前的工作主要考虑的是静态的、成对的相互作用,关系推理有限。为了促进更全面的交互建模和关系推理,我们提出了DynGroupNet,一个动态的群体感知网络,它可以i)在高度动态的场景中对时间变化的交互进行建模;ii)捕捉成对的和成群的交互;以及iii)在没有直接监督的情况下对交互强度和类别进行推理。基于DynGroupNet,我们进一步设计了一个预测系统,用动态关系推理来预测社会上的合理轨迹。所提出的预测系统利用高斯混合模型、多重采样和预测细化来分别促进预测的多样性、训练的稳定性和轨迹的平稳性。广泛的实验表明。1)DynGroupNet可以在物理模拟数据集上捕捉时变的群体行为,在轨迹预测过程中推断时变的交互类别和交互强度,而不需要任何关系监督;2)DynGroupNet在NBA、NFL橄榄球和SDD数据集上的ADE/FDE表现优于最先进的轨迹预测方法,分别有22.6%/28.0%、26.9%/34.9%、5.1%/13.0%的明显改善,并在ETH-UCY数据集上达到了最先进的性能。
⚡ 论文:Forecasting Future World Events with Neural Networks
论文标题:Forecasting Future World Events with Neural Networks
论文时间:30 Jun 2022
所属领域:推理
对应任务:Decision Making,Language Modelling,决策,语言模型
论文地址:https://arxiv.org/abs/2206.15474
代码实现:https://github.com/andyzoujm/autocast
论文作者:Andy Zou, Tristan Xiao, Ryan Jia, Joe Kwon, Mantas Mazeika, Richard Li, Dawn Song, Jacob Steinhardt, Owain Evans, Dan Hendrycks
论文简介:We test language models on our forecasting task and find that performance is far below a human expert baseline./我们在预测任务上测试了语言模型,发现其性能远远低于人类专家的基准线。
预测未来的世界事件是一项具有挑战性但有价值的任务。对气候、地缘政治冲突、大流行病和经济指标的预测有助于形成政策和决策。在这些领域,人类专家的判断有助于做出最佳预测。鉴于语言建模方面的进展,这些预测是否可以自动化?为此,我们介绍了Autocast,一个包含数千条预测问题和相应的新闻语料库的数据集。问题来自预测比赛,以确保高质量、现实世界的重要性和多样性。新闻语料库是按日期组织的,使我们能够精确地模拟人类在过去做出预测的条件(避免从未来泄露)。出于对跨数量级的数字预测的难度的考虑(例如2022年的COVID-19的全球案例),我们还策划了IntervalQA,这是一个用于校准的数字问题和度量的数据集。我们在预测任务上测试语言模型,发现其性能远远低于人类专家的基线。然而,随着模型规模的扩大和对新闻语料库中相关信息的整合,性能得到了提高。总之,Autocast对大型语言模型提出了一个新的挑战,性能的提高可以带来巨大的实际利益。
⚡ 论文:Pedestrian 3D Bounding Box Prediction
论文标题:Pedestrian 3D Bounding Box Prediction
论文时间:28 Jun 2022
所属领域:计算机视觉
对应任务:Action Anticipation,Autonomous Driving,行动预测,自动驾驶
论文地址:https://arxiv.org/abs/2206.14195
代码实现:https://github.com/vita-epfl/bounding-box-prediction
论文作者:Saeed Saadatnejad, Yi Zhou Ju, Alexandre Alahi
论文简介:Safety is still the main issue of autonomous driving, and in order to be globally deployed, they need to predict pedestrians’ motions sufficiently in advance./安全仍然是自动驾驶的主要问题,为了在全球范围内部署,他们需要提前充分地预测行人的动作。
安全仍然是自动驾驶的主要问题,为了在全球范围内部署,他们需要提前充分预测行人的运动。虽然有很多关于粗粒度(人体中心预测)和细粒度预测(人体关键点预测)的研究,但我们专注于三维边界盒,这是人类的合理估计,而不需要为自动驾驶汽车的复杂运动细节建模。这使我们在现实世界的环境中可以灵活地在更长的范围内进行预测。我们提出了这个新问题,并提出了一个简单而有效的行人三维边界框预测模型。该方法采用了基于递归神经网络的编码器-解码器架构,我们的实验表明其在合成(JTA)和真实世界(NuScenes)数据集中的有效性。学习到的表征具有有用的信息,可以提高其他任务的性能,如行动预测。我们的代码可在下列地址获取:https://github.com/vita-epfl/bounding-box-prediction
⚡ 论文:PolarFormer: Multi-camera 3D Object Detection with Polar Transformer
论文标题:PolarFormer: Multi-camera 3D Object Detection with Polar Transformer
论文时间:30 Jun 2022
所属领域:计算机视觉
对应任务:2D object detection,3D Object Detection,2维目标检测,3维目标检测
论文地址:https://arxiv.org/abs/2206.15398
代码实现:https://github.com/fudan-zvg/polarformer
论文作者:Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang
论文简介:3D object detection in autonomous driving aims to reason “what” and “where” the objects of interest present in a 3D world./自主驾驶中的三维物体检测旨在推理出三维世界中存在的 "什么 "和 "哪里 "感兴趣的物体。
自主驾驶中的三维物体检测旨在推理出三维世界中存在的感兴趣的物体的 "内容 "和 “位置”。遵循以往二维物体检测的传统智慧,现有方法通常采用具有垂直轴的典型直角坐标系。然而,我们认为这并不符合小汽车视角的本质,因为每个车载摄像头都以成像几何学固有的楔形(非垂直)轴的形状来感知世界。因此,在本文中,我们主张利用极坐标系统,并提出了一个新的极坐标变换器(PolarFormer),用于在鸟瞰图(BEV)中进行更准确的三维物体检测,只将多摄像机的二维图像作为输入。具体来说,我们设计了一个基于交叉注意的Polar检测头,不受输入结构形状的限制,以处理不规则的Polar网格。为了解决沿Polar距离维度的无约束的物体尺度变化,我们进一步引入了多尺度Polar表示学习策略。因此,我们的模型可以通过在几何约束条件下,以序列对序列的方式关注相应的图像观察,从而最好地利用Polar表征的栅格。在nuScenes数据集上的全面实验表明,我们的PolarFormer明显优于最先进的3D物体检测方法,并且在BEV语义分割任务上产生了有竞争力的性能。
⚡ 论文:BoT-SORT: Robust Associations Multi-Pedestrian Tracking
论文标题:BoT-SORT: Robust Associations Multi-Pedestrian Tracking
论文时间:29 Jun 2022
所属领域:计算机视觉
对应任务:Multi-Object Tracking,多目标跟踪
论文地址:https://arxiv.org/abs/2206.14651
代码实现:https://github.com/niraharon/bot-sort
论文作者:Nir Aharon, Roy Orfaig, Ben-Zion Bobrovsky
论文简介:The goal of multi-object tracking (MOT) is detecting and tracking all the objects in a scene, while keeping a unique identifier for each object./多物体追踪(MOT)的目标是检测和追踪一个场景中的所有物体,同时为每个物体保留一个唯一的标识符。
多物体跟踪(MOT)的目标是检测和跟踪场景中的所有物体,同时为每个物体保留一个唯一的标识符。在本文中,我们提出了一个新的稳健的最先进的跟踪器,它可以结合运动和外观信息的优势,以及相机运动补偿和更准确的卡尔曼滤波状态矢量。我们的新追踪器BoT-SORT和BoT-SORT-ReID在MOTChallenge[29, 11]的数据集中,在MOT17和MOT20的测试集上,在所有主要的MOT指标方面都排名第一。MOTA, IDF1和HOTA。对于MOT17:达到了80.5MOTA、80.2IDF1和65.0HOTA。源代码和预训练的模型可在https://github.com/NirAharon/BOT-SORT获取。
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。
- 作者:韩信子@ShowMeAI
- 历史文章列表
- 专题合辑&电子月刊
- 声明:版权所有,转载请联系平台与作者并注明出处
- 欢迎回复,拜托点赞,留言推荐中有价值的文章、工具或建议,我们都会尽快回复哒~