每日学术速递2.9

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV、cs.AI、cs.LG、cs.IR

1.Graph Signal Sampling for Inductive One-Bit Matrix Completion: a Closed-form Solution(ICLR 2023)

标题:归纳单比特矩阵完成的图信号采样:一个闭式解决方案

作者:Chao Chen, Haoyu Geng, Gang Zeng, Zhaobing Han, Hua Chai, Xiaokang Yang, Junchi Yan

文章链接:https://arxiv.org/abs/2302.03933v1(

项目代码:https://github.com/cchao0116/GSIMC-ICLR2023

摘要:

        归纳式单比特矩阵完成法是由现代应用所激发的,如推荐系统,新用户会在测试阶段出现,其评分只由1而没有0组成。我们提出了一个统一的图信号采样框架,它享有图信号分析和处理的好处。其关键思想是将每个用户对项目的评分转化为项目-项目图顶点上的函数(信号),然后学习结构图属性,从某些顶点上的数值恢复函数--这就是图信号采样的问题。我们提出了一类考虑到图顶点域中离散随机标签噪声的正则化函数,然后开发了GS-IMC方法,该方法使重建偏向于相邻顶点之间变化不大的函数,以减少噪声。理论结果表明,在温和条件下可以实现精确的重建。对于在线设置,我们开发了一个贝叶斯扩展,即BGS-IMC,它考虑了图形傅里叶域中的连续随机高斯噪声,并建立在预测-校正更新算法之上,以获得无偏和最小方差的重建。GS-IMC和BGS-IMC都有封闭式的解决方案,因此在大数据中具有高度的可扩展性。实验表明,我们的方法在公共基准上取得了最先进的性能。

Inductive one-bit matrix completion is motivated by modern applications such as recommender systems, where new users would appear at test stage with the ratings consisting of only ones and no zeros. We propose a unified graph signal sampling framework which enjoys the benefits of graph signal analysis and processing. The key idea is to transform each user's ratings on the items to a function (signal) on the vertices of an item-item graph, then learn structural graph properties to recover the function from its values on certain vertices -- the problem of graph signal sampling. We propose a class of regularization functionals that takes into account discrete random label noise in the graph vertex domain, then develop the GS-IMC approach which biases the reconstruction towards functions that vary little between adjacent vertices for noise reduction. Theoretical result shows that accurate reconstructions can be achieved under mild conditions. For the online setting, we develop a Bayesian extension, i.e., BGS-IMC which considers continuous random Gaussian noise in the graph Fourier domain and builds upon a prediction-correction update algorithm to obtain the unbiased and minimum-variance reconstruction. Both GS-IMC and BGS-IMC have closed-form solutions and thus are highly scalable in large data. Experiments show that our methods achieve state-of-the-art performance on public benchmarks.

2.Geometric Perception based Efficient Text Recognition

标题:基于几何感知的高效文本识别

作者:P. N. Deelaka, D. R. Jayakodi, D. Y. Silva

文章链接:https://arxiv.org/abs/2302.03873v1

项目代码:https://github.com/ACRA-FL/GeoTRNet

摘要:

        每个场景文本识别(STR)任务都由文本定位和文本识别作为主要子任务。然而,在现实世界中具有固定摄像头位置的应用中,如设备显示器读取、基于图像的数据输入和印刷文件数据提取,其基础数据往往是普通的场景文本。因此,在这些任务中,使用通用的、庞大的模型与定制的、高效的模型相比,在模型的可部署性、数据隐私和模型的可靠性方面存在明显的缺点。因此,本文介绍了开发模型的基本概念、理论、实现和实验结果,这些模型针对任务本身高度专业化,不仅实现了SOTA性能,而且具有最小的模型权重、更短的推理时间和高的模型可靠性。我们介绍了一个新的深度学习架构(GeoTRNet),它被训练来识别普通场景图像中的数字,只使用现有的几何特征,模仿人类对文本识别的感知。

Every Scene Text Recognition (STR) task consists of text localization & text recognition as the prominent sub-tasks. However, in real-world applications with fixed camera positions such as equipment monitor reading, image-based data entry, and printed document data extraction, the underlying data tends to be regular scene text. Hence, in these tasks, the use of generic, bulky models comes up with significant disadvantages compared to customized, efficient models in terms of model deployability, data privacy & model reliability. Therefore, this paper introduces the underlying concepts, theory, implementation, and experiment results to develop models, which are highly specialized for the task itself, to achieve not only the SOTA performance but also to have minimal model weights, shorter inference time, and high model reliability. We introduce a novel deep learning architecture (GeoTRNet), trained to identify digits in a regular scene image, only using the geometrical features present, mimicking human perception over text recognition. 

3.Neural Artistic Style Transfer with Conditional Adversaria

标题:有条件对抗性的神经艺术风格转移

作者:P. N. Deelaka

文章链接:https://arxiv.org/abs/2302.03875v1

项目代码:https://github.com/nipdep/STGAN

摘要:

        一个神经艺术风格转换(NST)模型可以通过添加著名图像的风格来修改简单图像的外观。即使转换后的图像看起来并不完全像各自风格图像的同一艺术家的艺术作品,但生成的图像还是很吸引人。一般来说,一个训练有素的NST模型专攻一种风格,而单一的图像代表这种风格。然而,在一个新的风格下生成图像是一个繁琐的过程,其中包括完整的模型训练。在本文中,我们提出了两种方法,向风格图像独立的神经风格转移模型迈进。换句话说,经过训练的模型可以在任何内容、风格图像输入对下产生语义准确的生成图像。我们的新贡献是一个单向的GAN模型,它通过模型结构确保了循环一致性。此外,这导致了更小的模型尺寸和有效的训练和验证阶段。

A neural artistic style transformation (NST) model can modify the appearance of a simple image by adding the style of a famous image. Even though the transformed images do not look precisely like artworks by the same artist of the respective style images, the generated images are appealing. Generally, a trained NST model specialises in a style, and a single image represents that style. However, generating an image under a new style is a tedious process, which includes full model training. In this paper, we present two methods that step toward the style image independent neural style transfer model. In other words, the trained model could generate semantically accurate generated image under any content, style image input pair. Our novel contribution is a unidirectional-GAN model that ensures the Cyclic consistency by the model architecture.Furthermore, this leads to much smaller model size and an efficient training and validation phase.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/60902.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机英文论文怎么做降重? - 易智编译EaseEditing

人工降重一定要找靠谱的机构做。 降重是很耗费精力和时间的学术服务。 而那些没有口碑且不专业的商家,真的会花费那么多心思来仔细琢磨你的论文吗? 那些没有声誉的非专业商家给论文降重会产生很多弊端: (1)他们为了…

英语学习|同义词替换|论文降重|similar|popular

alike, like, comparable, parallel, uniform, identical, resembling... 1.单数复数变换 2.加the去the 3.主动被动变换 4.同义词替换 5.从句类型变换 6.状语位置变化 7.变化顺序 9.of/‘s 10.无关紧要的副词可以删除 algorithm出现一般用复数algorithms, methods be molded …

Tesseract OCR+Tess4j实现图片中英文识别

文章目录 Tesseract简介环境搭建下载语言库 tess4j依赖demo Tesseract 简介 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。…

tesserocr识别图片

tesseract是什么 tesseract是google开源的OCR;tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract 。 …

.net Tesseract 图片识别

相信大家在开发一些程序会有识别图片上文字(即所谓的OCR)的需求,比如识别车牌、识别图片格式的商品价格、识别图片格式的邮箱地址等等,当然需求最多的还是识别验证码。如果要完成这些OCR的工作,需要你掌握图像处理、图…

腾讯ocr图片识别接口调用

最近开发了一个拍车牌识别车牌号的功能,主要调用了腾讯的ocr车牌识别接口,直接上代码: 首先生成签名以及读取配置的工具类: package com.weaver.formmodel.integration.ocr;import java.util.Random; import javax.crypto.Mac; …

图片识别工具Tesseract介绍和python搭配使用

Tesseract介绍和Python的搭配使用 一、Tesseract介绍、下载指南1、了解Tesseract工具2、下载地址3、请注意!!! 二 、环境搭建2.1 版本3.05安装2.2 最新版本安装2.3 环境搭建2.4 举个栗子 三、Python中的环境搭建3.1 安装pytesseract3.2 修改配…

js逆向之补环境过瑞数4.0 某房地产

写这篇文章的目的是为了记录一下自己的逆向之旅,后面会持续更新5.0,6.0,加速乐,akamai,5s盾,极验滑块,腾讯滑块,网易易盾等等. 过瑞数有很多方法,rpc,js逆向(扣代码和补环境),如果你不想屁股坐出痔疮,又或者又少几根头发,可以参考一下本篇文章.本章将从rs的流程逻辑以及详解补…

燕尾夹-钣金

草图1 基体法兰 褶边 展开 切除 拉伸切除:完全贯穿,折叠 底面草图绘制 从草图绘制折弯 绘制第2个折弯 基准轴 基准面 基准面草绘 基准面,对称 镜像实体

钣金cad插件_ug,CAD,SolidWorks,钣金??????非标等设计讲解

ug,CAD,SolidWorks,钣金​‌‌​‌‌非标等设计讲解 《培训课程》 一.UG、PROE三维产品设计班 1)产品设计流程; 2)三维造型、各类产品结构设计 3)产品表面处理工艺 4)UG、PROE 3D造型、抄板、工程图、逆向工程、点云处理。 5)100多套家电、医疗器械、汽车…

在proe中设计钣金件

Pro/Engineer 是美国PTC公司开发的三维实体建模软件,在工程设计开发中有着广泛应用,比如零件设计,钣金件设计,模具设计,管道线路设计等。目前该工程软件已发展到Creo3.0。本次将以proe5.0为设计平台浅谈该软件在实际工…

钣金cad插件_ug,CAD,SolidWorks,钣金??????非标等设计

ug,CAD,SolidWorks,钣金​‌‌​‌‌非标等设计 《培训课程》 一.UG、PROE三维产品设计班 1)产品设计流程; 2)三维造型、各类产品结构设计 3)产品表面处理工艺 4)UG、PROE 3D造型、抄板、工程图、逆向工程、点云处理。 5)100多套家电、医疗器械、汽车、手…

钣金设计大师20年钣金设计经验总结

钣金设计经验总结 1:明确标识毛边方向 钣金在下料及冲孔时会有R角及毛边的产生。尤其在量产一个阶段模具有所磨损之后,毛边会更为严重,甚至会割伤手指头。因此在出图制作模具时,就必须依功能,明确标示出毛边方向。 …

结构建模设计——Solidworks软件之使用钣金折弯功能做一个带折弯固定口的铝合金面板

【系列专栏】:博主结合工作实践输出的,解决实际问题的专栏,朋友们看过来! 《QT开发实战》 《嵌入式通用开发实战》 《从0到1学习嵌入式Linux开发》 《Android开发实战》 《实用硬件方案设计》 长期持续带来更多案例与技术文章分享…

solidworks钣金学习分享

1、基本法兰;选择 折弯扣除 板厚1mm 设置1.7mm 2、边线法兰;半径选择0.2mm 3、闭合边角,加长边选择较长的一边,方便后期折弯 4、放样折弯需要开口的草图

catia钣金根据线段折弯,CATIA钣金实例教程_生成棱边弯曲_生成局部折叠或展开

CATIA钣金实例教程_生成棱边弯曲_生成局部折叠或展开,使用 5.3 节的钣金零件。模型如图 5-40。 @PLONQ9KOT2[YI0M)I9MT05.png (62.9 KB, 下载次数: 82) 2018-12-2 17:43 上传 图5-40 钣金零件模型  点击工具栏内的 Unfolding 展开图标 {C~UYV2UI(41%RRR_ML_KV9.png (1.64 KB…

搜索神器Perplexity的详细使用方法(持续更新)

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,科大讯飞比赛第三名,CCF比赛第四名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

git commit 模板配置

Git Log 之痛 在《The Art of Readable Code》这本经典书中,有个形象的比喻,衡量代码可读性的指标是阅读代码时每分钟的 WTF 次数,而在读 Git 提交历史的时候,不知道你有多少次爆粗口?不相信?你现在打开公司…

一键式AI绘画,让你也能体验当画师的魅力(附原理分析)

文章目录 讲在前面一、Novel AI1. 网站介绍2. AI作画 二、AI绘画的内在原理1. Diffusion Model的基本过程2. 扩散模型的兴起 讲在前面 大概在今年10月初期,AI作画的热潮突然被掀起,这股潮流瞬间激起了人们对于AI的思考和恐惧,一方面来说&…

AI绘画网站最全收集!!

点击上方“AI遇见机器学习”,选择“星标”公众号 重磅干货,第一时间送 AI绘画在过去也一直有研究,但是最近几个月的突然爆发主要是因为一些关键技术的突破。例如,超大规模、跨模态的预训练语言模型的成熟,使得AI绘画可…