深度学习数据集—文本、数字、文字识别大合集

最近收集了一大波关于文本、数字识别相关的数据集,有数字识别、也有语言文字识别,废话不多说现在分享给大家!!

1、500张手写拼音数据集

500张手写拼音数据集,包含对应txt格式标注及图片,,并提供lmdb数据格式转换脚本。

数据获取地址:https://www.dilitanxianjia.com/2540/

2、大规模金融领域中文语义解析数据集

数据集采用金融领域的表格作为数据源,涵盖了基金的产品和属性,选手需要构建模型将用户的自然语言问句转换成结构化查询语句(Structured Query Language, SQL)。AntSQL数据集由蚂蚁财富提供,由阿里云天池平台承办,旨在推动金融领域中文NLP技术和社区的健康发展,促进数字金融领域的交叉学科研究,服务数字经济健康发展的国家战略需求。

数据获取地址:https://www.dilitanxianjia.com/2492/

3、中文对联数据集

中文对联数据集,该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集分别分为上联和下联两部分。

数据获取地址:https://www.dilitanxianjia.com/2462/

4、符号图像数据集

符号图像数据集,该数据集共包含1363个图像文件,其中JPEG文件1361个,PNG文件2个。这些图像代表了英语和斯堪的纳维亚字母表中的29个字母,包括字母A-Z以及字母æ, ø和å。该数据集可用于各种机器学习任务,如图像分类和字符识别。

数据获取地址:https://www.dilitanxianjia.com/2435/5

5、12万个俄罗斯笑话数据集

12万个俄罗斯笑话数据集

数据获取地址:https://www.dilitanxianjia.com/2085/

6、几何形状分类数据集

几何形状分类数据集,数据集由3个数据类组成,每个类代表一种几何形状(三角形、正方形和圆形)。每个类由10000张生成的图像组成。

数据获取地址:https://www.dilitanxianjia.com/2066/

7、带有数字的页面图片数据集

带有数字的页面图片数据集,共10张手写阿拉伯数字图片

数据获取地址:https://www.dilitanxianjia.com/1992/

8、10000张字符文件识别数据集

10000张字符文件识别数据集,这些图像还包含字母(A-Z)、数字(0-9)和特殊字符(例如#)

数据获取地址:https://www.dilitanxianjia.com/1989/

9、各种字体的数字数据集

各种字体的数字数据集,不考虑字体规则的情况下识别数字。

数据获取地址:https://www.dilitanxianjia.com/1716/

10、手写数字和英文字符,数据集

手写数字和英文字符,数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist,分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28),存储在数据集的784列中。最后一列包含标签。

数据获取地址:https://www.dilitanxianjia.com/1713/

11、20个不同类别的中文新闻数据集

复旦大学新闻分类数据集,20个不同类别的中文新闻数据集,train文件夹下的文件是培训文件(共9804段)。答案文件夹下的文件是用于测试的(共9833段)。有20个不同的类别。

数据获取地址:https://www.dilitanxianjia.com/1710/

12、甲骨文图片数据集

甲骨文图片数据集

数据获取地址:https://www.dilitanxianjia.com/1199/

13、古波斯语楔形文字字体数据集

古波斯语楔形文字字体数据集,选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝),本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取,句子的波斯语和英语的抄写,句子的发音和翻译大量提取的波斯语和英语单词,使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明,该系统能够较好地处理楔形文字的识别,对测试数据的所有字符进行了较好的分类,准确率约为92%。

数据获取地址:https://www.dilitanxianjia.com/1196/

14、手写体数字从0到9图像数据集

手写体数字从0到9图像数据集,此数据集包含200张手写体数字图像。所有的数字都是作者在白纸上手写的,然后用智能手机相机拍摄。拍完照片后,额外的白色区域被裁剪。

数据获取地址:https://www.dilitanxianjia.com/1192/

15、俄语手写信件数据集

俄语手写信件数据集,该数据集包括一个文件夹,共有14190张PNG格式的俄文手写信件图片,便于使用CNN对手写信件进行分类。

数据获取地址:https://www.dilitanxianjia.com/1188/

16、发票信息识别数据集

发票信息识别数据集,数据集由XML文件和图像组成。XML文件包含从发票图像中提取的数据,为了清晰起见,文本和XML文件的名称保持相同。数据集的用户应该提取发票号、发票数据、公司名称(从公司1到公司2的发票)、公司电话号码、地址等实体。

数据获取地址:https://www.dilitanxianjia.com/1182/

17、梵文字符数据集

梵文字符数据集,CSV文件的尺寸为92000 1025。有1024个输入特征的像素值在灰度(0到255)。“字符”列表示与每个图像对应的梵文字符名。

数据获取地址:https://www.dilitanxianjia.com/1179/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/196218.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32/N32G455国民科技芯片驱动DS1302时钟---笔记

这次来分享一下DS1302时钟IC,之前听说过这个IC,但是一直没搞过,用了半天时间就明白了原理和驱动,说明还是很简单的。 注:首先来区分一下DS1302和RTC时钟有什么不同,为什么不直接用RTC呢? RTC不…

asp.net心理健康管理系统VS开发sqlserver数据库web结构c#编程计算机网页项目

一、源码特点 asp.net 心理健康管理系统 是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 系统视频链接 https://www.bilibili.com/video/BV19w411H7P4/ 二、功能介绍 本系统使用Microsoft Visual Studio…

【ISP图像处理】Demosaic去马赛克概念介绍以及相关方法整理

1. 基本定义 使用彩色滤光器阵列(CFA)的数码相机需要一个去马赛克程序来形成完整的RGB图像。一般的相机传感器都是采用彩色滤光片阵列(CFA)放置在光感测单元上,在每个像素处仅捕获三种原色成分中的一种。 去马赛克方法主要关注于复原非常规区域,比如边缘…

【数据结构】树与二叉树(十九):树的存储结构——左儿子右兄弟链接结构(树、森林与二叉树的转化)

文章目录 5.1 树的基本概念5.1.1 树的定义5.1.2 森林的定义5.1.3 树的术语 5.2 二叉树5.3 树5.3.1 树的存储结构1. 理论基础2. 典型实例3. Father链接结构4. 儿子链表链接结构5. 左儿子右兄弟链接结构a. 定义树节点b. 创建树节点c. 使用左儿子右兄弟链接结构将树转化为二叉树d.…

【限时免费】20天拿下华为OD笔试之 【前缀和】2023B-最大子矩阵和【欧弟算法】全网注释最详细分类最全的华为OD真题题解

文章目录 题目描述与示例题目描述输入描述输出描述示例输入输出说明 解题思路如何表示一个子矩阵暴力解法二维前缀和优化二维前缀和矩阵的构建 代码解法一:二维前缀和PythonJavaC时空复杂度 解法二:暴力解法(不推荐)PythonJavaC时…

解析:什么是生成式AI?与其他类型的AI有何不同?

原创 | 文 BFT机器人 快速浏览一下头条新闻,你会发现生成式AI似乎无处不在。事实上,一些新闻标题甚至可能是通过生成式AI编写的,例如OpenAI旗下的ChatGPT,这个聊天机器人已经展现出了生成看起来像人类所写文本的惊人能力。 当人们…

Ubuntu18.04安装Loam保姆级教程

系统环境:Ubuntu18.04.6 LTS 1.Loam的安装前要求: 1.1 ROS安装:参考我的另一篇博客 Ubuntu18.04安装ROS-melodic保姆级教程_灬杨三岁灬的博客-CSDN博客还是那句话,有时候加了这行也不好使,我是疯狂试了20次&#xf…

用script去做前端html表格分页/排序

前言: 掘弃掉与后端交互做分页和互导,有利有弊吧; 在小数据的时候,如果不停来回朝服务端发送请求,会造成堵塞.于是,放弃了之前的前后端ajax方式去请求分页表格,使用script去弄一个,降低服务器的压力; 整体思路图: 代码构造: {% extends "order_header_same.html" …

stm32入门建议跳过固件库去学习hal库吗?

stm32入门建议跳过固件库去学习hal库吗? 如果要以单片机作为以后的工作方向,建议还是深入了解一下单片机的原理与机制,比如串口收发的时候,内部的寄存器是怎么工作的,中断又是怎么工作的,然后我们又是怎么进行中断处…

uniapp优化h5项目-摇树优化,gzip压缩和删除console.log

1.摇树优化 勾选摇树优化,打包删除死代码 2.gzip压缩和删除console.log 安装插件webpack和compression-webpack-plugin webpack插件 npm install webpack4.46.0 --save-devcompression-webpack-plugin插件 npm install compression-webpack-plugin6.1.1 --save-devconst Com…

代码随想录算法训练营第25天|216.组合总和III 17.电话号码的字母组合

JAVA代码编写 216. 组合总和III 找出所有相加之和为 n 的 k 个数的组合,且满足下列条件: 只使用数字1到9每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同的组合两次,组合可以以任何顺序返回。 示例 1: 输入: k …

【观察】华为:数智世界“一触即达”,应对数智化转型“千变万化”

毫无疑问,数智化既是这个时代前进所趋,也是国家战略所指,更是所有企业未来发展进程中达成的高度共识。 但也要看到,由于大量新兴技术的出现,技术热点不停的轮转,加上市场环境的快速变化,让数智化…

数据结构--栈与队列

目录 前言 1.栈 1.1栈的概念及结构 1.2接口函数 1.3函数实现 1.4如何使用 2.队列 2.1队列的概念及结构 2.2接口函数 2.3函数实现 2.4如何使用 前言 前面我们已经学习了顺序表和链表,今天我们来学习栈与队列,这两种结构也属于线性表,实…

顺序表(数据结构与算法)

✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ ✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨ 🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿&#x1…

从0开始学习JavaScript--JavaScript 流程控制

JavaScript中的流程控制结构是编写结构化、可读性强的代码的关键。本文将深入研究JavaScript中的流程控制,包括条件语句、循环结构、跳转语句等,并通过丰富的示例代码来更全面地了解和运用这些概念。 条件语句 条件语句用于基于不同的条件执行不同的代…

架构开发与优化咨询和实施服务

服务概述 得益于硬件平台算力的提升,汽车电子电气架构的集成度逐渐提高,从单体ECU、到功能域集成控制器、到区域集成控制器,多域融合成为了目前行业中软件工程的重要工作内容。同时,在传统控制器C代码开发的基础上,C、…

C#中.NET 7.0 Windows窗体应用通过EF访问新建数据库

目录 一、 操作步骤 二、编写EF模型和数据库上下文 三、移植(Migrations)数据库 四、编写应用程序 五、生成效果 前文已经说过.NET Framework4.8 控制台应用通过EF访问已经建立的和新建的数据库。 前文已经说过.NET 6.0 控制台应用通过EF访问…

μC/OS-II---事件标志组管理1(os_flag.c)

目录 事件标志组创建事件标志组删除事件标志组获取/等待 当任务要与多个事件同步时,就要使用事件标志组。一个事件标志就是一个二值信号,事件标志组是若干二值信号的组合。使用事件标志组同步任务分为独立性同步和关联性同步。 事件标志组创建 flags&a…

MySql分区

一、什么是分区 MySQL分区是一种数据库设计和管理技术,它允许你将表分割成独立的、具有特定规则的存储单元。每个分区可以独立地进行管理,包括备份、恢复和优化。分区的主要目的是提高查询性能、简化维护以及实现数据的更有效管理。 以下是MySQL分区的…

IDEA 集成 Docker 插件一键部署 SpringBoot 应用

目录 前言IDEA 安装 Docker 插件配置 Docker 远程服务器编写 DockerFileSpringBoot 项目部署配置SpringBoot 项目部署结语 前言 随着容器化技术的崛起,Docker成为了现代软件开发的关键工具。在Java开发中,Spring Boot是一款备受青睐的框架,然…