注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路
极验文字点选验证码不必多说,很多小伙伴,借助标注工具或者打码平台标注完数据集后,使用开源的目标检测网络即可完成,欢迎收看我之前的文章: Pytorch利用ddddocr辅助识别点选验证码 或者使用ddddocr等工具进行一阶段的目标检测后,再进行二阶段的分类识别,两种方法都有利弊,那么本文在文字点选的基础上,将介绍如何去识别文字中的语序,**这里本文先介绍第一种方法,在后续的文章中再来讲解其他思路,**下面来看一部分数据集
在做语序之前,最重要的一个准备工作就是尽量收集多的图片中的语序文字,因为这样才好去综合判断到底使用哪种方法来判断语序最合适,正所谓,中华文化,博大精深,许许多多的汉字可以组成各种各样不同的意思,当然,一开始收集,并不需要之前按语序去收集,你可以直接按照识别出来的文字去收集,这个时候不需要管语序的准确,我们的目的只是尽可能收集整体的文字语序
例如,我收集的部分文字如下