训练数据准备
标记数据是最花费时间的事情。最开始手工标记验证码1万条,训练后正确率在50%左右。然后写写代码使用这种低正确率的去自动标记。使用搜狗自动验证,来实现自动标记。逐渐积累数据量,后期只需要人工标记错误验证码就行。这样可以大大减少人工标记量。
验证码资源下载地址(100%正确,全部通过搜狗验证):
2021年11月最新搜狗验证码7.3万,6位全对正确率高大96%-机器学习文档类资源-CSDN下载
识别方式
本次是通过端到端的识别。因为搜狗验证码干扰设计非常用心,难以采用传统的分割方式来单个识别。所以使用端到端识别,可以避开验证码字符分割困难的问题。
模型训练
本次识别是基于keras框架的机器学习模型训练。原模型是4位输出,这里要将输出改为6个输出的。
模型文件下载
模型文件
在线免费识别测试
在线测试