目录
知己知彼,黑灰产破解验证码的过程
AIGC加持,防范黑灰产的破解
魔高一丈,黑灰产+AIGC突破常规验证码
双重防护,保障验证码安全
黑灰产经常采用批量撞库方式登录用户账号,然后进行违法违规操作。
黑灰产将各种方式窃取账号密码导入批量登录软件,登录软件自动尝试账号登录。邮箱服务器检测到异常登录请求,会下发验证码进行安全验证,但是黑灰产能够自动破解简单验证码,完成撞库登录过程。整个过程完全自动化操作,无需人工干预,就这样,用户的大批账号就被冒名登录了。
为了防止验证码被识别、破解、绕过,很多平台和服务在验证码加入干扰,比如采用了非常复杂的验证码:歪斜的字母汉字、复杂的图形、转瞬即变内容等。以12306为例,提供了多达接近600种图形验证码,再经过排列组合,总共有多达300000种。一次性输入准确的比例仅仅是8%,两次输入准确比例27%,三次以上输入准确的比例才勉强超过60%。
原则上验证码是越复杂越好,但是凡事都有张有弛。验证码的本质,是让操作者证明是人而不是机器人,而随着验证码越来越难,用户正常操作的门槛也越来越高。复杂的验证码确实能够降低黑灰产破解,却也增加用户识别难度,将用户也阻挡在外,导致用户纷纷吐槽。
知己知彼,黑灰产破解验证码的过程
要防止黑灰产破解验证码,必须了解其破解的过程。黑灰产破解验证码主要是基于验证资源的穷举以及识别,也就是通过抓取验证码图库的图片,然后进行标注,由此破解验证码。目前黑灰产运用目前最流行的人工智能技术训练,大大提高了识别验证码的速度。
以下是一个描述基于网络爬虫和图像识别技术的验证码破解过程的简要步骤:
第一步,制作网络爬虫工具,通过访问各个验证码技术平台,爬取验证码的图片素材。网络爬虫可以快速收集大量的验证码样本,为后续的模型训练和识别提供数据支持。
第二步,生成验证码图片素材的模型库。根据不同类型的验证码,如旋转、滑动、拼图等,生成相应的模型库。这些模型库包含有关验证码的特征信息,以便后续的验证码识别过程中进行比对。
第三步,识别验证码类型。在遇到需要破解的验证码时,程序迅速分析验证码的特征,确定其属于滑动、拼接、点选、旋转或计算等类型的验证码。这一步骤为后续的处理提供了方向和依据。
第四步,使用相似度算法检索之前构建的验证码模型库,快速定位到相似的图片。通过比对目标验证码与模型库中的样本,系统可以找到最相似的图片,并为后续操作提供参考。
第五步,模拟人类操作。根据验证码类型和识别结果,程序模拟人类的操作行为,进行旋转、滑动、选择、计算或拼接操作,将图片调整至目标角度。这一步骤需要模拟各种可能的验证码操作,以达到绕过验证码核验的目的。
第六步,欺骗验证码核验,获得通过凭证。通过前面几步的处理,系统成功绕过验证码的安全机制,并获得了通过验证的凭证。这使得攻击者可以继续访问受限资源或执行其他恶意操作。
AIGC加持,防范黑灰产的破解
验证码要做好防守,必须针对黑灰产破解的时效性和高效性特点展开。通过高频率的生产图片保证新的验证图片实时更新,从根源上杜绝打码平台拖库。
AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容,具有文本续写,文字转图像、数字主持人等应用。其原理是利用人工智能技术中的自然语言处理、机器学习、深度学习等技术,对大量的语言数据进行分析、学习和模拟,从而实现对自然语言的理解和生成。
集成AIGC的顶象无感验证能够无限生产验证图片。通过AIGC能够文本描述快速生成无限量的图像素材,使得基于遍历图库的破解方式失效,大大增强验证码的破解难度。而且AIGC能够根据企业业务场景,生成个性化定制验证码图片。在拼图、旋转、滑动等验证方式下,如果无法得知预先的验证图片,就无法完成破解。
此外,利用AIGC,顶象无感验证更创造出一些对用户友好、机器识别难度较高的新型验证码。例如,常见的滑块验证码,由于为了保证有足够识别度,目标缺口的像素与周围的像素需要有一些差异,因而往往非常容易识别,进而轻易判断出滑块的目标位置,因而安全性并不高。利用AIGC,可以设计出没有缺口的滑块验证码,要判断出目标位置需要理解图像的语义,由此增加黑灰产的破解难度。
魔高一丈,黑灰产+AIGC突破常规验证码
AIGC技术能够生成海量图片,且有一定随机性且不可逆,使攻击者打标训练成本可增加10倍以上,虽然大幅增加机器破解的难度。但是黑灰产也可以基于AI进行破解,只是成本增加。
基于AIGC,黑灰产不再需要采集验证码厂商的图库并打标,就能训练模型识别各种艺术字。
具体来说,黑灰产可以利用AIGC自动生成大量汉字对应的各种样式的艺术字,作为数据集训练模型,使该模型能够非常鲁棒地识别任何风格的艺术字。也许在不久的将来,艺术字验证码这种验证方式将完全失效。由此,进一步推动验证码企业提升验证方式的安全性和对抗性。
双重防护,保障验证码安全
除了AIGC的加持,顶象验证码基于验证环境信息进行防御,通过生产无穷的验证图片+对环境信息进行验证,双重保障验证码安全。
首先,源源不断得新验证图片,极大增加了黑灰产的识别与破解成本。同时提升验证要素识别难度。基于深度学习和神经网络,生成一些难以被预测和重复的图片、元素,并在验证过程中加入时间戳或者随机数等动态变化的因素,增加破解的难度,有效抵御机器破解。
其次,集成实时流计算及场景策略结合机器学习训练的人机模型、历史数据的关联分析,通过图形算法和AI模型,对用户产生的行为轨迹数据进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息,快速、准确得返回人机判定结果。在验证码的验证环节采集有辨识度的环境信息,配置规则和策略来,筛选出可能是黑灰产的请求进行二次验证或拦截。例如,判断完成验证时的验证环境信息和token上报时的验证环境信息是否一致,对多次恶意攻击的IP地址进行拦截,限制验证码输入的次数等。
验证码作为人机交互界面经常出现的关键要素,是身份核验、防范风险、数据反爬的重要组成部分,广泛应用网站、App上,在注册、登录、交易、交互等各类场景中发挥着巨大作用,具有真人识别、身份核验的功能,在保障账户安全方面也具有重要作用,由此也成为黑灰产攻克破解的重要目标。为了破解验证码,黑灰产利用各种技术和手段快速批量快速破解,以满足批量注册、批量登录、恶意盗取等不法操作的需要。