浅谈某平台多场景下反爬虫与风控业务

文章目录

1. 写在前面
2. 内容反爬
3. 账号风控
3. 接口验签

【🏠作者主页】：吴秋霖
【💼作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！
【🌟作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识！包括但不限于：各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

作者声明：文章仅供学习交流与参考！严禁用于任何商业与非法用途！否则由此产生的一切后果均与作者无关！如有侵权，请联系作者本人进行删除！

1. 写在前面

最近有一些搞模型训练、舆情分析的小伙伴们聊到某平台的风控机制越来越严、强度也是变得越来越高。想要收集一些数据完成任务变得比早期更为艰难！

其实近几年自媒体平台的发展趋势间接或直接的导致大量的灰黑色业务涌入！在平台的合规、监管机制没有完善的前期大家可能并未感知，一切都变得很顺利。且随着时间与版本的不断迭代最终都将被清洗出局

在作者以往的文章中曾提到过，其实任何平台是没有任何一种手段可以完全阻断灰黑与爬虫业务，平台要做的就是不断完善监管机制提升难度从而增加红方的成本与代价（以此让其出局）

那么一个平台大致的风控策略发展迭代路线会是什么样的：

练气期的基于规则+人工审核-->筑基期的机器学习跟实时计算-->
元丹期的深度学习-->元婴期的无监督、图网络学习跟反欺诈风控行为
模型-->化神期的上帝视角+精准定位+线下阻断

接下来作者收集了一下大家经常遇到的一些问题做了简单的分析

2. 内容反爬

目前爬虫业务大多通过关键词搜索、笔记详情扫描、评论内容深度挖掘与监测、创作者作品遍历与监测的方式进行数据采集。搜索跟笔记扫描业务其中会触发的就是行为验证，如下所示：

在这里插入图片描述

从上图可以看到这个行为验证的旋转验证码貌似与常规的不太一样，是经过定制处理的！它加了干扰环来尽可能的提升难度。此类验证在它的账户登录业务风控中有所体现

如果爬虫业务想要突防这个行为验证目前自动化方案需要处理掉行为轨迹、特征的检测。而协议接口提交的方式则需要解决加密算法（JS代码层面的逆向分析）与新增的b1动态细节

接下来爬虫业务将面临更加多样化的安全阻断，首先是安全限制，请求状态同意跟滑块验证一样是一个461，verifyType是一个302，你可能会把它误判为滑块，其实你在页面看的话它首次确实是一个滑块验证，你手动拖动也过了，但是立即投入到了爬虫业务再次使用，从灰名单直接就进入了短效的黑名单，导致触发多次滑块验证变成安全限制，如下所示：

在这里插入图片描述