浅谈某平台多场景下反爬虫与风控业务

文章目录

  • 1. 写在前面
  • 2. 内容反爬
  • 3. 账号风控
  • 3. 接口验签

【🏠作者主页】:吴秋霖
【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作!
【🌟作者推荐】:对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识!包括但不限于:各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除!

1. 写在前面

  最近有一些搞模型训练、舆情分析的小伙伴们聊到某平台的风控机制越来越严、强度也是变得越来越高。想要收集一些数据完成任务变得比早期更为艰难!

其实近几年自媒体平台的发展趋势间接或直接的导致大量的灰黑色业务涌入!在平台的合规、监管机制没有完善的前期大家可能并未感知,一切都变得很顺利。且随着时间与版本的不断迭代最终都将被清洗出局

在作者以往的文章中曾提到过,其实任何平台是没有任何一种手段可以完全阻断灰黑与爬虫业务,平台要做的就是不断完善监管机制提升难度从而增加红方的成本与代价(以此让其出局)

那么一个平台大致的风控策略发展迭代路线会是什么样的:

练气期的基于规则+人工审核-->筑基期的机器学习跟实时计算-->
元丹期的深度学习-->元婴期的无监督、图网络学习跟反欺诈风控行为
模型-->化神期的上帝视角+精准定位+线下阻断

接下来作者收集了一下大家经常遇到的一些问题做了简单的分析

2. 内容反爬

目前爬虫业务大多通过关键词搜索、笔记详情扫描、评论内容深度挖掘与监测、创作者作品遍历与监测的方式进行数据采集。搜索跟笔记扫描业务其中会触发的就是行为验证,如下所示:

在这里插入图片描述

从上图可以看到这个行为验证的旋转验证码貌似与常规的不太一样,是经过定制处理的!它加了干扰环来尽可能的提升难度。此类验证在它的账户登录业务风控中有所体现

如果爬虫业务想要突防这个行为验证目前自动化方案需要处理掉行为轨迹、特征的检测。而协议接口提交的方式则需要解决加密算法(JS代码层面的逆向分析)与新增的b1动态细节

接下来爬虫业务将面临更加多样化的安全阻断,首先是安全限制,请求状态同意跟滑块验证一样是一个461,verifyType是一个302,你可能会把它误判为滑块,其实你在页面看的话它首次确实是一个滑块验证,你手动拖动也过了,但是立即投入到了爬虫业务再次使用,从灰名单直接就进入了短效的黑名单,导致触发多次滑块验证变成安全限制,如下所示:

在这里插入图片描述

{‘code’: 300015, ‘success’: False, ‘msg’: ‘浏览器异常,请尝试关闭/卸载风险插件或重启试试’, ‘data’: {}}

爬虫业务中接下来将会碰到目前高频可预见的一个异常机制频次异常,这个异常存在多种原因导致,第一种可能是xsec-tk参数用的多了。这个参数以前是没有了,加上为防止直接扫详情的这种非正常链路行为的访问

第二种就是它是一个滑块的行为验证,你登录或者刷新页面触动一下就会呈现出来,过掉就会恢复正常

还有就是进入到了灰名单把这个账号拉到了类似过期策略的队列,期间避免使用不然肯定会触发更高等级的风控机制,到期会释放恢复正常(时间不定),如下所示:

{“code”:300013,“success”:false,“msg”:“访问频次异常,请勿频繁操作或重启试试”,“data”:{}}

还有一些小白新手爬虫连代理IP都不使用,或者使用一些被高度污染的池子,如下所示:

{‘code’: 300012, ‘success’: True, ‘msg’: ‘网络连接异常,请检查网络设置或重启试试’, ‘data’: {}}

最后还有一种看起来就明显的在提醒你停止此类操作行为,这类异常大多出现在长期使用一个出口IP,甚至是自己的电脑大量持续的去请求服务端接口,明显进入了黑名单已被标记,如下所示:

{‘code’: -103, ‘success’: False, ‘msg’:‘破坏网络安全、侵犯平台权益等风险行为’,‘data’: {}}

以上种种难免不会有错杀的情况存在,但是一般监管的力度不会允许过多的误伤率!

前面我说到了链路,这里多说一句。风控系统的算法场景是会对地址的访问有时间、栏目序列跟访问的时间间隔来判断客户端访问是否正常的用户

它这个序列不会太长,模型应该是集中关注某些重点的URL序列。正常的用户谁会精准每次访问内容的详情,算法通过对URL中的多级栏目进行分类以此来增设它们之间的序列

3. 账号风控

这里它涉及到注册跟登录,这是在任何一个平台都有的风控系统。很多爬虫与灰黑业务它们都会批量且自动化的手段注册大量账号用到其他的业务场景中

看开局的那张图,为什么平台能够精准的检测出来那些所谓的灰黑账号,一是行为有的都是用来做不合规的一些Y流、敏感度极高的一些操作导致

经常碰到就是大量的账号被封禁或者掉线,你不知道是背后平台的风控体系都已经比较的完善。像用户的画像检测IP属地的源、可信的设备跟环境、出口IP的跳动跟使用行为习惯这些因素会给你推送不同复杂等级的行为验证码甚至是多种组合策略

掉线的场景中更多的跟设备指纹有关系,比如gid参数风控将会全部联动

3. 接口验签

在这里插入图片描述
如何从请求参数中确定哪些参数会校验哪些参数可能会埋点是需要去验证测试的,比如上面某一个x系列的参数就可以过接口的验签拿到数据,但是持续的访问你构造还原一个核心参数比你全部还原伪造要暴露的特征更多

比如后面新增的x-xray、x-b3参数虽然说不强校验带或不带或固定都不会对业务流程产生影响,从行为风控的角度来说构造的请求如果参数不完整或者固定没有按照正常的行为流程去走,那肯定是能够被溯源以及背后的风控系统检测出来的

这个环节一般有经验爬虫工程师在风控对抗中都会通过收集多轮且不同环境、设备、参数、行为的结论样本,进行复盘以此来调整对抗策略

在任何有风控场景下大量且持续的采集需求必须对资源以及行为进行合理的调度与策略设置!

最后!互联网任何公开的数据源有获取数据的需求,可以适当的利用工具与技术来助力。但切记不要滥用,以免对任何第三份平台与网站造成压力与负担!请使用合理、合法、合规、合情的方式去满足自己的需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/497281.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在网页端使用 IDE 高效地阅读 GitHub 源码?

如何在网页端使用 IDE 高效地阅读 GitHub 源码? 前言什么是 GitHub1s?使用 GitHub1s 阅读 browser-use 项目源码步骤 1: 打开 GitHub 项目页面步骤 2: 修改 URL 使用 GitHub1s步骤 3: 浏览文件结构步骤 4: 使用代码高亮和智能补全功能步骤 5: 快速跳转和…

Web Bluetooth API 开发记录

搞了一天的蓝牙串口协议被几个软件和AI带沟里面去了。 1.00001101-0000-1000-8000-00805f9b34fb 是spp协议。但是我用的称是使用的49535343-fe7d-4ae5-8fa9-9fafd205e455蓝牙低功耗spp协议 2.推荐一款软件Android-nRF-Connect github地址:https://github.com/Nor…

使用VS Code开发ThinkPHP项目

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《ThinkPHP 8高效构建Web应用 夏磊 编程与应用开发丛书 清华大学出版社》【摘要 书评 试读】- 京东图书 ThinkPHP 8开发环境安装-CSDN博客 安装ThinkPHP项目的IDE 常用的集成开发环境(IDE)包括P…

开源轻量级文件分享服务Go File本地Docker部署与远程访问

???欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老…

Windows上缺少xaudio2_9.dll是什么原因?

一、文件丢失问题:Windows上缺少xaudio2_9.dll是什么原因? xaudio2_9.dll是DirectX音频处理库的一个组件,它支持游戏中的音频处理功能。当你在Windows系统上运行某些游戏或音频软件时,如果系统提示缺少xaudio2_9.dll文件&#xf…

缓存管理自动化:JuiceFS 企业版 Cache Group Operator 新特性发布

近期,JuiceFS 企业版推出了 Cache Group Operator,用于自动化创建和管理缓存组集群。Operator 是一种简化 Kubernetes 应用管理的工具,它能够自动化应用程序的生命周期管理任务,使部署、扩展和运维更加高效。 在推出 Operator 之前…

SCSA:探索空间与通道注意力之间的协同效应

文章目录 摘要1 引言2 相关工作2.1 多语义空间信息2.2 注意力分解 3 方法3.1 共享多语义空间注意力:空间与通道分解3.2 渐进式通道自注意力3.3 协同效应3.4 注意力机制的整合 4 实验4.1 实验设置4.2 图像分类4.3 目标检测4.4 分割4.5 消融研究 5 可视化与分析5.1 注…

Grok 2.0:马斯克的大模型挑战ChatGPT,AI竞争再升级

引言:马斯克Grok 2.0的横空出世 在人工智能(AI)领域,竞争从未停止。随着大型语言模型(LLM)的快速发展,各大科技巨头纷纷推出自己的AI模型,试图在激烈的竞争中占据领先地位。最近&am…

基于Spring Boot的宠物领养系统的设计与实现(代码+数据库+LW)

摘 要 如今社会上各行各业,都在用属于自己专用的软件来进行工作,互联网发展到这个时候,人们已经发现离不开了互联网。互联网的发展,离不开一些新的技术,而新技术的产生往往是为了解决现有问题而产生的。针对于宠物领…

安卓15预置第三方apk时签名报错问题解决

有同事反馈集成apk时安装失败 PackageManager: Failed to scan /product/app/test: No APK Signature Scheme v2 signature in package /product/app/test/test.apk 查看编译后的apk签名信息 DOES NOT VERIFY ERROR: JAR signer CERT.RSA: JAR signature META-INF/CERT.SF indi…

从0入门自主空中机器人-2-1【无人机硬件框架】

关于本课程: 本次课程是一套面向对自主空中机器人感兴趣的学生、爱好者、相关从业人员的免费课程,包含了从硬件组装、机载电脑环境设置、代码部署、实机实验等全套详细流程,带你从0开始,组装属于自己的自主无人机,并让…

实现某海外大型车企(T)Cabin Wi-Fi 需求的概述 - 4

大家好,我是Q,邮箱:1042484520qq.com。 今天我们在上几讲的基础上再扩展下 Cabin Wi-Fi 的功能需求,讲讲如何使能 5G TCU Wi-Fi STA Bridge 模式。 参考: 实现某海外大型车企(T)Cabin Wi-Fi 需求…

2024 年最新 windows 操作系统搭建部署 nginx 服务器应用详细教程(更新中)

nginx 服务器概述 Nginx 是一款高性能的 HTTP 和 反向代理 服务器,同时是一个 IMAP / POP3 / SMTP 代理服务器。Nginx 凭借其高性能、稳定性、丰富的功能集、简单的配置和低资源消耗而闻名。 浏览 nginx 官网:https://nginx.org/ Nginx 应用场景 静态…

C 实现植物大战僵尸(二)

C 实现植物大战僵尸(二) 前文链接,C 实现植物大战僵尸(一) 五 制作启动菜单 启动菜单函数 void startUI() {IMAGE imageBg, imgMenu1, imgMenu2;loadimage(&imageBg, "res/menu.png");loadimage(&am…

Android笔记(四十一):TabLayout内的tab不滚动问题

背景 假设二级页面是上面图片的布局,当进来时TabLayout和ViewPager2绑定完就马上调setCustomItem,跳转到最后一个tab页面时,会发现tab不滚动,手动滑一下ViewPager2时才会滚动tab到正确的位置 原因分析 调用TabLayoutMediator.at…

域内的三种委派方式

域委派:使得上游服务能使用用户凭据访问下游服务,使得下游服务根据域用户判断权限,例如: web 用户 hack ---------------访问------------------> web 服务器 ( www-data 域服务账户运行)-------------…

GEE云计算、多源遥感、高光谱遥感技术蓝碳储量估算;红树林植被指数计算及提取

大气温室气体浓度不断增加,导致气候变暖加剧,随之会引发一系列气象、生态和环境灾害。如何降低温室气体浓度和应对气候变化已成为全球关注的焦点。海洋是地球上最大的“碳库”,“蓝碳”即海洋活动以及海洋生物(特别是红树林、盐沼和海草&…

module ‘django.db.models‘ has no attribute ‘FieldDoesNotExist‘

module ‘django.db.models’ has no attribute ‘FieldDoesNotExist’ xadmin报错 原因 django与xadmin版本不匹配。 django==3.2.7 xadmin-django==3.0.2解决方案 在xadmin/view/edit.py的388行改为 from django.core import exceptions if self.request_method ==

数据结构(哈希表(中)纯概念版)

前言 哈希表(Hash Table)是计算机科学中的一个基础而重要的数据结构,它广泛评估各种算法和系统中,尤其是在需要快速查找、插入和删除操作的场景中。由于其O( 1)的平均时间复杂度,存储表在性能要求较高的应用中表现得非…

计算机网络 (12)物理层下面的传输媒体

前言 计算机网络物理层下面的传输媒体是计算机网络设备之间的物理通路,也称为传输介质或传输媒介,并不包含在计算机网络体系结构中,而是处于物理层之下。 一、传输媒体的分类 导向型媒体:电磁波被导引沿着固体媒体传播。常见的导向…