广告流量反作弊风控中的模型应用

作者:vivo 互联网安全团队- Duan Yunxin

商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务风控,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍风控系统中常用算法模型,以及实战过程中具体风控算法模型的应用案例。

一、广告反作弊简介

 1.1  广告流量反作弊定义

广告流量作弊,即媒体通过多种作弊手段,获取广告主的利益。

作弊流量主要来自于:

  • 模拟器或者被篡改了设备的广告流量;

  • 真设备,但通过群控控制的流量;

  • 真人真机,但诱导产生无效流量等。

1.2  常见的作弊行为

  • 机器行为:   IP重复刷量、换不同IP重复刷量,流量劫持,换不同imei重复刷量等。

  • 人工行为:素材交互要素诱导点击,媒体渲染文案诱导点击,突然弹出误触点击等。

1.3  常见作弊类型

按照广告投放流程顺序

  • 展示作弊:媒体将多个展示广告同时曝光于同一个广告位,向广告主收取多个广告的展示费用。

  • 点击作弊:通过脚本或计算机程序模拟真人用户,又或者雇佣和激励诱导用户进行点击,生成大量无用广告点击,获取广告主的CPC广告预算。

  • 安装作弊:通过测试机或模拟器模拟下载,以及通过移动人工或者技术手段修改设备信息、SDK方式发送虚拟信息、模拟下载等等。

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中应用背景

智能风控,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。

常见的无监督算法:

  • 密度聚类(DBSCAN)

  • 孤立森林(Isolation Forest)

  • K均值算法

常见有监督算法:

  • 逻辑回归(logistic)

  • 随机森林 (random forest) 

2.2 广告流量模型算法体系

a98618ec1e740a4706cb7add4b6d7d58.png

体系分四层:

  • 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务风控建模中。

  • 数据层:搭建vaid/ip/媒体/广告位等多粒度下,请求、曝光、点击、下载、激活等多转化流程的画像和特征体系,服务于算法建模。

  • 业务模型层:基于行为数据特征和画像数据,搭建点击反作弊审计模型、请求点击风险预估模型、媒体行为相似团伙模型以及媒体粒度异常感知等模型。

  • 接入层:模型数据的应用,离线点击反作弊模型审计结果与策略识别审计结果汇总,同步业务下游处罚;媒体异常感知模型主要作为候选名单同步点检平台和自动化巡检进行。

三、算法模型应用案例

3.1 素材交互诱导感知

背景:广告素材中添加虚拟的X关闭按钮,导致用户关闭广告时点击的虚假的X按钮,导致无效的点击流量,同时影响用户体验;左图是投放的原始素材,右侧是用户点击的坐标绘制热力图,虚拟X导致用户关闭广告时产生无效的点击流量。

cb7ba3988a151839c1d183ef91fe0ce4.png

模型识别感知:

1、密度聚类(DBSCAN):

先定义几个概念

  • 邻域:对于任意给定样本x和距离ε,x的ε邻域是指到x距离不超过ε的样本的集合;

  • 核心对象:若样本x的ε邻域内至少包含minPts个样本,则x是一个核心对象;

  • 密度直达:若样本b在a的ε邻域内,且a是核心对象,则称样本b由样本x密度直达;

  • 密度可达:对于样本a,b,如果存在样例p1,p2,...,pn,其中,p1=a,pn=b,且序列中每一个样本都与它的前一个样本密度直达,则称样本a与b密度可达;

  • 密度相连:对于样本a和b,若存在样本k使得a与k密度可达,且k与b密度可达,则a与b密度相连;

  • 所定义的簇概念为:由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个簇。

7ce792205b0da967ae57b8da208f3538.png

2、应用算法对诱导误触广告感知:

①首先按照分辨率和广告位,对点击数据进行分组,筛选过滤掉量级较小的群组; 

②对每个群组,使用密度聚类算法进行聚类,设置邻域密度阈值为10,半径ε=5,进行聚类训练;

③对每个群组,密度聚类后,过滤掉簇面积较小的簇,具体训练代码如下: 

c19e1b206571ff35216c43505a0f0952.png

④效果监控和打击,针对挖掘的簇,关联点击后向指标,针对异常转化指标广告位,进行复检,并对复检有问题广告位进行处置。

3.2 点击反作弊模型

3.2.1 背景

针对广告的点击环节建立作弊点击识别模型,提升反作弊审计覆盖能力,发现高纬度隐藏的作弊行为、有效补充点击场景的策略反作弊审计。

3.2.2 建设流程

512c03952ba74b063369f32e4f6deb10.png

(1)特征建设

基于token粒度,计算事件发生前,设备、ip、媒体、广告位的等粒度特征。

频率特征:在过去1分钟,5分钟,30分钟、1小时、1天,7天等时间窗口的曝光,点击、安装行为特征、即对应的均值、方差、离散度等特征;

基本属性特征:媒体类型,广告类型,设备合法性、ip类型,网络类型,设备价值等级等。

a62f6fcb89407e9de7ca3cb58045eaac.png

 2、模型训练和效果

① 样本选择:

  • 样本均衡处理:线上作弊样本和非作弊样本非均衡,采用对非作弊样本下采样方式,使得作弊和非作弊样本量达到均衡(1:1) 

  • 鲁棒性样本选取:线上非作弊样本量级大,且群体行为多样性且分布不均等,为了小样本训练上线后覆盖所有行为模式,

  • 使用K-means算法:针对线上非作弊样本进行分群,然后对每个群体按照占比再下采样,获得训练的非作弊样本。

② 特征预处理:

  • 统计每个特征缺失率,去掉缺失率大于50%的特征;

  • 特征贡献度筛选,计算每个特征对预测标签Y的区分度,过滤掉贡献度低于0.001的特征;

  • 特征稳定性筛选,在模型上线前,选取最大和最小时间段的样本,计算两个时间段每个特征的PSI值,过滤掉PSI值(Population Stability Index)大于0.2的特征,保留稳定性较好的特征。

③ 模型训练:

采用随机森林算法,对点击广告作弊行为进行分类,随机森林有较多优势,比如:

(1)能处理很高维度的数据并且不用做特征选择;

(2)对泛化误差(Generalization Error)使用的是无偏估计,模型泛化能力强;

(3)训练速度快,容易做成并行化方法(训练时树与树之间是相互独立的); 

(4)抗过拟合能力比较强;

超参数搜索优化,使用ParamGridBuilder,配置max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜索优化最优超参数。

d1db88c63a13f4ee48d302dd3f40eef7.png

④ 模型稳定性监控:

模型上线后,如果特征随着时间迁移,推理时间的特征与训练时间的特征分布存在变动差异,需要对模型稳定性监控并迭代更新;

首先对当前版本训练样本进行存档,计算推理时间的数据和训练时间数据的对应每个特征的PSI值,计算的PSI值(Population Stability Index)每天可视化监控告警。

⑤ 模型可解释性监控: 

模型上线后,为了更直观的定位命中模型风险的原因,对推理数据进行可解释性监控;即对每条数据,计算其对预测标签的影响程度;

采用Shapley值(Shapley Additive explanation)解释特征如何影响模型的输出,计算shap值输出到可视化平台,日常运营分析使用。

3.3 点击序列异常检测

3.3.1 背景

通过用户小时点击量序列,挖掘恶意行为对应的设备,挖掘检测远离占绝大多数正常行为外的异常模式用户群体、比如只有凌晨0~6点有低频的其他时间没点击行为的异常群体、或者每小时均衡点击的行为等异常模式用户等。

3.3.2 建设流程

(1)特征建设

以设备作为用户,统计过去1/7/30天,每小时的点击量,形成1*24小时、7*24小时、30*24小时点击量序列,构建的特征具备时间尺度上特征完备性和每个特征数据连续条件,适用于异常检测算法。

(2)模型选择

孤立森林离群点检测算法,算法基于两个理论假设,即异常数据占总样本量的比例很小,异常点的特征值与正常点的差异很大。

检测分布稀疏且离密度高的群体较远的点,比如下图可以直观的看到,相对更异常Xo的只需要4次切割就从整体中被分离出来,即被‘孤立’了,而更加正常的Xi点经过了11次分割才从整体中分离出来。

8ec0c4626aa8846ae01c1f12a33e1175.png

(3)模型训练

使用IsolationForest算法,为了更好覆盖,针对多种粒度流量进行异常检测训练。

①全平台流量,训练异常感知模型,设置异常样本比例contamination=0.05;

②每类媒体类型的流量,训练异常感知模型,设置异常样本比例contamination=0.1;

③每种广告位类型流量,训练异常感知模型,设置异常样本比例contamination=0.1。

4e012d2535387312d09ee51974d461c3.png

(4)感知监控

  • 异常得分定义:如果异常得分接近 1,那么一定是异常点,如果异常得分远小于 0.5,一定不是异常点;

  • 异常筛选:筛选异常得分大于0.7的用户作为高风险人群,介于0.5~0.7的人群作为中风险人群,对高中风险人群,同步审计平台人工二次审计;

  • 案例分析:  

案例① 

2022年XX月XX号, 7*24小时点击量异常检测, 可疑恶意用户A ,过去7天大部分时间,每小时均衡产生较多点击记录远超正常用户。

 (备注:features中每个点代表用户一个小时的点击量)  

50887fdd36cd49ab4061c957361410ab.png

案例②

2022年XX月XX号,1*24小时点击量序列异常检测,可疑恶意用户B, 基本只在凌晨产生点击,其他白天基本无点击行为。

408600870072e97853e823797709d5ad.png

四、总结

在流量反作弊领域,随着对抗手段的升级,算法模型能更好发现和挖掘黑产的隐藏的作弊模式;在广告流量反作弊领域,我们使用有监督和无监督等算法模型,从作弊流量识别,异常流量感知方面做了探索挖掘应用,有效提升识别能力,挖掘发现较复杂的异常行为模式。未来算法模型在机器流量识别上更多探索实践应用。

参考阅读:

  • 不一样的代码整洁之道

  • 百度工程师浅谈分布式日志

  • OceanBase CTO杨传辉:放手去干,这行没有35岁危机

  • 从 ChatGPT 被挤崩,浅谈如何做入口限流?

  • 微博广告Hubble系统:秒级大规模分布式智能监控平台架构实践

本文由高可用架构转载。技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39899.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Microsoft Edge 大规模崩溃,这是又跟谷歌搜索互掐了?

昨天,有部分网友反馈微软的 Edge 浏览器似乎出了问题,在地址栏输入任何字符时浏览器都会发生崩溃,即使关闭重启也依然无法正常使用。但是把微软必应设置为默认浏览器后,就可以修复… 图源:Reddit 谷歌回应了&#xff…

“不要用 Edge 默认的必应,我被骗了”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在搜索引擎中输入关键词,我们可以很快捷地找到所需信息——一般来说,的确是这样的。 然而最近,国外有一位网友 derekantrican 发现,同一个关键词&…

快捷指令快速调用

快捷指令快速调用 今天在玩手机的时候,随便翻到 辅助功能,在里面发现了一个轻点背面的功能,以前听过感觉很鸡肋,没想到点进去一看发现大有门道,居然还能调用快捷指令,那不就很方便了吗 在添加快捷指令之后…

OpenAI CEO:ChatGPT比想象的更有用 但不会取代传统搜索

雷递网 乐天 2月5日 ChatGPT激发了全世界的想象力,从教授到广告商、黑客和法官,每个人都在思考如何最好地利用其功能。但是这一切背后的人是怎么想的呢? 对开发人工智能聊天机器人的公司OpenAI的首席执行官Sam Altman来说,ChatGPT…

浏览器如何截全屏的图

1.进入F12调试模式 2.快捷键: window:Ctrl Shift P mac:command Shift P 3.输入指令full,会提示有一个选项,该选项即为截取全屏,如下图: 此外,还有:node 模式以及当前范围,输入指令 captu…

解决验证码乱码

问题:在测试环境正常,但是发到线上服务器就乱码 经过检查发现是代码中设置的字体服务器中没有对应字体 Graphics2D g2 image.createGraphics();[图 片] 在服务器加上 Algerian字体(字体从windows中复制到服务器),重启服务就好了。

亚马逊测评系统有哪些?

本人做了3年测评,用遍了市面上的各种系统网络环境有些经验想和大家分享一下,我也是踩了坑多坑,被割过很多次韭菜,今天给大家分享下,希望能的让大家少走一些弯路,避免一些坑。 现在市面上的网络环境有非常多…

浏览器主流内核分析,浏览器版本过低升级方法

我们在工作生活中几乎每天都需要用到浏览器,但是,尽管用了这么多年的浏览器,仍然有很多人对浏览器内核不是很了解。比如,常见的浏览器内核有几种吗,浏览器版本过低怎么办,我们应如何升级浏览器版本&#xf…

候鸟浏览器cookie登录教程

1.下载一个候鸟浏览器(下载链接: https://www.mbbrowser.com ),随便找个邮箱注册个候鸟账号,候鸟浏览器里面是谷歌浏览器,可能需要梯子(v.p.n)才能打开,建议用香港IP 2.…

不用插件!教你一键显示浏览器自动保存的密码

本文转自:https://pcedu.pconline.com.cn/1114/11141924.html 现在的浏览器大多都有智能填表功能,通俗点说,就是当你在一个网站填写好账号密码并登录后,浏览器会自动保存下来,然后在下次打开该网站时自动填好上次保存的…

那个超级浏览器好(跨境浏览器哪个好)

什么是超级浏览器? 什么是跨境浏览器? 超级浏览器是一款可以进行多任务的最佳网页浏览器。 也有人说,超级浏览器是一款专门为跨境电商卖家们打造的多账号防关联的工具,是一个能够为卖家们搭建安全稳定的登录环境,来方便卖家们的…

基于java控制台的商城管理系统(一)

最近参加了一个培训班,暂时还没有开课,闲着无聊,就想用自己仅有的一点java基础做一个小项目练练手,巩固一下基础,补充一下知识。 需求: 1.登录页面; 2.用户(父类)User…

用python爬取店铺信息,并生成json文件

一、json简单介绍 JSON是用于存储和交换数据的语法,是一种轻量级的数据交换格式。经常用于接口数据传输、序列化、配置文件等 json的形式有2种:键值对形式)、数组形式 python可以通过json库,解析字符串或文件中的内容转为json字符…

cookie的工作原理、cookie的重要性

首先需要了解一下cookie 通俗的来说:cookie是浏览器端用来验证网页的标识比如:你经常在浏览器上登录某些网页平台,比如CSDN博客,登录账号密码进去之后进入了主页 当你想再浏览器个人信息页面的时候,这个时候请求个人信…

指纹浏览器和防关联浏览器都一样吗,哪个防关联效果好?

所谓防关联浏览器就是我们常说的指纹浏览器或者超级浏览器,防关联浏览器目前主要应用于跨境电商行业,可以用来多账号登录时防止账号被关联。 对账号关联有过一点了解的小伙伴都知道,当我们的账号在登录跨境电商平台的时候,这些平…

如何屏蔽油管网页上的广告

一、添加浏览器拓展插件adblock plus 浏览器管理拓展,添加adblock plus插件即可自动屏蔽

如何应对亚马逊封号行为?亚马逊大卖家封号处理方法分享

说起亚马逊跨境电商大卖家,应该是很多新手卖家羡慕的对象。大家都很期待亚马逊大卖家分享一下运营经验,从中学习一些运营思路。而对于亚马逊大卖们如何应对亚马逊平台的频发封号问题?相信很多新手卖家都想知道大卖家们是怎么应对的&#xff1…

Fiddler 抓不到浏览器包的种种原因

代理未设置成功 fiddler 之所以能抓包,本质上是因为浏览器/App/软件设置了代理为 fiddler。一旦遇到抓不到包的情况,首先应排查浏览器代理是否设置正确。 以 Chrome 为例,代理设置为: 右上角菜单按钮 > 设置 > 高级 > 系统 > 打开您计算机的代理设置 确保代…

亚马逊测评自养号环境系统的介绍和用法

市面上的网络环境有非常多种,纯ip类的有luminati,911,G3,M5,谷歌fi,纯环境类的有VM,ads, 巨象,林肯法球等等。还有VPS比如无间道,手机AWZ /ALS 还有一些环境+IP的比如云手机,雷神云,跨境卫士,紫鸟,GCS 等等,这些都是我用过的。 用法也有很多比如lumi可以直接走本…

最安全的多账号防关联指纹浏览器:Hubstudio

1、环境安全,经过个第三方检测网站检测,环境伪装度国内顶尖,很多环境伪装度到100%或者评分A; 2、技术实力最强,紫鸟旗下新产品,6年指纹浏览器技术经验,国内第一家指纹浏览器,国内最强…