1.风控体系草图
2 内容安全
在UGC,PGC和OGC产出的内容(文字,音频,视频,图片)中会产生如下业务 和合规风险:
- 涉及谩骂、灌水、广告。
- 涉及色情、暴恐、政治内容等。
已知的内容:
聊天信息,课件内容,留言,帖子,弹幕,视频等等
2.1 工程设计
2.2 文本内容安全
文本内容安全主要涉及 敏感词识别 情绪识别 语义识别等. 这里一般可以采用 敏感词识别和基于NLP(自然语言处理)的AI模型(NLPAI)等多个子系统(比如:自定义敏感词库,名单库等)组合使用的方式.
- 敏感词系统:也可以叫做关键词系统,用于精确匹配一段文本中是否包含词库中的词. 例如,词库中有 "加微信","加QQ","小姐姐"等词,判断文本:"想和小姐姐聊天,加微信 12345" 是否包含词库中的词. 该系统应该具备快速,准确,高效,可解释性强等特点. 搭配运营管理平台,当风控运营系统发现一个新的违规样本时,可以通过运营管理平台把敏感词加入对应的词库,即可快速防控. 该系统并不能对文本语义进行理解,会导致有一些误识别,并且对变种词,新词等无法高效应对,也无法对整个句子的情绪进行理解.
- NLPAI:可以通过对大量资料的学习,对文本进行精确分类,在垃圾邮件识别,文本正负面情绪识别,文本相似度识别等领域都有优异的表现.把NLP技术用在文本内容安全中,对灌水,广告,谩骂等违规进行识别也有不俗的表现.NLPAI模型的迭代更新需要经过收集样本,标注,训练,部署等多个流程,有一定的时间周期,无法快速即时生效,在防控中有一定的滞后性.
12.3 图片内容安全
图片内容安全的问题可以归为几类:
- 图像分类: 图像分类主要解决 涉黄 暴恐 涉政 等场景识别问题. 这里的特征 尺度把握 会有一点困难 比如在 小尺度性感 大尺度性感 色情之间差别很小 不好把握.
- 敏感人物识别:主要细分为两类 一类是 政治人物 另一类是明星.比如 需要 需要识别: 领导人,历史敏感人物,落马官员, 正面明星,负面明星,封杀明星 等等.
- 图像文字识别: 一旦图片上有文字,就可能会涉及文本内容安全(广告,涉政等),文字字体可能会包括印书体,手写体,艺术字等等.
- 特殊表示识别: 识别LOGO,比如某些反动团体的LOGO,恐怖组织的LOGO等.
- 其他:比如 地图 二维码 条形码等等.
2.4 音频内容安全
音频类容可分为两类:
- 有语义音频:需要识别语义是否涉及色情,低俗,政治,谩骂,广告等. 音频处理-->>语义识别-->>文本安全
- 无语义音频:识别声音情绪的表达是否涉及色情,惊悚等. 打标-->>音频切分-->音频特征提取→>分类/模型训练
2.5 视频内容安全
对关键帧的的提取
3 运营管理平台
运营管理平台主要是给风控运营(目前就是我们研发)的同学去使用,提供可视化控制台,方便对 决策引擎 内容审核 业务配置 等 进行操作.
自身业务相关:
管理和自身业务相关的一些配置:
- 权限管理
- bizType和bizCode的分配和管理.
- 某些特殊接口权限token的申请
- 日志查询等
审核平台相关:
- 各个业务的审核数据的查询
- 数据审核
- 审核通知
审核平台基本逻辑:
这里可能还会有一些执行日志落到es或者数仓那边(用于做数据分析)
决策引擎相关:
- 字段管理:分类 配置
- 函数管理: 函数分类(特征函数,操作符函数等),函数测试(函数编写完毕之后,需要有可视化的测试页面).
- 规则管理:设定,组合
- 策略管理:上线 下线 灰度等
实时指标相关:
- 预警报表
- 态势感知
- 情报监控
4 反欺诈
黑产欺诈行为可能存在的场景有: 注册,登录,申请验证码,参与营销活动,购买商品,支付或者退款等等.
4.1 薅羊毛风险识别
笼统的把使用虚假身份信息或者自动化工具参与各类营销活动的行为称为"薅羊毛".常见的营销活动包括但不限于: 折扣 返现 抽奖 满减 等形式,那些不能给平台带来真实活跃度或者商业利润的用户称为"羊毛党". "羊毛"蛋糕越大,黑产攻势就越猛. 他们会密切关注互联网平台活动,挖掘平台漏洞,开发作弊脚本,在社群和网站上招募众包参与人员,甚至有一条完整地套现渠道.
黑产在薅羊毛的过程中,会有一系列连续的业务动作,其中既包括小号注册,批量养号,也涉及领券,积分兑换,提交订单等行为.
在电商的营销方式中,常见的有 领券,满减,特价秒杀等等.技术含量比较低的黑产团伙,一般采用常规的作弊工具进行自动化攻击,比如在 领券 和 提交订单时可以采取的防控措施:
- 手机号黑名单:对账号收集或者收货人收集过滤异常手机号.(搭配前面的敏感词库[黑名单手机号库]).
- IP画像:识别代理IP 与 机房Ip
- 通过设备指纹进行风险分析:识别虚假设备 作弊设备 批量脚本(设备指纹体系)
- 运用频率维度统计规则: 如设备与IP段上关联过多的账号.(指标)
还有一些黑产团伙的技术含量较高,通过手机号或者设备维度没办法识别出风险,需要有一些其它维度的防控. 黑产团伙在平台购物的路径相对于正常人会更加简单直接,用户正常在电商平台上购物,路径多为"搜索入口/推荐入口"--"查看商品详情"--"对比多个商品"–"收藏/加购/直接购买",而黑产团伙则是在登录后直接对优惠较大的商品下单,我们可以从行为的维度去做防控:
- 购买某个特惠商品的账号群体缺少交易外的其他平台活跃动作.
- 购买某个特惠商品的账户群体具有一定的黑产团伙特征.
- 购买某个特惠商品的账户群体在历史注册,登录数据上具有一定的黑产团伙的特征.
除此之外,黑产团伙还可能有一些数据维度上的操作 比如收货地址:
- 虚假相似的收货地址
- 与区域快递合作,快递中包含暗号
- 地址中包含实际下单收货号码
对于数据维度的风控,我们可以结合各个维度的数据进行分类,打标,评分,综合进行风险判断.
4.2 裂变拉新风险识别
裂变拉新是一种引流手段,比如 分享领券,互助帮砍,拼团促销等. 拉新的奖励往往是丰厚的.除新用户本人可以获得外, 老用户也可以根据拉新人数获得奖励. 常见的奖励方式有: 赠送优惠券,实物商品, 会员资格,现金等,营销成本往往每人高达数10元. 以现金形式作为拉新奖励的活动,往往会称为黑产的重点攻击目标.
由于新人券往往优惠金额较高,黑产在批量注册新账户后,利用新人券进行下单活动或者直接在二手平台上进行倒卖优惠券,这些账号使用完大额新人优惠券后即被抛弃,无法为平台带来后续收益,制造了虚假的拉新效果,因此平台在设计新人券发放和使用策略时,也需要足够谨慎,提高获取新人券门槛.
裂变拉新的活动有一个非常重要的数据维度,即是邀请人账户ID.我们可以利用此邀请人账户ID,为线索挖掘师徒团伙特征.
- 某邀请人短时大量注册新账号
- 某邀请人名下新注册手机号,设备,IP异常比例高(画像)
- 某邀请人名下新注册设备特征相似(设备指纹)
- 某邀请人名下新注册账户团伙行为相似.
4.3 任务作弊风险识别
目前,"做任务"是一个比较常见营销方式,目的是通过完成任务的奖励的方式来维持平台用户活跃度,常见方式有: 连续签到N天, 果园,牧园,农,看视频,添加收藏等等行为都会有一定的奖励, 有很多app的奖励都可以通过一定的形式进行套现,所以黑产对这类刷任务已经具有一定的规模.这类的作弊一般需要在app中持续进行点击行为,因此其设备类异常行为的比例相较于其他风险场景会更高,可以从一下几个特征发现风险:
- 通过脚本工具伪造的虚假设备
- 真实设备,但是安装了多个作弊工具,比如: "按键精灵" "多开工具"等
- 群控特征,比如设备长期静止
- 聚类分析,如同一C段下多个设备在APp中的行为相似.
- 提现账号相同或相似
除此之外还可以结合 新型智能验证码 生物探针产品 进行识别
4.4 恶意退单风险识别
恶意退单常见的3种形式:
- 电商中的恶意占库
- 票务网站中恶意占座
- 电商O2O中恶意退款
前两者的共同点为通过提交订单后不付款,锁定库存或者座位,影响平台上其他正常用户进行交易. 而后者则为交易且支付后以不合理的理由申请退款,或者在信用卡还款时拒付,这种行为会对平台造成直接的经济损失,对于部分主打售后服务的电商平台来说,这类损失是不可小觑的.退单退款会对平台业务造成较大的影响,因此,除了识别出该风险问题外,对相关账户也建议从业务层面进行如下配置:
- 注意异常设备与IP退单
- 积累历史行为数据,识别频繁退单账户,退单率高的账户.
- 对账户进行分级管理,对识别过高风险的账户增加二次验证.
- 进行相似地址聚类及虚假地址核验.
- 退单后退款需审核,延时到账.
4.5 反欺诈解决方案设计示例(这块我们这边暂时依赖的是第三方的 不做)
首先要明确以下几个问题
①可用工具集
应对欺诈,建设反欺诈体系,需要一些工具,比如: 决策引擎 设备指纹 手机号风险名单库 IP画像 情报系统 智能验证码 机器学习等. 工具是否全面,工具的识别准确性会对整个风险策略的效果产生直接影响.
②实时调用场景
基于用户的每一次点击或者滑动行为,按照其实现的功能的不同可以分类为各个场景,比如:注册场景 登录场景 领券场景 交易场景 支付场景 做任务场景等等. 对于每一类风险,用户在平台需要经历的业务链可能不同,需要我们模拟黑产的作业路径,设计一套全场景的风控方案,如下图,力求在每一个环节中都能进行风险识别,数据几类.
③可用数据维度
数据的覆盖度和准确性也至关重要.
④各类风险的容忍度
⑤如何使用策略结果
决策引擎的输出结果可以是一个直接结果,也可以是一个风险分数,风险分数后面也会根据阈值,再转化为一个直接结果.
4.5.1 应对薅羊毛
①明确使用的风控工具
这里可以尝试对接 如 设备指纹 手机风险名单库 IP画像等 同事 推荐使用 智能验证码产品 在登录或部分特惠商品秒杀时进行人机挑战.也可以使用文本挖以分析地址中的欺诈特征. 同时引入机器学习平台,在确认少量黑样本的前提下开发半监督等模型,以提升策略识别效果.
②明确对接场景
我们可以模拟黑产的作业路径,如果想完成一单薅羊毛,需要在平台上的操作包括 注册 登录 领券 交易 支付. 需要对接的场景即为以上五个场景,在用户每次单击相关按钮时,便会发生一次决策引擎相关的调用.
③明确各个场景的数据维度
默认以上五个场景都可以采集到设备信息,在注册场景和登录场景中都有账户ID,手机号,IP信息等.领券场景我们可以获取优惠券的品类,金额等,交易场景可以获取订单信息,收货信息; 支付场景还可以获取支付方式 第三方支付平台的账号;综合这些数据维度可以配置出多个黑产特征的识别规则. 例如: 囤货黑产可能在短时间内,参与同一类型的优惠活动,购买同一商品寄到相似的收货地址; 又如秒杀活动下单黑产,使用异常作弊设备频繁下单,同一个设备关联多个不同的账户.
④明确策略结果应用方案
需要明确合适仅打标观察,何时可以直接拦截. 这里的打标观察并非说这个场景产生的风险比较小可以放过,而是考虑平台运营的生态可以进行个性化处理.
总结:可以采取的应对方案:
- 使用工具: 决策引擎 设备指纹 智能验证码 手机号/IP画像 地址反欺诈服务 半监督模型
- 对接场景: 注册场景 登录场景 领券场景 交易场景
- 数据维度: 除常规场景能够获取的数据外,在交易场景传入账号注册时间及IP,以挖掘潜伏时间较长的垃圾小号薅羊毛
- 策略结果使用:我们设计了两套策略,分别对应日常和大促期间在日常运营中,对注册场景及登录场景结合使用策略结果和智能验证码,领券场景识别高风险则不发券,交易场景综合前序各场景数据进行分析,并且增加地址反欺诈、半监督模型标签,综合识别高风险则取消该笔订单;大促期间,额外对交易场景识别中风险的交易订单,使用大额优惠券订单增加人工审单环节同时沉淀审单环节中发现的漏杀、误杀样本以进行策略优化。