1.4 流量反欺诈系统的架构
针对大数据时代的流量反欺诈挑战,接下来重点从流量反欺诈方案的演变历程和当前大数据时代反欺诈系统的架构两方面进行具体阐述。
1.4.1 流量反欺诈方案的演变历程
流量反欺诈方案的历史演变过程如图1.10所示,主要经历了PC互联网时代的专家规则对抗方案、移动互联网时代的机器学习对抗方案和深度学习对抗方案,以及云计算和大数据时代的复杂网络对抗方案和跨行业联防联控方案,随着时代的发展,这些对抗方案的对抗效果也在不断提升。
图1.10 流量反欺诈方案的历史演变过程
1.PC互联网时代
在PC互联网时代,黑灰产的欺诈手法较简单,基于专家规则的对抗方案就可以取得比较好的效果。该方案的对抗过程主要是基于专家经验,通过数据分析欺诈案例,人工提取出简单规则,再结合风险名单一起使用。该对抗方案的优点是简单易用,可解释性强,缺点是只能识别出比较明显的黑灰产欺诈手法,且人工提取成本高。
2.移动互联网时代
在移动互联网时代前期,随着互联网流量的爆炸式增长,业务特征信息越来越丰富。同时机器学习算法逐渐成熟,开始广泛应用于流量反欺诈领域。机器学习对抗方案的构建过程主要是结合业务特征信息,在黑白样本训练集上学习黑灰产欺诈范式,然后再泛化到线上进行欺诈检测。该对抗方案的优点是可以识别出复杂和隐匿性强的流量欺诈,缺点是可解释性弱、检测未知欺诈类型的结果滞后。
在移动互联网时代中期,随着图像、语音和视频等多模态数据的大量产生,传统特征提取方式的效率和效果都比较差。因为深度学习在对图像、语音和视频等多模态数据的特征提取方面具有独特的优势,学习能力更强、提取效率更高而且效果也更好,所以该对抗方案在流量反欺诈领域被广泛应用。
3.云计算和大数据时代
在云计算和大数据时代,随着算力和存储能力的提升,可以很好地支撑复杂大模型,于是迎来了复杂网络大模型的发展。复杂网络对抗方案主要是基于海量的关系数据,利用节点与节点之间的结构信息和节点属性特征信息,从整体角度识别黑灰产欺诈行为。该对抗方案的优点是可以提升覆盖能力,还能主动发现未知欺诈类型,缺点是计算量大,资源开销成本高。
同时,随着各行各业的业务逐渐上云,以及联邦学习等新型对抗方案的诞生,跨行业的联防联控方案可以以低成本落地。这种新型对抗方案从行业共治的角度出发,可以有效地对黑灰产进行升维打击,大幅度提高黑灰产的作恶成本。
在互联网流量发展的各个阶段,随着人工智能技术的发展,流量反欺诈方案也在不断演进,每个阶段都有符合该阶段特点的新的流量反欺诈方案出现,但并非淘汰旧的方案。面对变化多端的黑灰产欺诈手段,反欺诈需要同时结合多种对抗手段,形成体系化的对抗方案,才能更好应对大数据时代流量反欺诈面临的多重挑战。
1.4.2 流量反欺诈系统的架构
根据大数据时代的互联网流量欺诈特点,结合人工智能发展的最新技术,形成了大数据时代流量反欺诈系统的架构,如图1.11所示。
图1.11 大数据时代流量反欺诈系统的架构
大数据时代的流量反欺诈系统的架构自底向上主要分为4层:大数据平台层、数据治理层、反欺诈模型层和在线服务层,而情报系统和运营体系服务于整个流量反欺诈系统的架构。流量反欺诈系统架构各部分的功能具体介绍如下。
1.大数据平台层
大数据平台层作为底层平台和框架,支撑着大数据时代海量互联网流量数据的存储和计算,主要包括大数据存储和计算基础平台(Hadoop和Spark等)、分布式数据仓库(Hive和Presto等)和流数据处理框架(Flink和Storm等)。
2.数据治理层
数据治理层的核心要点是要首先确认使用的数据是经过用户合理授权的;然后是针对隐私数据和日志数据进行加密、隔离存储,保证数据安全性;最后主要是针对流量的原始日志数据,统一进行数据清洗、加工和管理,提升数据质量。由于原始日志数据来自业务各场景,因此存在字段格式不统一、命名不规范和数据“脏乱差”等各种问题。数据治理层通过数据清洗等方式将原始日志数据处理为规范化的基础层数据,然后再通过特征工程构建出流量反欺诈建模所需的高质量画像特征。
3.反欺诈模型层
反欺诈模型层主要是基于数据治理得到的画像特征数据,利用人工智能技术训练各种流量反欺诈模型,从而识别业务流量风险,流量反欺诈模型如图1.12所示,贯穿业务平台流量的整个生命周期。其中,在流量前期,以人机验证作为第一道安全防线识别潜在风险,然后以规则模型作为第二道安全防线,进一步识别较明显的黑灰产欺诈行为;在流量中期和后期,基于机器学习模型、复杂网络模型和多模态集成模型识别隐匿性更强、对抗更激烈的黑灰产欺诈行为,最后再利用新型对抗模型解决流量欺诈场景中的特殊情况。
图1.12 流量反欺诈模型
另外,设备指纹技术是互联网业务中用户身份的唯一标识,也是流量反欺诈的基础服务设施,覆盖了流量的整个生命周期。因为反欺诈模型均是在设备指纹技术的基础上进一步构建起来的,所以掌握设备指纹技术是不可或缺的基础能力。
4.在线服务层
在线服务层是流量反欺诈的输出层,以API接口的方式直接服务于各种业务流量场景,主要包括镜像管理、容器编排、在线存储、微服务和负载均衡等模块,可以根据业务流量请求规模进行弹性扩容,支持百亿级的并发访问,同时还保持服务的稳定性和可靠性。
5.运营体系
运营体系主要包括服务监控、存储监控、特征监控、数据监控、模型监控等核心模块,通过这些模块进行各类指标的监控和运营管理,保障反欺诈系统的稳定和健康运行。此外,运营体系还包括申诉处理模块,该模块为反欺诈系统可能涉及的风险误判建立用户反馈和处理通道,保障用户的正常权益。
6.情报系统
情报系统是流量反欺诈系统的一双“眼睛”,一方面,通过大数据分析,情报系统可以感知黑灰产的对抗变化,用来评估安全对抗效果;另一方面,情报系统也负责主动捕捉全网最新的黑灰产动态,为风控人员提供黑灰产欺诈手法、欺诈工具和交易暗网等最新情报信息,增强风控人员对黑灰产趋势变化的感知能力。