基于大数据技术的银行卡异常交易检测和监管应用研究

2023-08-14 11:14赵启斌张军徐亮陈思乐益矣
区域治理 2023年16期
关键词:欺诈银行卡阈值

赵启斌,张军,徐亮,陈思,乐益矣

1.四川省大数据中心;2.西南财经大学工商管理学院

一、研究背景

在金融系统当中,打击洗钱、欺诈交易等违法行为始终是金融风险防控的工作重点。一些危害十分严重的违法犯罪活动通常与洗钱行为密不可分,犯罪分子谋求通过复杂的转移手段将非法获益转化为合法的财产,这一系列的活动将会严重破坏正常的金融市场秩序,影响社会稳定[1]。而欺诈交易通常是指欺诈者通过盗取客户信息、伪造银行卡等方式伪冒客户进行取款、转账、汇款等窃取客户资金的行为[2]。

从国家监管体系的角度来看,打击洗钱犯罪将遏止贪污腐败、恐怖融资等犯罪活动,有效地维护国家安全、社会稳定。另一方面,提前防范、及时干预欺诈交易的能力也体现了金融机构维护客户财产安全的决心,间接地影响着金融机构的声誉。因此,银行作为金融风险防控的重要前线,基于监管要求和自身利益的双重因素,始终需要把反欺诈、反洗钱工作置于风控体系中的重点位置。

银行卡欺诈与洗钱行为虽然动机不同,但在具体的交易呈现方面存在共同点,即犯罪分子为了躲避监管,利用银行的监测漏洞,会极力将自身的交易行为伪装成正常的客户行为。然而犯罪分子与普通客户的目的不同,同时考虑到实施伪装所带来的成本,这些在犯罪实施过程中所产生的交易流水不可能完全与普通客户的行为一致,往往会暴露出与客户交易习惯不相符或与客户身份不相符的异常特征[3]。因此银行在长期反欺诈、反洗钱的实践中,都是针对交易流水进行检测,试图通过交易特征区分出正常交易与异常交易,然后再对筛选出的异常交易实施精细化的人工调查核验,由此可见其在异常交易检测实施环节中拥有共同的理论基础。例如中国人民银行发布的《金融机构大额交易和可疑交易报告管理办法》中所提到的大额交易判定标准就是基于以上原则对交易流水进行筛选。

随着互联网技术的不断进步,社会经济的持续发展,银行的各项业务形态也在发生转变。传统的柜面业务已向多种渠道拓展,现已呈现出自动化、线上化的特点,并逐渐朝着智能化发展。ATM 机与POS 机的普及,网上银行与移动支付的出现,使得以银行卡为主体的交易业务迎来井喷式增长。仅2018 年,中国反洗钱监测分析中心共接收报告机构报送的大额交易报告9.19亿份;可疑交易报告160.20 万份①。交易量的增多、交易渠道的丰富意味着非法交易的模式变得更加复杂,这给传统的异常交易检测机制提出了挑战:既要保证能快速适应交易模式的变化,又要保证异常交易的误检率保持在较低水平,否则检出的异常交易数量过于庞大,给后续负责人工调查核验的风控人员造成过大的工作压力,进而增加银行的人力成本。

大数据、机器学习相关技术随着计算力的提升开始兴起,其已广泛运用于各行各业当中,取得了惊人的效果。而近年来,银行业监管机构也愈发重视大数据技术在金融机构风险防控中的应用,《中国银行业信息科技“十三五”发展 规划监管指导意见》中要求:“推进大数据应用,全面提升数据治理与数据服务能力”;《关于强化银行卡磁条交易安全管理的通知》(银办发〔2017〕120 号文)要求:要“建立基于大数据技术的风险防控机制”“完成基于大数据技术的银行卡风险防控系统建设”;在《关于印发银行业金融机构数据治理指引的通知》(银保监发〔2018〕22号)中,更是明确要求:“银行业金融机构应当加强数据应用,持续改善风险管理方法,有效识别、计量、评估、监测、报告和控制各类风险。”

因此,运用大数据技术加强银行卡异常交易检测能力,不仅是银行风控管理效率提升的内在需求,从宏观层面也是整个金融体系持续健康、稳定发展的重要保障。

二、文献综述

近年来,随着计算机和网络技术的成熟,面对逐渐增加且形态多变的金融欺诈行为,金融机构不得不投入资源研究自动化的反欺诈、反洗钱系统,以适应科技的发展,满足快速响应的需求。

当前银行业主要面临的欺诈可以分为三大类型:客户交易欺诈、内部欺诈和洗钱。根据以往的报告来看,客户交易欺诈和洗钱对金融机构造成的损失占欺诈损失的一半以上[2]。而银行卡诈骗与洗钱活动往往都会暴露出与客户交易习惯不相符或与客户身份不相符的异常特征。吴朝平(2011)认为虽然反洗钱与银行卡反欺诈在实际工作中有一些差异,但反洗钱工作多年发展所形成的客户身份识别、大额和可疑交易报告、客户身份资料和交易记录保存三大核心体系对反欺诈工作有重要的借鉴意义[3]。这两类非法活动都需要通过银行的交易业务完成资金的转移,银行卡作为所有交易渠道的账户,其交易流水所体现出来的行为模式将作为判断交易是否可疑的重要因素。

高增安(2007)将交易模式依据合法性程度划分为5 类:合法交易、惯常交易、异常交易、可疑交易、非法交易,其合法性依次递减。其中惯常交易指符合客户长期行为习惯的交易,对于一个正常的客户,他的惯常交易都为合法交易,而对于长期参与洗钱的犯罪分子来说,他的交易行为很可能是可疑甚至非法的;异常交易则体现在其特征与以往的历史记录表现不一致或是与大多数交易表现不一致;可疑交易是指因不同于历史记录和(或)同类参照组而值得怀疑的交易,如满足《金融机构大额交易和可疑交易报告管理办法》可疑交易标准的即为此类交易。反洗钱工作中需要通过数据分析手段区分惯常交易与异常交易,然后再通过人工调查取证判定惯常交易是否为合法交易、异常交易是否为非法交易。[1]

根据业界实际应用和学界的研究中可以总结如下:银行卡异常交易检测是银行业反欺诈、反洗钱工作的重要环节,也是后续人工调查取证工作的前提。

三、建模总体流程

本研究实验所使用的数据为某银行1 年的原始交易流水,交易渠道以线下交易为主。在将模型部署至检测框架投入使用以前,首先需要对模型进行设计、训练、调整,整个建模流程可以分为以下几个主要阶段。

(1)数据预处理阶段。首先需要对原始交易流水数据进行清洗,对一些非人为产生的交易进行排除,如系统自动生成的手续费、结息等。随后将过滤后的数据送入特征工程流程,形成特征向量,完成训练集的收集。

(2)模型训练阶段。将训练集送入构建好的稀疏自编码器模型中进行无监督式训练,直到达到训练轮数的上限或是检测到出现过拟合现象时提前终止训练。

(3)检测阈值划定阶段。利用训练好的稀疏自编码器为训练集计算每条数据的还原度,通过整个数据集的还原度分布,划定中、高风险的判定阈值。

(4)模型检验阶段。对模型的训练效果进行检验,如果没有达到预期,则需要调整模型训练参数或是数据特征。

(5)模型部署阶段。如果模型的效果能达到预期,则可以部署至检测框架中,开始对新出现的交易进行实时检测。

(一)实时检测总体流程

为满足银行对于监控交易情况以及及时干预非法交易行为的需求,框架必须具备实时检测的能力,因此需要引入流式计算技术。当一笔交易发生时,检测框架实时接收核心系统推送的交易流水报文信息,并查询相应的历史流水进行特征衍生工作从而组装成为输入向量,将输入向量送入模型完成最终的检测。

对于某些满足特定条件的交易,银行需要将其筛选出来并直接进行上报或是干预,例如《金融机构大额交易和可疑交易报告管理办法》所规定的大额交易。然而这些交易的特征可能与模型学习到的导致交易异常的特征不一致,同时检测模型也无法给出判定为异常的具体原因。另外,由于模型的判定依赖于历史统计特征,而一些银行卡可能是新开卡或是活跃度极低,从而缺乏足够的历史记录作为参考,难以判断风险,对于此类交易只能通过某些硬性条件判断其是否触发了绝对风险。基于以上两点原因,在使用模型对交易进行检测之前有必要根据这些规则设置一个过滤器,将这部分交易筛选出来,单独输出。

(二)交易数据预处理方法

1.利用风控规则指导特征衍生

针对稀疏自编码器模型的学习特点和解释困难的问题, 交易流水的特征衍生需要注重两方面原则:(1)衍生出的特征对于检测任务的有效性,即这些特征是否能更好地体现出正常交易与异常交易间的区别;(2)特征本身含义的可读性,衍生出的特征如果能容易被解读,那么在后续能帮助人们更好地理解模型的决策逻辑。

银行在过去的反欺诈、反洗钱工作中积累了大量的检测规则,经过长期的实践证明,这些规则在一定程度上能够反映出异常交易某些方面的特点,因此特征的衍生可以参考这些规则。

例如,参考规则“同一天在非发卡地发生夜间POS 消费交易n 笔以上”,可以设计出特征变量“当天到该条交易前在非发卡地发生夜间POS 消费次数”。

本研究结合实验数据的渠道特点,整理了一系列银行卡交易风险规则,其涵盖了交易频次、交易金额、交易地点三大主题,受限于银行的保密制度,因此本研究不对这些规则的细节做进一步阐述。

基于整理出的规则,本研究为原始交易流水设计了四个类别的特征变量,用户个人信息,本次交易之前t 天内交易特征统计量,本次交易之前当天内交易特征统计量,以及本次交易基本信息。以下是各类特征变量的详细说明。

用户的个人信息是在银行卡办理时采集的,包括用户的ID,性别,年龄,办卡时间,工作性质等。这部分数据表明了用户的基本状态,时变特性非常小,在利用以往一段时间的数据进行分析时,可以认为他们是不变。显然,在一年的时间范围内,年龄属性也是不变的量,即使更新也很方便。

用户以往的交易信息是对银行卡每一次使用的记录,包含了银行卡的使用时间,地点,发生金额,余额变化等信息,对用户过去较长一段时间的交易记录进行分析能够挖掘出用户对银行卡的基本使用习惯。显然,当新的交易记录与以往的使用习惯发生偏离时,就是一个值得关注的风险信号。如果没有以往的交易记录作为依据,模型判断风险的鲁棒性会非常差。例如,假设只考虑交易发生时间这一个因素,用户A 习惯在凌晨交易,用户B 从不在凌晨产生交易。那么当用户A 和B 同时产生一条在凌晨时段的交易记录时,缺少用户习惯信息的系统只能对两条信息给出相同的结果,即都是安全的或者都具有风险。而实际上用户B 的交易信息透露出了风险信号。

将以上四部分特征进行合并即可形成训练数据:

2.训练样本生成流程

在利用历史交易流水生成训练样本集时,必须保证每笔交易的历史统计窗口一致,并且窗口中不能出现相对当前交易而言的未来交易信息,因此在生成训练样本时需要严格按照时间进行计算。具体的生成流程分为五步。

(1)将原始数据集按时间升序排序,并以银行卡号进行分组。

(2)针对每个分组,根据设置的历史统计特征时间跨度t 定位训练样本生成起点。例如,原始数据集总时间跨度为360 天,且设置的历史统计特征时间跨度t 为180 天,则选取第181 天的第1 条交易记录作为训练样本生成起点。

(3)选取当前交易记录的前t 天数据进行历史统计特征的计算,依次向后迭代生成训练样本。

(4)若当前交易记录前t天内交易记录少于阈值n,则跳过此条交易记录不为其生成训练样本。这类信息不足的样本会影响模型最终的效果,它们的风险判断将交由过滤器进行处理。此处的交易记录数量阈值n 目前设置为3。

(5)归集每个分组生成的样本形成完整的训练样本集。

(三)稀疏自编码异常检测模型

1.模型构建

自动编码器模型从形态上分为编码器和解码器两大部分,它们的网络结构互相对称,模型的输入维度与输出维度一致。数据从编码器流入经过编码被映射到新的特征空间,而解码器会尝试将经过编码的特征还原到原始特征空间上。

在异常交易检测任务中,基本思想是使用自动编码器学习如何将原始数据压缩为较低维的表现形式,在这个过程中模型可以学习到各个变量间的相关性与相互作用。在正常交易数量远远大于异常交易数量的假设下,模型会更多地学习到正常交易特征间的关系,因此在尝试还原由正常交易提取的中间特征时,可以实现较小的还原误差。反之,在尝试还原由异常交易提取的中间特征时,还原误差将高于平均值。

自动编码器的训练过程如下:

(1)编码阶段。首先将训练数据X输入编码器,经过编码过程变换得到X∗。中间层编码得到的X∗比输入的数据维度低,但是能够完整的还原输入数据X。因此,X∗中包含了X中所有有用的信息,并且具有不同的数据结构,X∗即是提取到的特征,能够以更精炼的形式表达样本的信息。

(2)解码阶段。将X∗输入解码器,经过解码过程变换得到X̂,X̂的维度与原始数据X一致。

(3)优化阶段。设置目标函数为:

由于深度神经网络模型具有极强的拟合能力,为了防止模型同时充分拟合正常交易与异常交易特征,因此需要给自动编码器施加稀疏性限制,变型为稀疏自编码器。

稀疏自编码的思想是通过抑制大部分神经元的激活,得到一个能够用最稀疏的单元表达原始数据特征的数据结构。首先计算中间层的平均激活度:

其中σ(Z)为输入某样本时中间层神经元的激活值,m 表示输入样本数量。

在目标函数中加入惩罚项:

其中β为惩罚系数,p通常取接近于0 的常数,当前取0.05。该惩罚项会迫使隐藏层所有节点的平均激活度接近0。

2.风险等级分类阈值的选择

稀疏自编码模型本身不具备检测能力,检测功能需通过比较还原误差值实现,首先定义还原误差:

还原误差越大,则代表该笔交易与绝大部分交易间的差异越大,即风险程度越高。通过为还原误差划分分类阈值,可以区分正常交易与异常交易。更进一步地,划分高低两个层级的分类阈值即可区分高风险与中风险交易。

(1)利用训练好的稀疏自编码模型为训练集中所有样本计算出还原误差,统计还原误差的平均值μ以及标准差σ。

(2)分别令中风险阈值δ与高风险阈值为:

(四)实验分析

本研究采用的实验数据为某银行1 年的线下渠道原始交易流水数据,未经过标注。原始交易流水经过清洗、特征衍生、标准化等流程最终形成3,336,035条样本,数据规模满足模型训练需求。

1.模型训练结果

将数据集按7:3 的比例分为训练集与验证集,验证集用于模型训练过程中监控过拟合现象。为训练过程设置早停策略,若是验证集的损失不再下降,则提前终止训练。

训练集和验证集的损失十分接近,下降的趋势也相似,因此可以断定模型没有出现过拟合现象。

模型训练结束后,通过计算所有样本的还原误差,划定中风险、高风险分类阈值。为更加清晰展现阈值选择过程,本文从数据集中随机抽样出一个子集进行还原误差的统计。还原误差呈现出明显的长尾分布。绝大多数样本的还原误差都集中在0 附近,证明模型有效地拟合了绝大多数样本,同时有极少数尾部的样本还原误差远远高于平均值,这些样本的特征可能与其他样本有相当大的差异。将还原误差绘制成散点图,并按照风险阈值的选定方法绘制分界线,仅有极少数的样本被认定为有风险,说明模型具备区分正常交易与异常交易的能力。

2.模型有效性验证与解释

由于缺乏有效的样本标签,因此只能采用第三方模型对稀疏自编码器检测结果的有效性进行交叉验证。

在对数据集的检测结果中随机抽样一部分正常交易,与检测出的异常交易共同组成相对平衡的子数据集,分别使用支持向量机、决策树、随机森林、贝叶斯网络进行二分类的有监督学习,并输出各模型对子数据集的预测结果。分别利用这些模型的预测结果与稀疏自编码模型的检测结果计算重合度,结果显示最低重合度达到95%,证明本检测方法有效。

为了解释模型的检测逻辑,将上述提到的决策树模型进行可视化,并重点关注根节点附近的分叉逻辑,对决策树节点分裂起到关键作用的有两个特征:

(1)S6——当天到该条交易前夜间ATM 在发卡地交易(动账)次数,节点分裂阈值为24.5;

(2)S18——当天到该条交易前其他时间段ATM 在发卡地交易(动账)次数,节点分裂阈值为169.5;

S6、S18 的分布与决策树分裂逻辑呈现一定相关性,即某些特征的离群度可能会被模型视作分离正常交易与异常交易的关键因素。

3.模型评价

经过训练, 模型基于3,336,035 条样本数据中识别出疑似高风险样本832 个,疑似中风险645 个,共计1477 个。经模型识别的风险样本数不到总样本数的4.43‱,高风险样本约占2.49‱,这将大大减轻银行工作人员的追踪和筛查工作量。

通过分析得知,衍生出的统计特征能有效帮助模型区分正常交易与异常交易。同时,这些统计特征具备较好的可读性,在后续进行人工核查时,银行工作人员可以通过这些特征的含义直观地理解交易异常的可能原因,从而确定调查的方向。

四、总结与展望

本研究虽然在银行卡异常交易检测和监管方面的研究取得了一定成果,但该方案更多是用于起步阶段建设,依然存在精度不足、解释力度欠缺的问题,其实现的效果还不足以支撑起智能风险预警、智能高危行为阻断等一些高级应用,因此后续还将进一步研究以下内容。

(1)在收集到一定符合训练标准的有标签样本的前提下,尝试利用有监督深度学习模型构建辅助检测模型,进一步优化检测能力。

(2)利用有标签的样本库,对检测体系的能力进行标准指标的评估,同时研究基于样本个体的检测结果解释方案。

(3)利用逐渐完善的知识库体系,探索更多能够对识别异常交易有影响的因素,并提炼相应的特征补充至样本库中。

(4)针对异常交易检测的下游任务如反欺诈、反洗钱进行更加深入的研究,尝试将单笔交易为粒度的检测信息融入以交易账户为视角的下游检测任务中,引入图计算等先进技术,构建账户关系网络,从网络中识别出疑似参与非法活动的群体。

除了单纯的技术应用研究,管理模式的研究也将会是未来的热点。大数据时代的来临,各行各业都开始尝试将人工智能技术应用于多种业务场景中,而该领域目前正处于飞速发展的阶段,各种理论、模型甚至是硬件日新月异。银行掌握着海量的金融数据,其本身就是一笔无法估量的财富。然而出于数据安全与用户隐私的限制,要充分挖掘这些数据的价值,银行必须在内部培养起融汇多学科的研究型团队,在充分理解银行业务模式的基础上,注重科技上的创新,而与之对应的即是建立起合适的先进管理体系。

可以预见,在监管不断收紧,大众对金融服务水平要求不断提高的未来,银行业乃至整个金融行业的机构都会逐步加大自研项目的比例。特别是一些与银行利益息息相关的业务也离不开智能化技术的支持,例如信贷风控、获客营销等,以往的行业经验与通用的解决方案将有很大机率被个性化的需求所击垮,因此越早地发挥出数据的能量,就越能在激烈的竞争环境中抢占先机。在外部压力和内部需求的双重作用下,银行有充分的动力投入到这场变革之中,而在这个以数据驱动为主全新体系下,有别于传统的管理模式将会是创新的发动机。因此,伴随着技术的发展,适用于银行智能化业务的管理模式更迭将会成为一个充满意义的研究方向。

注释

①数据来源,中国人民银行反洗钱报告2018.

猜你喜欢
欺诈银行卡阈值
关于假冒网站及欺诈行为的识别
复杂背景下银行卡号识别方法研究
银行卡被同学擅自透支,欠款谁偿还?
独立保函欺诈举证问题探讨
小波阈值去噪在深小孔钻削声发射信号处理中的应用
警惕国际贸易欺诈
基于自适应阈值和连通域的隧道裂缝提取
谁划走了银行卡里的款
比值遥感蚀变信息提取及阈值确定(插图)
室内表面平均氡析出率阈值探讨