基于信令的电话诈骗行为检测及防范研究

2016-11-15 10:30张慧嫦李力卡

广东通信技术 2016年10期

关键词：公检法信令通话

［张慧嫦李力卡］

基于信令的电话诈骗行为检测及防范研究

［张慧嫦李力卡］

目前电信诈骗案件呈高发态势，社会影响及其恶劣。以大数据挖掘的分析方式从业务特征分析，数据处理，数据特征分析和业务建模等层面研究基于信令的电话诈骗检测方法并基于广东电信网络提出可能的防范措施。

电信诈骗信令检测防范

张慧嫦

高级工程师，目前就职于中国电信广东研究院，主要从事数据分析挖掘工作。

李力卡

高级工程师，就职于中国电信广东研究院，主要从事大数据技术研究、分析挖掘工作。

1 电信诈骗现状

1.1 现状

电信诈骗是指犯罪分子通过电话、网络和短信方式，编造虚假信息，设置骗局，对受害人实施远程、非接触式诈骗，诱使受害人给犯罪分子打款或转账的犯罪行为［1］。近十年来，利用电信网络高科技手段实行犯罪的案件呈高发态势，同时诈骗手法日新月异，诈骗金额亦越来越大，社会影响恶劣，给社会稳定和人民财产安全造成严重危害。

根据《腾讯2016年第二季度反电信网络诈骗大数据报告》［2］，第二季度季电话诈骗涉及金额最大，高于网络诈骗和短信诈骗，而电话诈骗中仿冒公检法诈骗金额庞大占总诈骗金额的23%，仿冒熟人、仿冒客服分别占13%、12%左右。本文以大数据挖掘的分析方式，业务特征分析，数据处理，数据特征分析和业务建模等层面研究基于信令的电话诈骗检测方法并基于广东电信网络提出可能的防范措施。

2 基于信令的电话诈骗检测方法研究

谈起电话诈骗检测方法，第一反应是基于通话内容进行检测，2016年8月某智能语音与人工智能技术企业宣布已建立了“智能语音技术公安部重点实验室”，该平台能够针对诈骗人员的诈骗行为、作案手段和诈骗剧本进行分析建模，结合人工智能的意图理解技术，自动识别诈骗主题以及判定受骗程度。另外本文作者也参与过一些防诈骗技术测试，该技术可以对所有呼叫的前几秒音频进行分析，结合出现频率等特征找出可能诈骗语音模板，并将其他呼叫的前几秒音频与该模板进行相似度判断。但是基于通话内容的分析不仅涉及用户隐私，还需对网络大面积改造，因此基于通话内容的诈骗检测难以推广。

而随着信令采集系统在电信网络覆盖的日益完善及大数据处理技术的发展，基于信令的电话诈骗检测方法可以做到不涉及用户隐私，网络改造较少，成为电话诈骗检测的主要方式。

本章以大数据挖掘的分析方式，从业务特征分析，数据处理，数据特征分析和业务建模等层面研究基于信令的电话诈骗检测方法。

2.1 典型电话诈骗的行为特征分析

根据各类媒体报道，电话诈骗诈主要如下几类：

响一声电话：利用特殊群拨设备或软件自动拨号，电话响一声后立即挂断。目的一是诱导用户回拨，听广告宣传，或实施电信诈骗如六合彩，重金求子等。目的二“空号检测”，为其他骚扰、诈骗电话的拨打进行前期“筛选”。

仿冒公检法：初级版是自动播放事先录制好的电话录音，内容为各类欠费，法院传票等，通常受骗用户会按键进一对一的诈骗阶段；高级版，一对一诈骗，仿冒公检法，谎称受害人身份资料与嫌疑犯有牵连，通常还会主动要求受害者打114确认来电号码是否为某某公安电话，之后威胁冻结存款，要求事主将存款转到“安全账户”。

仿冒熟人：冒充受害人的熟人或领导，以各种事由要求受害人转账汇款。呼叫量可能与一般普通主叫没有太大差别，主叫一般为手机号码，与仿冒公检法初级版的录音通知相比，未受骗用户识别用户识别也需要一定的时间，主被叫号码基本上属于同一区域，但是主叫基本上都是漫游在外地。

以上几种诈骗模式，其通话包括如下特征，这些特征经过转换都可以作为诈骗检测建模的参数如表1所示。

2.2 信令数据处理（如图1所示）

图1 广东电信网络拓扑图

获取合适的信令是基于信令的电话诈骗检测的前提。广东省电信网络包含C网，固网NGN以及IMS网络3个子网络，其呼叫路由方式复杂，信令采集点众多，同一个呼叫不仅可能经过多个网元，也可能跨子网，为保证检测效果及追溯呼叫源头，信令采集与处理需要遵循如下原则：

（1）信令采集尽量覆盖所有子网络

（2）信令采集点尽量靠近发呼端边缘端

（3）各子网络内、网络间能要进行信令去重，尽量保证一次呼叫仅采集到一次信令

（4）信令需进行规范化，脱敏等处理

以上原则的实施重点难点是信令的采集和去重，下文简要说明方案的关键环节。

2.2.1 信令采集方案

目前的信令采集系统，已经完全覆盖3个子网，原则1 的实现简单，但是信令采集系统主要是运维功能，采集点众多，若要实现原则2，对于固网由于所有呼叫都必须基于SS转接，信令采集点应选择SS入向，呼叫可以溯源到发端端局；对于C网，应采集A口信令，但由于A口分布太散且数据量太大，系统使用的是MSCE与HLR，MSCE之间的CMAP信令，MSCE与SS之间ISUP，协议以及MSCEY与TMSCE之间SIP信令，呼叫可以溯源到发端MSCE。IMS网络和固网类似也是尽量靠近网络边缘，采集点选择P/I-CSCF。

2.2.2 信令去重方案

固网及IMS信令重复主要原因是一个呼叫触发业务后多次进入关键网元如SS，解决方案如下:

（1）只采集有始发呼叫的局点发往关键网元的信令，各类转接平台的信令不采集。

（2）局点既有始发话务又有转接话务，且转接话务被叫或者主叫有接入码区别时，根据接入码剔除该部分话务。

（3）局点既有始发话务又有转接话务，且转接话务没有接入码区别时，需要在规范主被叫号码后，在应用层结合主被叫号码以及呼叫时间进行话单去重。

C网信令重复的主要原因是一个呼叫可能既有CMAP信令又有SIP 信令，还可能一个呼叫多个CMAP信令，解决方案如下：

（1）不采集MSC与业务平台之间的CMAP信令

（2）对于CMAP中的LOCQEQ 和ROUTEREQ信令，LOCQEQ全部采集，而ROUTEREQ信令中MSC为本省的则全部剔除。

（3）删除MSC与TMSCE之间被叫为TLDN的SIP信令，避免与CMAP信令重复。

对于C网和固网互通部分理论上不会采集重复，但仍通过应用层结合主被叫号码以及呼叫时间进行话单去重。

此外因局数据配置错误导致呼叫循环类的信令重复，也需要应用层实现。

2.3 基于信令的电话诈骗行为检测方法最基本的信令内容包括主叫号码，被叫号码，始发局点，目的局点，通话起始时间，通话应答时间，通话结束时间，释放原因。结合信令基本信息、统计信息及基础信息以及2.1的业务特征还可以衍生出其他特征，并以此作为电话诈骗检测建模的参数。

2.3.1 基于主叫号码形式

根据主叫号码进行主叫号码合法性检测，包括号码长度是否正常，国内国际区号是否存在，号码与始发局点是否一致。对应需要的信令信息包括：主叫号码，始发局点，结合国际国内区号，局点信息，衍生出新的数据特征包括主叫类型（国内国际，固话移动），区号合法性，主叫长度合法性，固话主叫与始发局点区号一致性，可以根据这几个特征直接判断号码是否合法。

2.3.2 基于行为特征

根据诈骗电话的行为特征分析，在一定的周期内，不同诈骗行为可以呈现相应统计特征，单这些业务特征无法直接应用，必须转换成数据特征才可进行后续业务建模，目前采用的数据特征如表2所示。

基于这些数据特征，检测诈骗行为主要有两种方式：

（1）传统的规则方式，根据对诈骗行为的正样本分析，得到相关特征值的分水岭，依次进行判断。

表2 业务特征数据特征对应表

（2）大数据建模方式，结合已知正负样本，采用规则归纳方法，逻辑回归分析，神经网络等进行诈骗行为的判断。

方法2的难点在于难以拿到大量的的诈骗数据样本，并且可解释性较差，因此通常会采用方法1，但可以通过方法2来找出更多的相关特征及其特征值分界点来完善方法1。

无论是采用方法1还是方法2，对于数据的处理，如通话时长的分布，如何对通话时长进行分段，0～5秒一段，5～30为一段还是0～30为一段，如通话时刻是按照每小时进行分段还是按照朝九晚五，娱乐，休息进行分段，这些分段，取值不仅需要业务理解（各类诈骗行为及用户的反应），也需要正确的数据理解对大量的正负样本进行数据分析，其分段方式及取值合理与否直接影响检测效果。

除了统计特征外，电信诈骗还存在一些典型行为，如仿冒公检法诈骗可能会频繁拨打114，仿冒公检法诈骗的受害者接到第一通电话后会立即拨打114，仿冒公检法诈骗可能会频繁拨打各银行客服确认是否到账。这些行为特征都可以作为基于行为统计特征算法的补充。

2.3.3 与正常呼叫的区别

电话诈骗检测的难点是如何将疑似诈骗电话与一些常规的推销区别开来。从呼叫的特征看，一些常规的推销特别是录音推销和仿公检法初级版，中介行为与假冒熟人都非常相似。除了在通话时长分布有所区别以外，在被叫的关联性上也有较大的区别，可以进一步研究作为区别的特征如图2所示。

图2 仿冒熟人与普通中介的通话时长分布对比左仿冒熟人右普通中介

可以看到虽然在0～1秒（未接通）这个范围内两者的比例类似都是30%，但是接通后的时长分布存在较大区别。

图3 仿冒熟人与普通中介的社交圈对比左仿冒熟人右普通中介

图3 为仿冒熟人和中介案例的被叫及被叫间的呼叫关联情况。可以看到仿冒熟人和中介都是群发呼叫，但是仿冒熟人的被叫之间基本没有任何关联，但是普通中介的被叫有一些关联性。

根据对业务理解的加深，可以采用大数据算法挖掘并验证更多的特征。

3 电话诈骗的防范及实施

电信诈骗的防范，从加强宣传，提高群众的防范意识，到银行业及时检测异常的银行卡，异常支付行为及时止付到公检法完善立法，加大打击力度，每一个环节都有相应的防范的措施。就运营商而言，除实名制以外目前能做到的就是对已检测出来的疑似诈骗号码进行关停，拦截和被叫提醒，现结合网络设备能力分析这些方法的实现及应用场合。

3.1拦截

最彻底的拦截就是关停，在无法关停的情况下（国际来话等），常见拦截分为按照号段拦截（左匹配），完全匹配拦截及相似拦截。拦截非法号段或者反过来放通合法号段，以及完全匹配拦截，新局点一般都具备该功能，只是受拦截名单的容量限制。而相似性拦截，如右匹配或者更灵活的相似拦截（如国际来话仿冒上海市嘉定区公安局刑侦队02159980197其主叫号码可能是 00872159980197，00882159980197，006712159980197等12个不同的号码，有些甚至高达20多个…），而现有的局点基本上都没有该功能。

拦截遵循如下原则：尽量在入端处理，集中处理，实时处理。结合广东电信的网络架构，国际来话在国际局处理，省际来话在DC1处理，以上的漏网之鱼在汇接局进行处理。

3.2 提醒

常见的提醒有短信语音的提醒，需要在检测到疑似诈骗呼叫后，将相关的信息发送到短信或者是语音平台进行提醒。对于固话用户无法进行直接的短信提醒则只能进语音提醒或者关联手机用户的短信提醒。

短信语音的提醒的实时性受到检测系统及业务平台实时性的限制，第二章提到的各种检测算法，都是基于呼叫信令CDR，是在呼叫结束后，存在传输延时以及业务处理延时。结合目前的网络状况下，有两种解决办法，一种是通过TDR触发短信通知，即呼叫一开始就将信令发

系统已通过地市公安深度合作，支持打击通讯诈骗，解决了黑主叫分析、溯源定位、被叫预警等能力，可在早期发现和用户风险提示，有效降低诈骗案发率和降低诈骗金额，带来了良好的行业示范效应，成果具有良好应用价值。

1《从Hadoop到Spark的架构实践》，《程序员》2015.06，阎志涛，http://www.csdn.net/article/2015-06-08/2824889

2《hadoop权威指南》，清华大学出版社，（美）Tom White，2010-5

3《社会工程-安全体系中的人性漏洞》，人民邮电出版社，ChristopherHandnagy

10.3969/j.issn.1006-6403.2016.10.002

（2016-10-12）