基于神经网络的诈骗识别分类器设计研究

2021-09-19 09:52林郅睿泮佳伟王俊凯唐青夏张钦蔡磊
科技研究·理论版 2021年7期
关键词:电信诈骗分类器神经网络

林郅睿 泮佳伟 王俊凯 唐青 夏张钦 蔡磊

摘要:随着信息技术在我国广泛的普及以及发展,出现了许多以电话,短信,互联网等联络方式作为主要手段的诈骗犯罪现象的发生。这对信息技术在我国的健康发展产生了许多阻碍。因此,电信欺诈识别作为欺诈识别中一个重要的研究领域,它的研究对于当代社徽预防和遏制电信欺诈等违法犯罪活动,保护人们的人身财产利益具有十分重要的意义。通过对基于神经网络的诈骗识别分类器研发的研究,能够更好的推动信息技术在中国的发展。

关键词:电信诈骗;神经网络;分类器

1.引言

神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。,它的主要任务是根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型,设计相应的学习算法,模拟人脑的某种智能活动,然后在技术上实现出来用以解决实际问题。

TensorFlow 是一款优秀的、应用广泛的深度学习框架,表示机器学习算法的接口以及执行此类算法的实现。TensorFlow跨平台性好,可以在三大主流的系统 Linux、Mac和 Windows 下运行。TensorFlow的核心语法包括:数据流图、可视化的TensorBoard、会话(Session)等。其具有由谷歌开发、维护,可以保障支持开发的持续性,可以在不同的计算机上自由运行代码,而不必停止或重新启动程序,TensorFlow还支持强化学习和其他算法的工具。

卷积神经网络是一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络),是一种多层神经网络,擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法,成功将数据量庞大的图像识别问题不断降维,最终使其能够被训练。CNN最早由Yann LeCun提出并应用在手写字体识别上(MINST)。 LeCun提出的网络称为LeNet,其网络结构如下: 这是一个最典型的卷积网络,由卷积层、池化层、全连接层组成。 其中卷积层与池化层配合,组成多个卷积组,逐层提取特征,最终通过若干个全连接层完成分类。 卷积层完成的操作,可以认为是受局部感受野概念的启发,而池化层,主要是为了降低数据维度。 综合起来说,CNN通过卷积来模拟特征区分,并且通过卷积的权值共享及池化,来降低网络参数的数量级,最后通过传统神经网络完成分类等任务。

2.基于神经网络的电信诈骗识别分类器的设计

(1)模型训练流程及用户行为识别设计流程

通过原始的话单数据和用户的IT信息,将输入的数据清洗模块,经过用户特征图构建处理,从而的得到的一部分特征图作为其训练的数据,再将该部分特征图输入模型构造模块,经分类器评估模块和模型调优模块后得到训练好的调优模型;另一部分特征图作为测试数据,与调优好的模型一起输入行为识别模块进行行为识别,从而得到对测试数据的识别结果。在模型训练期间的模型构造,分类器评估情况,模型调优过程都可以通过模型可视化在浏览器进行可视化展示。

(2)电信诈骗识别分类器的模块设计

话单数据清洗功能模块:用户话单的数据清洗功能模块主要根据用户的原始话单数据和用户的IT信息数据,提供处理后的数据。话单数据清洗模块提供的主要功能包括:用户原始话单数据清洗和用户IT信息数据清洗

用户特征图构建模块:为了便于系统使用者简单便捷的使用上一功能模块得到的处理好的用户话单数据来构建用户特征图,从而输入分类器进行训练。系统设计了用户特征功能图构建模块。用户特征图构建模块主要将过滤好的话单数据和用户信息数据进行聚合、合并和处理操作,从而形成可以输入系统的特征图。主要功能包括:时间粒度分片处理功能和构建特征图片功能。其中构建特征图片功能还包括六个子功能:分别为特征设计,补全缺失值,处理异常值,特征合并,特征复制处理,数据归一化处理。用户特征图构建模块的结构图,清洗后的话单数据在以时间粒度分片处理之后,分别经过特征设计、补全缺失值、处理异常值等步骤得到的不完全的特征图与清洗后的IT信息特征进行特征合并,再经过特征复制处理,数据归一化处理得到最终的用户特征图。

分类器训练与评价模块:分类器训练与评价模块是论文分类器与评价操作功能的具体实现,通过设计卷积神经网络的结构并进行训练从而实现一个分类器模型,达到预测并识别用户诈骗行为的目的。

3.电信诈骗识别分类器的交互流程设计

(1)话单数据清洗交互设计:输入用户特征图的话单数据和用户IT数据是由原始数据经过话单数据清洗得到,话单清洗的流程包括:用户话单数据检查,用户属性数据清洗。

(2)用户特征图构建交互设计:入分类器进行训练的用户特征图是由清洗后的干净的话单数据和用户IT信息经过用户特征图构建所得到,用户特征图构建的流程包括:用户话单数据聚合,构建特征图片

(3)分类器训练与评价交互设计:最终得到的完整模型系统是用于训练的用户特征图输入进模型构造模块的训练后,模型经过模型调优模块、模型评估模块、可视化模块的处理得到最终训练及优化好的模型。用于测试的用户特征图和训练好的模型输入进行为识别模块得到对该用户的分类预测结果。

4.数据结构设计

(1)话单数据结构设计用户话单数据清洗中清洗的原始话单数据和原始用户IT数据都需要进行初步持久化保存操作,以便后续对数据进行提取数据等处理时不用再次进行重复操作。而后续对话单进行合并和聚合需要有完整而良好的数据结构。实验所需数据量决定数据初步存储在硬盘和内存中,不需要使用关系型数据库。测试服务器基于Linux操作系统,Python3的系统上运行基于卷积神经网络的电信诈骗识别系统,包括数据清洗、特征帧构建、模型训练、行为预测等一系列核心逻辑统一部署运行在上面。可视化模块进行展示,需要使用Termianal终端命令行开启可视化模块,同时提供Chrome、Firefox等浏览器展示来进行测试。数据表中时间段都有对应的话单数据信息,对于大量的一行中有部分数据缺失的情况,单纯用0补全,显然会大大影响最终分类效果的客观性和准确性,因此我们考虑使用线性插值补全技术。常用的线性插值补全技术主要有均值/中位数/众数法、固定值处理法、回归方法、插值法、滑动平均法等等。

(2)模型分类过程使用到的技术

本课题为了能在电信诈骗识别的训练模型上有良好的识别分类效果,不仅仅希望只通过单个特征来进行分类,还希望能够发现话单各种特征间的相关关系。基于SVM的分类方式,基于决策树的分类方式等传统机器学习手段,是通过某一特征直接分类,无法达到发现特征间相关关系的效果。而卷积神经网络的局部感知野善于发现图片的局部特征,可以通过训练学习发现人们从肉眼观察难以识别到的特征间相关关系,从而提升分类效果,因此本课题使用卷积神经网络来作为深度学习的主要网络结构。络结构作为启发结构并进行优化同时进行系统构建。

5.结束语

综上所述,基于神經网络的诈骗器的研发与研究在实际的生产生活中能够发挥巨大的效益,能够对于当下电信找诈骗泛滥的问题得到很好的解决,对于未来相关的技术提出了一个很好的发展方向,能够在今后的对于这些如今存在的电信诈骗的行为做出很好的约束力,从而为最终解除这一犯罪现象打下充满建设性的一步。

参考文献:

[1]郭磊 等.基于行为特征识别的网络诈骗嫌疑人追踪系统.信息网络安全,2014,(1)

[2]周林妹 .基于数字媒体技术的电信网络诈骗系统防范研究. 现代信息科技,2019,3(6)

[3]柯家龙 等.基于高价值域名的诈骗网站识别深度学习系统.江苏通信,2021, 37(2)

林郅睿:衢州学院2020级物联网工程技术专业本科学生。资助项目:国家级大学生科技创新项目(项目编号:023220025、023220026);国家级大学生科技创新项目(基于神经网络的诈骗识别分类器研发);衢州学院大学生科技创新项目(项目编号:Q20X034)。

猜你喜欢
电信诈骗分类器神经网络
基于人工智能LSTM循环神经网络的学习成绩预测
学贯中西(6):阐述ML分类器的工作流程
基于图像处理与卷积神经网络的零件识别
基于自适应神经网络的电网稳定性预测
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
电信诈骗犯罪的形势与对策
互联网世界如何实现隐私权的保护
电信诈骗的社会化治理:体系构建与实践推进