基于深度神经网络的庞氏骗局合约识别

2022-05-30 10:48余旻李光平
电脑知识与技术 2022年29期
关键词:区块链

余旻 李光平

摘要:区块链技术的崛起已经是一个不可阻挡的趋势,近年来,大量的投资者开始倾向去中心化的数字电子货币。数以万计的智能合约在以太网上部署,但是与之相对应的检测识别技术还未完善,相关反诈骗的研究还处于一个研究较少的状态,检测的准确度还有提升的空间。文章在提取智能合约的账户特征后,预处理形成数据集,并对其进行训练和检测。实验结果表明,不仅检测的准确度得到提升,还能通过检测特征后生成的热图帮助投资者以及研究人员预防诈骗。

关键词:区块链;以太坊;庞氏骗局

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2022)29-0031-04

1 引言

近年来,加密货币再次引起了广泛关注,特别是被推向风口浪尖的加密货币——比特币。区块链技术是比特币最核心的机制,关于区块链的概念最早的研究要追溯到1991年,斯图亚特·哈伯(Stuart Haber)和斯托内塔(W.Scott Stornetta)使用区块链实现了一个不可篡改的文档时间戳系统。哈伯和斯托内塔的设计中加入了默克尔树的概念(Merkle trees),多个文档收集在一个区块中,从而提升了系统效率。

比特币受到很多人关注,公认的第一个区块链是由中本聪发明的比特币。通常将区块链技术的发展分为三个阶段,分别是比特币时代的区块链1.0时代,以太坊时代的区块链2.0时代和以EOS为代表的区块链3.0时代。

区块链可以被视为一个公共分类账簿,其中所有提交的事务都被存储在一个区块链中。当链附加新的区块时,该链不断增长。区块链技术具有关键特征,如去中心化、安全性、分布式、透明性等技术优势。区块链可以在一个分散的环境中工作,它可以通过集成几种核心技术,如加密散列、数字签名(基于非对称加密)和分布式共识机制来实现。使用区块链技术,交易可以以一种分散的方式进行。

许多基于区块链的项目已经被创建出来。以太坊是一个基于开源的区块链的分布式平台。智能合约是相互不信任的参与者之间的一种计算机协议,当预设条件满足时,它会在区块链上自动执行,不能终止智能合约的执行,也不依赖于受信任的权限。智能合约可以应用于不同领域,支持智能合约的区块链平台被认为是第二个阶段。

庞氏骗局是一种欺诈性的投资操作,运营商通过新投资者支付的收入,而不是通过合法的商业活动或金融交易产生利润,为年长的投資者产生利润。在庞氏骗局中,许多参与者将失去他们大部分的投资资金。庞氏骗局损害了正常的经济,许多国家都加以禁止。如今,许多庞氏骗局将自己伪装在智能合约的面纱下,由于参与者对持续回报的信心是庞氏骗局成功运行的一个关键因素,智能合同似乎对庞氏骗局是一个有吸引力的工具,因为它是自动执行的,不能在区块链上终止。更重要的是,推广者始终保持匿名,所有账号的信息都是不可追溯的,这使得庞氏骗局的运营者可以肆无忌惮地发布庞氏骗局合约。由于区块链的专业性相对未接触的人来说,绝大多数在智能合约上进行投资的用户缺乏相关的专业知识,难以对智能合约中的欺诈行为进行有效辨别。

本文基于Chen Weili和Zheng Zibin等人的研究,从机器学习的角度出发,用Catboost及CNN方法检测智能合约中的庞氏骗局。

本文其余部分的内容为:第二节介绍相关的庞氏骗局在区块链中的研究工作。第三节介绍了对于数据的详细描述、提取的特征和分类模型。第四节介绍了实验结果与分析。最后第五节对全文进行总结。

2 相关工作

本节主要介绍的是研究庞氏骗局在以太网中的相关研究,并且结合深度学习的相关模型,将两者进行结合,进而起到能够检测并预测是否存在智能合约为庞氏骗局智能合约的可能。

庞氏骗局是一种十分经典却又常见的金融投资诈骗。庞氏骗局的组织者常以高回报低风险、收益稳定且数目巨大来包装诱惑投资者对该项目进行投资。这些组织者正是抓住了对投资行业不甚了解的投资者有侥幸、贪小便宜的心理。随着区块链的兴起,金融行业率先在以太网上进行发展。许多打着“众筹”“P2P”等名号的庞氏骗局蜂拥而出,造成了恶劣的社会影响。目前,除了对投资者进行宣传教育,政府暂时也难以对以太网上的交易进行有效监管,因此需要加强立法与监管。由此可见,搭建用于检测区块链上庞氏骗局的模型起到了至关重要的作用。

庞氏骗局的主要特点有:1)庞氏骗局的创建者可以保持匿名;2)智能合约在执行的过程中,任何机构(例如法院)都无法终止任务执行,或给受害者退款,对于在未经许可的区块链上运行的智能合约更是如此;3)投资者可能因为智能合约的代码是公开的、不可改变的、被强制执行的情况,误以为这种虚假的宣传为可信的,误以为智能合约会永远运行,能够永久获得极大收益。

如图1为庞氏骗局的智能合约的一类代码,智能合约通常用高级语言编写,Solidity一般是常用的语言,其语法类似JavaScript,该代码片段保留了庞氏骗局智能合约如何从投资者中获利,第24行中可以看到,每项投资的10%将会变成投资的手续费给到创建合约的人,这些交易和事务都是完全公开的,可以通过ethereum.io进行查看。

3 庞氏骗局合约的识别模型设计

3.1 数据集

本文采用的数据集为etherscan.io上开源的数据,通过爬虫的方式爬取庞氏骗局的交易信息汇总成为数据集。通过统计得出:数据集中含有50份庞氏骗局,2000份正常智能合约,正反样本为40:1。

3.2 特征选取

本文实验主要对庞氏骗局的6种有效账户特征进行识别和检测,许多智能合约的代码是不会在以太坊中公开的,可能会对检测造成偏差,所以本文采用提取全部公开的账户特征进行识别和检测。

庞氏骗局与正常的智能合约在账号交易中存在着差异,例如:庞氏骗局初始的交易会更加频繁,时间越往后交易次数会递减;庞氏骗局为了诱惑投资者投资,前期会返还部分新加入投资者的资金给早期加入的投资者,诱惑他们再次大量投资。

因此,本文将智能合约中的Txhash(交易哈希值)、From(交易账户)、ContracAddress(智能合约地址)、Value_in(交易金额)、Blockno(区块编号)、UnixTimestamp(时间戳)6种有效的账户特征作为识别和检测的特征。

3.3 模型构建

从本质上来研究,识别庞氏骗局是一个二分类问题。优先级一般基于正样本的先验概率得到,考虑到庞氏骗局中的样本数量较少,在训练过程中容易拟合,因此优先考虑用Catboost来检测。Catboost模型具有两大优势:其一,为了避免过拟合,首先对所有的样本随机排序,然后针对类别特征中的某个取值,每个样本的该特征值转为数值型时都基于排在该样本前的类别标签取均值,同时加入优先级和优先级的权重系数,这样可以降低类别特征中低频次特征的噪声;其二,对于每个样本,都单独构建一个利用样本之前的样本点的梯度估计得到的模型,针对这些模型估计该样本的梯度,利用新模型重新打分,利用多种样本排序,可以训练得到多种模型,进而减少过拟合现象。

除了使用Catboost模型外,还使用了卷积神经网络CNN模型。CNN除了能够提升检测的性能外,还能判断通过哪个账户特征检测出智能合约为庞氏骗局,可以更加简便地运用到实际中。

图2描述了模型的大概原理,通过手动爬虫以及数据预处理,将处理好的样本输入模型中,两个卷积层将特征提取,再连接两个全连接层分类,使得模型更容易學习。最后得到了NLLLoss(),后面接一个log_softmax()层,最后输出向量的每个值表示这个样本属于每个账户特征的概率。

4 实验与分析

4.1  实验参数设置

本实验搭载Intel i5-9600K,32G内存,NVIDIA RTX2060 Super显卡,深度学习框架使用的是Pytorch1.5版本,运算平台使用了NVIDIA公司CUDA 10.0。

4.2 性能评价指标

为了方便对庞氏骗局进行检测识别的模型进行比较性能,本次实验通过三个指标进行评价:

(a) Precision

[Precision=TPTP+FP]                       (1)

其中TP表示实际样本为正样本,且被判别为正样本的样本数量;FP表示实际样本为负样本,且被判别为正样本的样本数量。

(b)Recall

[Recall=TPTP+FN]                            (2)

其中TP表示实际样本为正样本,且被判别为正样本的样本数量;FN表示实际样本为负样本,但被判别为负样本的样本数量。

(c)F-score

[F-score=2*Presicion+RecallPresicion+Recall]           (3)

4.3实验结果及分析

图3和图4展示了随着训练次数增加,模型出现过拟合的现象,在训练超过120次后,训练的效果已经达到过拟合状态,因此将模型的训练次数设定在120次较为合理。

图5中横坐标的0代表Txhash、1代表From、2代表Contract Address、3代表Value_in、4代表Blockno、5代表UnixTimestamp。可以看出,除了Value_in以外的5个账户特征对于检测是否为庞氏骗局的概率相差不大,起决定因素的还是账户输送的金额决定。

表1展示了不同账户特征检测出来庞氏骗局的概率对比,从表中可以看出,判断和检测是否为庞氏骗局依靠单一的账户特征准确度最高的能达到96%,主要依据Value_in可以判断出该合约是正常合约还是庞氏骗局合约。由于合约交易数量有差异,并且模型会将输入的账户特征随机打乱,导致模型在识别中会出现准确度差异,因此平均值和中间值会有部分差异。

表2中展示了不同的模型下庞氏骗局的检测效果。本文中不仅运用了CNN的方法提升检测性能,同时还复现了其他经典的深度学习的方法,还使用Catboost的方法将所有的特征转换成数值型特征,运用这种深度学习的方法可以针对类似庞氏骗局的检测,对于这类样本数据更加具有针对性。从表中可以看出,本文提出的训练模型和RF网络相比,Recall和F-score都有了很大的提升,但Precision对比起来提升没有特别明显,因为准确度已经达到比较高的状态,这也说明了在较少样本的情况下依旧想要更好效果的训练难度更大。本文中的CNN模型除了性能有所提升以外,还将各个账户特征的识别概率分析出来,更加有效地提升了识别的准确性和可信度。

5 结束语

目前,针对庞氏骗局的检测,对比以往的经典深度学习模型,本文提出的模型与传统模型的网络相比,参数量下降很大,推理速度得到了很大提升,通过预处理账户特征等信息,将样本数据输入模型,最终提升识别模型的性能,使得Precision达到98%、Recall达到97%。但是即使这样仍然会存在一些问题,虽然运用CNN解决小样本的过拟合问题,效果依旧不是很理想。

因此,针对小样本问题,可以跳出优化过拟合问题的思想,使用生成对抗网络的方法,进行无监督学习,实现对正常合约聚类,生成模拟样本数据,增加样本数量,进而解决样本不够的问题。

参考文献:

[1] Atzei N,Bartoletti M,Cimoli T.A survey of attacks on ethereum smart contracts SoK[C]//Proceedings of the 6th International Conference on Principles of Security and Trust - Volume 10204.New York:ACM,2017:164-186.

[2] Vitalik Buterin. A next-generation smart contract and decentralized application platform[M]. Ethereum white paper,2014.

[3] Chen T Q,Guestrin C.XGBoost:a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco,California,USA.New York:ACM,2016:785-794.

[4] Juels A,Kosba A,Shi E.The ring of gyges:investigating the future of criminal smart contracts[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security.Vienna,Austria.New York:ACM,2016:283-295.

[5]  Garrett Keirns. “Gemcoin” Ponzi scheme operator hit with $74 million judgment. (March2017). [2017-10-01] .[EB/OL].https://www.coindesk.com/gemcoin-ponzi-scheme-operator- hit-74-million-judgment.

[6] Sunny King and Scott Nadal. Ppcoin: Peer-to-peer crypto-currency with proof-of-stake[J].Self-published paper, 2012(8):19.

[7] Kondor D,Csabai I,Szüle J,et al.Inferring the interplay between network structure and market effects in Bitcoin[J].New Journal of Physics,2014,16(12):125003.

[8] DAVID Z. MORRIS. The rise of cryptocurrency Ponzi schemes.(2017-10-1).[EB/OL] .https://www.theatlantic.com/technology/archive/2017/05/cryptocurrency-ponzi-schemes/528624.

[9] M?ser M,B?hme R,Breuker D.An inquiry into money laundering tools in the Bitcoin ecosystem[C]//2013 APWG eCrime Researchers Summit.San Francisco,CA,USA.IEEE,2013:1-14.

[10] Nakamoto S.Bitcoin:a peer-to-peer electronic cash system[EB/OL]. https://bitcoin.org/bitcoin.pdf?bitcoin.org/bitcoin.pdf,2008.

[11] Swan M.Blockchain:blueprint for a new economy[M]. OReilly Media, Inc.,2015.

[12] Wang H M,Zheng Z B,Xie S A,et al.Blockchain challenges and opportunities:a survey[J].International Journal of Web and Grid Services,2018,14(4):352.

[13] Zheng Z B,Xie S A,Dai H N,et al.An overview of blockchain technology:architecture,consensus,and future trends[C]//2017 IEEE International Congress on Big Data (BigData Congress).Honolulu,HI,USA.IEEE,2017:557-564.

【通聯编辑:唐一东】

猜你喜欢
区块链
区块链对互联网金融发展的重塑与挑战分析
基于区块链技术的海上散装液体化学品运输安全监管方法
保险企业的区块链技术应用方向选择研究
区块链技术在金融领域的应用与前景研究
区块链技术的应用价值分析
“区块链”发展现状评述及展望
“区块链”的苟且、诗和远方
基于区块链技术的数字货币与传统货币辨析
智能合约与金融合约
用“区块链”助推中企走出去