卷积神经网络在案件分类上的应用

2019-10-08 06:52李昊泉史梦凡陈舒楠

软件 2019年4期

李昊泉史梦凡陈舒楠

摘要：几年前，机器学习在司法方面的应用被提出并得到迅速发展。本文通过对判决文书的学习，将训练出的模型以文本分类的方式，用于协助办案人员进行罪名预测：1、在权威网站爬取大量判决文书，进行信息预处理后，提炼出较为精炼的文本数据和罪名标签;2、对文本进行分词、结构化处理、构成词汇表并与相应的词向量进行1对1映射;3、应用谷歌的Tensorflow搭建卷积神经网络，设置参数，训练模型并测试;4、反复调整参数后，改进优化算法，使分类效果理想。最终分类准确率在95%以上。

关键词：卷积神经网络;文本分类;罪名预测;分词;优化算法

中图分类号： TP183 文献标识码： A DOI：10.3969/j.issn.1003-6970.2019.04.049

本文著录格式：李昊泉，史梦凡，陈舒楠，等. 卷积神经网络在案件分类上的应用[J]. 软件，2019，40（4）：222225

【Abstract】： Several years ago， application of machine learning in judicial field was proposed and developed rapidly. Through judgment documents study， the article applies trained model for assisting case handlers in crime prediction with text categorization： 1. collect a large number of judgment documents on authoritative websites， after preprocessing information， extract refined text data and accusation labels; 2. carry on word segmentation and structural processing of texts to form vocabulary， map with corresponding word vectors 1 to 1; 3. construct convolution neural network with Google's Tensorflow， set parameters， train model and test; 4. after adjusting parameters repeatedly， improve and optimize algorithm to make classification effect ideal， and final classification accuracy is over 95%.

【Key words】： Convolutional neural network; Text classification; Crime prediction; Word segmentation; Optimization algorithm

0 引言

近年来，机器学习飞速发展，尤其在自然语言处理、文本分类方面，人工智能应用广泛。其中，卷积神经网络（CNN）不仅在图像领域取得了很大的成就，近年来在文本分类方向也大放异彩[1]。

当前对案件的定性普遍由人工进行，使用机器学习搭建经济类犯罪案件侦查系统后，有利于增强调查者的能力，可以有效缩短侦查程序的过程，从而提高案件处理效率。

我们计划选取近年来频发的经济类案件作为训练数据，在中国裁判文书网上爬取判决文书作为训练材料，训练完成的模型可以对输入的案件陈述进行快速分类，达到罪名预测的目的。执法机关可以在案件定性时结合相关人员的意见进行快速且准确的判断。为此，我们将设想付诸实现。

1 相关技术介绍

1.1 中文分词

中文分词在自然语言处理中的重要作用不言而喻，主要包含三个过程：文本预处理、文本特征提取、分类模型构建。判决文书具有严谨、准确等特征，因此本项目将重点放在文本预处理上。预处理过程中最重要的是分词，我们选择使用基于统计的分词方法[2-3]。该方法主要统计上下文中字符与字符相邻出现的概率，两字符相邻出现的概率越高，它们联合起来恰好组成一个词语的概率也越大。中文中组成词汇的几个字常一同出现，由此来达到分词的效果。

迄今为止，中文分词已经有许多较为成熟的工具包，如jieba、pynlpir、scseg等。本文选取的jieba工具具有多种分词模式，对案件文书分词有良好的效果[4]。

1.2 文档、词项矩阵

分词完成后需将数据结构化处理才能进行下一步分析，本项目中所采用的结构化处理方式为文档、词项矩阵法，即Document-Term Matrix。以项目中的文档为例，我们在众多案件类型中选取信用卡诈骗和合同诈骗两种类型的案件，文本一[经济，犯罪，信用卡，诈骗，调查]，文本二[经济，犯罪，合同诈骗，研究]，则基于这两个文本构建出的词典包含7个不同的特征词汇，{1：经济，2：犯罪，3：信用卡，4：诈骗，5：调查，6：合同诈骗。7：研究}，经過转化即可显示为（1，1，1，1，1，0，0，）和（1，1，0，0，0，1，1），其中向量元素表示对应词汇出现的次数，两向量合并则获得文档-词项矩阵。本项目中我们选用的转化库为scikit-learn库。

1.3 优化算法

优化是指改变 x 以最小化或最大化某个函数 f（x）的任务。对其进行最小化时，也称为损失函数。