道路卡口通行数据挖掘研究

2014-03-03 09:16周军广东省广州市公安局
警察技术 2014年3期
关键词:卡口道路车辆

周军 广东省广州市公安局

道路卡口通行数据挖掘研究

周军 广东省广州市公安局

主要针对广州市道路卡口系统通行数据进行分析研究,通过归纳总结涉车犯罪规律,结合公安机关办案经验,建立一系列指标模型,实现异常轨迹车辆的自动分析研判,从而提高公安机关打击有组织盗、抢机动车团伙的效率。

道路卡口 机动车 数据挖掘 模型

一、引言

道路卡口系统通过分布在道路上架设的高清摄像机,采用光电技术、图像处理技术及模式识别等技术对过往车辆进行抓拍,实现对车辆的过车信息、流量分布等情况不间断自动记录,是公安机关交通管理、涉车犯罪打击工作的重要基础技术支撑系统,在甄别假套牌、肇事逃逸轨迹及车辆出行特点规律分析中发挥了重要作用。随着珠三角地区经济、社会的发展以及城市化进程的加快,道路卡口系统布局逐渐形成省、市、区(县)际出入口全覆盖,有些发达市区甚至实现了网格化布局,因此道路卡口系统在打击跨区、跨市甚至跨省流动作案方面的作用日益突显。

二、背景介绍

广州全市已建成道路卡口系统632套,基本覆盖市际、环城、中心城区的道路卡口系统网络,系统日过车数近1500万辆,随着道路卡口系统的不断扩建,车辆流量不断增大,预计短时间内系统过车数将超过2000万辆。按照过车数据及图片保存六个月计算,系统产生的数据总量达到900T。如此庞大的数据量,而且包含了结构化的过车数据和非结构化的过车图片,传统治安卡口的功能已经无法满足公安机关社会管理工作的要求。如何通过对卡口通行数据的研判实现主动发现破案线索,打击有组织的盗、抢机动车团伙,从另一个方面挖掘系统效能,实现信息利用的最大化,已经成为一个亟需解决的技术难题。为了研究车辆轨迹及通行规律,笔者所在的广州市公安局抽调专门力量,以广州市市际卡口为研究对象,开展了道路卡口数据挖掘的研究工作。

三、研究目的

研究的主要目的就是要从长期涉车犯罪破案经验中总结出一批定量分析规则,通过不同规则组合,实现数学模型的构建;通过对卡口后台数据库的综合分析,对车辆异常行为和轨迹特征进行研判,建立一系列数据分析模型;通过模型自动筛选一批可疑车辆,实现精确打击,指导涉车犯罪案件的侦破工作。同时,还能对不同类型车辆的出行轨迹和规律进行分析,为限行、限牌等交通管制措施提供宏观数据支撑,有利于交通管理工作的智能化。

四、研究内容

此次纳入研究的卡口系统总共90套,该批卡口主要分布在广州市主要出入口以及重点区(县)际出入口,日过车量约350万辆。过车图片存储时间为90天,过车数据存储时间为180天,系统数据库及存储阵列总共存储31500万张图片及63000万条过车数据,总数据大小约150T。

五、研究过程

研究主要经历了数据采集、数据清洗、数据仓库建立、建模及主题分析等过程,如图1所示。

(一)关键概念描述

1. 数据仓库

是一个面向主题、集成、相对稳定、反映历史变化的数据集合,用于支持管理决策。数据仓库表按内容性质分为维度表和事实表两种。

2. 维度表

记录基础数据,作为分析的维度,如车主信息、车辆信息、卡口位置信息等。

3. 事实表

记录实际发生的数据,具体体现为卡口车辆往来记录、车辆犯罪记录。

4. 指标模型

由一系列用于衡量、评估事件的指标组成,是破案经验的数字化模型。

5. 分析主题

数据仓库是面向主题的,其数据按照一定的主题域进行组织。所谓主题,就是指数据归类的标准,每个主题对应一个客观分析领域。面向主题,就是指数据仓库内的信息按照主题进行组织,其组织方式是在较高层次上进行数据抽象,对犯罪模型指标体系进行重组(注入变量),以便灵活、侧重分析情况。

(二)研究对象选取

考虑到涉车违法及犯罪活动的复杂性,我们决定选取假牌车、套牌车及异常轨迹车辆作为研究对象,从车辆速度、运行轨迹等方面寻找规律。

1. 假牌车分析

假牌车是指悬挂自编自造车牌的车辆。在日常巡查过程中,路面警力基本很难用肉眼判断其号牌的真实性,基于数据库比对技术,通过道路卡口系统识别的车辆号牌与车辆库进行比对,不存在的号牌即可确定为假牌车。

2. 套牌车分析

(1)一定时间段内同一辆车出现在两个不可能出现的地点。例如相隔3分钟之内的时间段,同一辆车出现在相隔10公里及以上的两个地点。

(2)同一时间同一辆车出现在两个地点。

(3)同一车牌在同一地点或不同地点以不同车型或类别出现。

3. 可疑车辆分析

可疑车辆是指车辆的通行时间及频率与案、事件发生地高度关联的车辆。由于涉及侦查手段,这里不再赘述。

(三)技术难点

处理大数据量的系统,性能往往是最大的瓶颈,反应在用户层面,则是用户体验的一个重要指标。响应时间必须满足用户的合理要求,性能体现在两个方面:一是数据抽取效率,二是数据检索效率。我们采取了以下优化方向:合理分配内存;使用Raid5磁盘阵列,平衡IO负担;抽取优化;检索优化,为数据库建立合理的索引,使用“全文检索+临时表+数据表”的方式,进行最大限度的优化。

(四)主要实现过程

1. 采集数据

采集外部系统数据:车辆信息、车主信息、卡口位置信息、车辆往来信息,由系统管理员设置与外部系统的接口配置。作为系统服务,自动轮询采集,及时更新数据。

主要大、中型矿区有:五台柏枝岩铁矿区、繁峙大明烟大草坪矿段、原平南坡村—孙家庄矿区、代县赵村、白峪里、山羊坪东铁矿区、岚县袁家村、娄烦狐姑山、尖山东大型矿区;灵丘东长城西矿段、繁峙—灵丘平型关铁矿、代县八塔矿区、原平郭家庄、山碰、章腔—令狐、岚县宁家湾等中型矿区以及左权蒿场—连麻沟铁和黎城小寨、黄崖洞铁矿中型矿区。

2. 录入指标模型

犯罪特征数字化,转为指标,并分配各指标所占权重。为细化模型粒度和简化指标,提供指标变量及范围,供创建主题分析时灵活设置。

3. 确定分析主题

分析主题可以根据指标模型动态配置,而指标模型也是可以灵活配置的,因此能够满足以后可能的其它主题分析需求。根据涉车案件规律,初步确定假牌车、套牌车等分析主题。

4. 建模

(1)做好机动车、驾驶证等基础资料分类。

(2)聚类方法不是指具体的特定的聚类算法,而是对目标体属性实现“物以类聚”的思路。在不同的应用场合,有着不同的集聚规则和算法实现。本次研究使用基于模型的聚类划分,可以理解为某个主题分析是寻找某一类车辆,这种类是动态的(用户输入条件参数),分析是动态追踪目标物体(车辆)的过程。

(3)关联与预测。关联应用于特定的情况,如涉及此案件什么样的车可能性比较大,系统提供这样的输入,但需人工关联选择;预测需要大量的涉案记录,用于分析特征,根据特征权重寻找类似车辆。

(4)算法效率平衡。在允许范围内,放宽约束以提升效率。如轨迹匹配,假设车辆1依次经过卡口ABCD,车辆2依次经过卡口ABD,车辆3依次经过卡口ABBC(B被拍摄两次),车辆4依次经过卡口ABCDD(D被拍摄两次),查询与车辆1重合3次的车辆。若严格按卡口顺序匹配,将采用滑动窗口算法(窗口宽度为3)匹配轨迹,此方法效率较低(时间耗费大),匹配出车辆(4);若按卡口顺序,允许间隔出现,那么将采用点匹配算法,此方法为最高效率,匹配出车辆(1,2,4)、(1,3,4)车辆,实际也是符合的。因此,放宽约束可使用较高效的算法。

六、研究成果

经过近半年时间的研究和代码实现,成功研发了一套道路卡口预警和研判系统。系统每周自动更新广州市机动车库数据300余万条,总共接入治安卡口54个,每日抽取、新增行车数据140余万条,月行车数据规模达4000万,基本满足20天数据量的检索需求。系统主要实现假牌识别、时速异常、超速、行车规律等分析功能。除用于数据挖掘、分析的各项模型外,系统还提供非常便捷的统计分析模块,直观显示全市各区卡口流量、车流量、假牌统计和缉查报警统计图(报)表。

七、实验测试

主要测试情况见表1。

?

八、案例验证

系统初步研发完成后组织涉车案件研判骨干参加了系统培训,并下发试运行账号进行实际测试。试用过程中,一方面收到不少面向案件对于模型应用的有效建议,另一方面也发现这批模型中除假牌识别、时速异常、行车规律用户使用较多外,其它模型难以达到理想的分析效果。

经总结,开发团队确立了“傻瓜化”和“颗粒化”的优化思路。傻瓜化,即简单直白,一键就能点出办案人员想要的东西,如“假牌分析”模块。“颗粒化”即进一步细化用户需求,贴近办案人员使用习惯。例如调整数据抽取时间至凌晨5点,以满足盗车案高发时段第一时间研判的需求;行车规律也细化采用了多种形式分析每天规律,如出现次数和出现天数统计、分析。最后,设计了徘徊查询、套牌查询、套牌分析、出现次数分析、出现天数分析、未识别车牌、工具车查询、组合分析等既有非常强的目的性,又简单实用的模型。根据收集回的应用成效案例,总结出了模糊查询、假牌分析、从库到车、车辆徘徊、组合分析等技战法指导实战应用。目前,该系统功能已基本完备,办案部门普遍反映查询效率高,应用效果好。

九、总结

此次研究虽然取得了一定成果,但还存在不足之处:① 系统软硬件性能还不适应大数据量的研判分析应用。随着广州市交通流量的不断增多,道路卡口系统的数量也在不断增加,要想实现全市所有道路卡口数据的挖掘分析工作,仅通过简单的硬件拼凑肯定无法解决;② 数据源不完整。由于数据安全及保密规定的要求,某些数据库只能通过请求访问的方式实现小批量读取,如全国车辆库、年审图片库等,尚无法实现大批量的分析比对工作,影响最终分析结果;③ 分析模型准确性不高。由于数据量太大,为了得到尽量准确而且少的分析结果,办案部门希望分析模型足够准确。

针对上述问题,笔者提出以下几个改进的方向:① 引入云计算技术进行网格计算,提高系统数据分析效率;②梳理整合涉车类数据库资源。通过行政及技术手段,实现全国车辆库、全省出租车库、年审车辆等数据库的共享;③分析模型优化。通过进一步调研,摸清办案思路,将定性原则转化为定量指标,实现分析模型优化工作。

[1] 高磊,赵炫,李鹏飞,郝久月. 面向图像侦查的视频分析研判系统研究. 警察技术,2013(06).

[2] 李金峰,吴菊才. 涉车视频情报信息侦查系统应用研究. 警察技术,2013(05).

[3] 袁鸿燕. 基于数据挖掘与知识发现在决策模型中的应用研究. 电脑知识与技术,2013(36).

[4] 郭旦怀,崔伟宏. 面向实时交通信息提取的车辆轨迹数据挖掘. 武汉理工大学学报(交通科学与工程版),2010.

猜你喜欢
卡口道路车辆
坚持中国道路——方向决定道路,道路决定命运
道听途说
我们的道路更宽广
L卡口“马拉松”联盟的前世今生
车辆
冬天路滑 远离车辆
提高车辆响应的转向辅助控制系统
一次骑行带来的感悟
高速公路车道高清卡口系统实施方案
基于高清卡口识别的高速公路长隧道安全比对系统