基于群集性轨迹追踪的疾病风险分析算法

2022-06-06 06:31蒋皓宇
科学与财富 2022年2期
关键词:数据分析

摘 要:突发性群集性传染性疫病,对人体生命安全和社会经济稳定都造成了巨大威胁;还有一些如高血压、类风湿性关节炎、微量元素缺乏症等慢性病症,与患者地理分布、饮食习惯等密切相关。传统的传染病与地域性慢性疾病十分依赖医务人员的实际经验与敏感程度。因此亟需开发一种能够实现群集性疾病轨迹追踪的风险评估分析算法,及时发现可疑患者集聚人群有利于及早的采取应对措施,最大程度减轻这类疾病对社会造成的影响。

关键词:数据分析;群集性疾病;轨迹追踪;异常报警

1概述

群集性感染性疾病如严重急性呼吸综合征(SARS)、甲型HIN1流感等的大面积爆发,对人类生命安全与社会经济稳定构成了极大威胁。国家卫生健康委副部级机关——国家疫病预防控制总局在印发的《关于做好2021-2022年流行季流感防控工作的通知》中,从加强疫病监控预警与数据分析的研究、从加强流感疫苗供应与调拨管理和疫苗数据的信息化管理、统筹医疗资源规范开展救治等七个方面强调了流感防控的措施。其中重点强调了信息系统的作用。充分发挥了信息系统在追踪全国流感疫情动向,加强了流感活动强度等的监控管理工作,增强了流感检测敏感性与准确率等方面的功能;发挥信息系统在疫苗信息报告、疫情调拨和流向信息等方面的关键功能,提升疫情管理水平。

一些慢性病症,如急性高血压、类风湿性关节炎、微量元素缺乏症等,与患者地理分布、饮食习惯等密切相关,我国每年花费大量的人力物力用于群集性疾病与慢性疾病的防治。通过临床工作实践中可以发现,传统的传染病监测极度依赖于医务人员对这些疾病的敏锐性和警觉性,而且也只能针对能诊断明确的传染病。事实上,对那些急性传染病尤其是不明原因的传染病要做出及时发现和判断,最大程度化解公共卫生风险十分依赖于临床及早识别和发现患者。其中,及早识别出发病人群具有聚集性的特点具有十分重要的流行病学意义和社会意义;同样,对于慢性疾病的管理以及某些地方病的流行状况监测也都依赖于一定物理空间区域内患者群集性状态的自动识别。因此,这种对群集性早期预警与风险等级评价,无论对急慢性传染病、慢性病管理均具有重要的临床意义。通过开发能够实现群集性疾病轨迹追踪的风险评估分析算法,及时发现可疑患者集聚人群有利于及早的采取应对措施。

另外,报告显示,数字赋能智慧医疗已成为主流趋势,大数据分析也将在疾病监控、辅助决策、健康管理等领域发挥重要作用,而NB-IoT+物联网芯片等融合应用,也将弥补传统医疗设备的缺点,成为移动医疗设备的标配。在平台层,云计算、大数据、人工智能、区块链等技术将推动医疗信息化及远程医疗平台改造升级。

2021年12月28日,由工信部联手我国衛生部门保健委、我国发展改革委等部门和有关单位共同颁布的《"十四五"医药装备产业健康发展计划》于二十八日对外公开发布。当中明确提出,推进智慧医药技术装备健康发展。要求进一步利用计算机技术进行智慧诊断,以提高我国对老年人的医疗健康信息技术服务保障能力,计划中同样作出了战略部署。

总之,三个方面决定了本文章提出方法的意义。一是社会防疫需求,突发性群集性传染性疾病,如SARS、甲型HIN1流感、新冠肺炎等的大面积爆发,对人类生命安全与社会经济稳定构成了极大威胁;二是慢性疾病需要进行防治,某些慢性疾病,如高血压、微量元素缺乏症等,与患者地理分布、饮食习惯等密切相关。我国每年花费大量的人力物力用于相关疾病的防治。三是老龄化的越来越严峻,随着老龄化程度提高,未来我国老年人数将逐步上升。老龄化的增加将造成老年人群体医药、护理需求量的大幅增加,医疗行业亟需升级。

本文提出了一种群集性/慢性疾病早期自动报警、初步特征分析方法,其特征在于包括活动轨迹追踪模块、自动报警展示模块;运用算法对医疗机构病历数据库的定时扫描,结合患者个体行动轨迹的分析,能够对出现的突发群集性疾病实现自动报警,避免目前因人工上报造成的防控迟滞,为重大突发群集性疾病争取到宝贵的防控时间。

2方法分析

2.1活动轨迹追踪模块

利用患者使用的可公布、共享的定位方式,或与移动通讯运营商协议,经主管部门允许,通过病人手机终端获得患者物理空间GPS定位信息,自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹的特定事件进行群集性分析,包括活动轨迹提取及聚类分析。活动轨迹追踪模块工作时,包括如下步骤。

2.1.1活动轨迹获取

利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息,同时对冗余轨迹数据进行压缩。轨迹数据由一系列的数据点构成,用表示;具体步骤如下。

步骤一:利用滑动窗口W和均值技术从轨迹数据中滤除噪点,得到处理后的数据点集;

步骤二:对上述数据点集进行停留点检测,所述停留点是指具有代表性的数据点,使数据点集就变成有意义的地方集;

首先,检测定位点pi'与其后继点pi+1'间的距离,有无超过给定阈值的轨迹;然后,用它检测所定位点与距离阈值范围内的最后一次后继pk'之间的时间间隔;如果时间间隔超过了给定的距离阈值,则该定位点为停留点;最后从pk'的后继点迭代检查,直到所有数据点集检查完;

步骤三:进行轨迹压缩;在步骤二获得的数据点集的基础上,采用道格拉斯-普克算法进行压缩,过程如下:

a.把曲线的首末点连成一个平行直线,可以求得曲线上每个点到直线的垂直间距,并找出最高间距值dmax;

b.用dmax与预设的阈值D相比较时,若dmax

c.否则,必须保留dmax对应的位置点,并以该点为界,将曲线划为两部分,再重复以上过程,直至所有dmax均小于D,如此即实现对曲线的压缩;

d.当每个曲线都处理完毕时,顺序衔接每个分割节点而产生的折线,即为原始曲线的路径。

2.1.2活动轨迹数据分析

通过对资料预处理后轨迹数据处理,分析并提取有价值的信息,通过时空环境中事故调查、群体监控;发现频繁时序模式,利用公众性规律或公众性的频繁路径,实现地点预测、病员相似性预测;通过周期性的活动行为,预测病员未来的行为;具体步骤如下:

步骤一:先进行轨道相似性度量,通常用一个距离函数来进行;首先,界定点和轨道中间的一致性,假定点q和轨道A相同,q和A间的一致性通常界定如下:

P'的运动轨迹在A上和d(.)测量间距最小的地点;在推算二点间距时,通常使用L-P范数,或欧氏距离,切比雪夫距或曼克顿间距等计算方法测量间距;

如使用切比雪夫距离:在两个n维矢量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的切比雪夫距离为,

接着,通过计算DTW距离来确定轨迹与轨迹的相似性,DTW距离如下:

h,r为轨迹A,B的长度;

给定轨迹A<a1,a2,...an>和轨迹B<b1,b2,...bm>,Head(A)表示a1,Rest(A)表示<a2,a3...an>。

步骤二:对轨迹进行聚类,并分析公共规律行为;采用的密度最大值聚类算法MDCA,其核心步骤是:

a.将数据组分割为基本簇,对数据集中选择较大的密度点pMax,再根据间距排列得出SpMax;然后对数据序列的前m个样本数量加以判定,假设对象密度等于或超过density0,则把当前对象加入到基本簇Ci中;从数据集合剔除Ci中隐含的所有对象,并管理剩余的数据集合,选择最高密度点pmax’,并建立基本群Ci+1;如此循环操作,直至所有数据集合剩余对象的最高密度系数均等于density0。

b.通过凝聚层次聚类的思想,结合距离最近的基本簇,得到最终的簇划分,在簇中选取相距最近的两个簇加以合并;合并条件为:簇间距小于等于dist0;若每个簇与簇间距小于dist0,终止合并操作。

c.处理剩余点。如保留噪声:则扫描各个残余对象,将其中与某些簇距离小于或等于dist0的对象归入其中的间距最近的簇;与任何簇的间距均等于的dist零的对象作为噪音。假设不保持噪音:则将任何剩余对象都划给相距最近的簇。

2.2自动报警展示模块

通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警;达到预先设定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地点.自动报警展示模块工作時,按如下步骤进行。

步骤一:进行病例特征数据分析,在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时空相关特征。

步骤二:阈值自动报警,通过医疗专家的从医经验,预先设置病例异常的条件和病例数异常阈值,以此分析所采数据,判断特征数据是否达到预设触发条件,如果达到预设触发条件,则自动化报警,可使用t检验法,格拉布斯检验法,狄克逊检验法费明细数据异常,过程如下:

a.用Dixon法分析数据的异常状态,设样本为,其顺序统计量为:x(1)<x (2)<…<x (n);

b.其中x(1)为最小,x(n)为最大,当序列统计变量x(i)满足正态分配时,Dixon提供了对各种样本总量为n时统计变量D的运算公式;

c.当显著水平α为0.05或0.01时,Dixon就给予了其临界值D1-α(n);

d.如果某样本的统计量D>D1-α(n),则x(n)为异常值,如果某样本的统计量D′> D1-α(n),则x(1)为异常值,否则为正常值。

3结语

实现群集性疾病的早期识别预警具有重要的实际意义。通过本方法对患者相关信息的不同字段的设定、抓取,结合就诊前特定时段内GPS定位个体行动轨迹分析,能够实现对单位时间内目标病例空间分布特征的分析,初步分析提取突发群集性疾病空间分布特征、单位面积内数目、疾病发生的强度等信息;同时还可应用于类风湿性关节炎、微量元素缺乏症等慢性病的防治。通过对其进行初步特征分析与风险评估,卫生医疗能够及早制订应对预案,达到提高群集性/慢性疾病群防群控的效果和目的。

参考文献

[1]杨秀璋,李晓峰,袁杰,李坤琪,杨鑫,罗子江.一种融合语义知识和BiLSTM-CNN的短文本分类方法[J].计算机时代.2021,(11):49-54.

[2]陆妍玲,韦晶闪,赵雨萌,周俊芬,李景文,姜建武.提取热点区域的时空轨迹数据聚类分析[J].数学的实践与认识.2021,51(13):129-138.

[3]石凤贵.基于jieba中文分词的中文文本语料预处理模块实现[J].电脑知识与技术.2020,16(14):248-251.

[4]杨秀璋,李晓峰,袁杰,李坤琪,杨鑫,罗子江.一种融合语义知识和BiLSTM-CNN的短文本分类方法[J].计算机时代. 2021,(11):49-54.

[5]陶洋,邓行,杨飞跃,潘蕾娜.基于DTW距离度量的层次聚类算法[J].计算机工程与设计.2019,40(01):116-121.

[6]王 晶,夏鲁宁,荆继武.一种基于密度最大值的聚类算法[J].中国科学院研究生院学报.2009,26(04):539-548.

作者简介:

蒋皓宇,男,生于2001年8月,汉族,江苏淮安人,扬州大学本科在读,计算机科学与技术专业。

基金项目:本文系江苏省大学生创新创业训练计划项目,项目编号:202111117113Y

猜你喜欢
数据分析
基于matlab曲线拟合的数据预测分析
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
浅析大数据时代对企业营销模式的影响