睡眠状况与健康的探究

2018-10-19 16:09刘帅高泽斌白倬宁毕秋哲王立亚
科学与财富 2018年25期
关键词:应用数学病理学统计学

刘帅 高泽斌 白倬宁 毕秋哲 王立亚

摘要:睡眠质量是衡量生活质量的重要指标,与人体的年龄、性别、神经质等客观生理指标以及主观心理评价密切相关,对人的身心健康和疾病诊断起着至关重要的作用。根据统计学、病理学以及数据挖掘等知识,对睡眠质量及其影响因素间具体关系进行探究,运用皮尔逊相关分析法确定年龄、性别Reliability、Psychoticism、Nervousness、Characte这六个指标的相关系数,再根据显著性分析的结果排除了指标Reliabilit、Character。依此可确定诊断结果与睡眠的关系。

关键词:应用数学;皮尔逊相关分析法;病理学;统计学;FP-Growth算法

中国分类号:R338.63,R749.41 文件标识码: A 文章编号:

0 引言

人类将生命中1/3的时间用于睡眠,在此期间,人体的循环系统进行代谢,使人恢复体力,增强免疫力,同时神经系统进入休眠状态,保护大脑并恢复精力。但随着生活节奏的加快,压力的增大,人的睡眠质量逐渐得不到保障。据统计,中国成人失眠率高达38.2%,近年来,青少年的睡眠障碍率也在逐步上升至43.5%。长时间失眠和睡眠障碍会导致人的精神不集中,工作效率低下,甚至影响任的身心健康,不利于青少年的健康成长。因此,保持良好的睡眠质量对于我们的健康生活尤为重要。

1 模型建立与求解

1.1 睡眠质量与指标间相关性分析模型

1.1.1 数据标准化

由于医生对患者进行诊断时,不可避免的夹杂着人为主观因素,因此利用式(1)来对数据进行标准化处理。

1.1.2 皮尔逊相关分析法与回归系数

皮尔逊相关系数法[8](Pearson product-moment correlation coefficient)是一种准确度量两个变量间相关程度的统计学方法。对于两个变量x和y,通过试验可得到若干组数据,记为(xi,yi)(i=1,2,3,…,n),相关系数r的取值范围为[-1,1],即 。 越接近于1,表明x与y的线性相关程度越高。如果r=-1,则表明x与y之间为完全负线性相关,反之,若r=+1,则表明x与y之间为完全正线性相关,如果r=0,则x与y间不存在线性相关的关系。

一般情况下,r的取值在(-1,1)之间,变量间的相关程度可分为以下几种情况:当 时,可视为高度相关; 时,为中度相关;

时,为低度相关;当 时,说明两个变量间的相关程度极弱,可视为非线性相关。

接着,利用已求得的相关系數r,求得对应的回归系数b。回归系数[9](regression coefficient)在回归方程中表示自变量x对因变量y的影响程度的参数,其值越大则表明x对y的影响越大。

1.1.3 显著性检验

相关系数r是通过对样本数据进行计算获得的,其值受到样本抽样的随机性、样本的数量等影响,因此,需要考虑样本相关系数的可靠性,即进行显著性检验。首先将样本不相关的推断假设为H0;其次计算检验的统计量,一般情况下采用T分布检验[10]。

最后,根据给定的显著性水平α和自由度df=n-2,利用T分布表查出 的临界值。若 ,则拒绝原假设 ,表明总体上两个变量间存在显著的线性关系。

1.1.4 数据处理与相关性分析

根据式(2)以及样本中经标准化处理后的相关数据,运用SPSS软件计算出睡眠质量与年龄、性别等指标的相关系数和显著性系数,结果如表1。

由表可知,睡眠质量与年龄、Psychoticism高度相关,相关系数分别为0.83和0.84,与性别、Nervousness中度相关,相关系数分别为0.78和0.67,而与Reliabilit、Character的相关系数均小于0.3,相关程度极弱,可忽略。有显著性的判断结果可知,睡眠质量与年龄、性别、Psychoticism、Nervousness的相关性较为显著。

1.2 基于FP-Growth挖掘症状与睡眠状况的关联规则模型

1.2.1 FP-Growth理论准备

FP-Growth是关联分析中一种经典的算法,由韩家炜[11]等人于2000年提出,采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树[12](FP-tree),但仍保留项集关联信息,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。FP-Growth算法的使用可有效降低学习算法的复杂度,加快学习速度,提高学习与分类精度。

在算法中使用了一种称为频繁模式树FP-tree(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。

基本思路:不断地迭代FP-tree的构造和投影过程。

1.2.2 数据筛选

首先,根据病理学知识,对附件中的128种疾病的发病原因、发生机制、发展规律以及疾病过程中机体的形态结构、功能代谢变化情况进行分析,最终将其归为四类:Anxiety,以符号A代表;Emotingal problem(E);Sleep disorder(S);Depreesion(D)。

接着,对数据进行预处理,包括清洗、集成、转换、离散和规约等工作。一个预处理良好的数据集不仅可以提高挖掘算法的效率和质量,还可以尽量减少因为数据不合理付出的代价。

1.数据清洗:

利用均值填空的方法处理缺省值,缺省值和现有数据具有一定的相关性。利用噪声平滑和删除孤立点的方法清洗噪声数据与脏数据。剔除无关项,如删除在Diagnosis项中标识为空白和?的数据等。

2.数据离散:

将多数据源和多文件的异构数据进行合并处理,达到数据统一存储的目的。例如:在128种疾病中,某些疾病仅包含一条数据,将此类数据分离整合为同一数据集。

3.数据规约:

某些患者诊断为多种疾病,将这些数据集同时归为各种疾病的包涵项中。如Sleep disorder,Depression,在处理Sleep disorder时包涵这一数据,在处理Depression时也包涵这一数据。

2 结论

设计的基于FP-growth关联挖掘模型,实现了诊断结果与睡眠状况关联规则的研究。创新的提出了基于频繁顺序表的FP-Tree算法结构,有效地提高了计算效率,并求解出关联规则中负相关和弱相关规则,准确的到了各参数与诊断结果的关联规律,确定其参数的优先性和置信度范围。虽然此改进型FP-Growth算法虽然能反映出项集的客观度量,但是对于非对称的项集,提升度也有一定的局限性。接着再将测试样本中数据导入模型,得出了附件中10个病例的诊断结果,但在挖掘系统中,考虑到数据的冗杂性,并没有对128种疾病进行分析,而是将其整合为4种类型,没有更加准确的分析这些患者所患的疾病。

猜你喜欢
应用数学病理学统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
猪流行性腹泻病毒流行株感染小型猪的组织病理学观察
浅析应用数学在经济学中的作用
初中数学应用题教学存在的问题及解决策略分析
以就业需求为导向的应用数学培养模式研究
冠状动脉慢性完全闭塞病变的病理学和影像学研究进展
WST在病理学教学中的实施