自变量连续型测定值及基于中位数的0～1转化值拟合logistic回归模型的效果比较*

2018-01-03 01:42何贤英黄嘉玲陈逸敏张晋昕

中国卫生统计 2017年6期

关键词：连续型中位数分类

何贤英赵志黄嘉玲陈逸敏张晋昕

中山大学公共卫生学院医学统计与流行病学系(510080)

自变量连续型测定值及基于中位数的0～1转化值拟合logistic回归模型的效果比较*

何贤英赵志黄嘉玲陈逸敏张晋昕△

中山大学公共卫生学院医学统计与流行病学系(510080)

目的探讨当logitπ与连续型自变量之间呈线性关系时，采用原始值法和中位数截断法拟合logistic回归模型的差异。方法以成组设计病例对照研究为背景产生模拟数据，应用R软件“SmeiPar”软件包对logitπ与连续型自变量间函数关系进行判断，进而采用原始值法和中位数截断法分别拟合logistic回归模型。结果原始值法较中位数截断法能够更好地拟合logistic回归模型。结论当logitπ与连续型自变量间呈线性关系时，建议采用原始值法。

原始值法中位数截断法 logistic回归半参数回归 AIC

在医学和流行病学研究中以连续型变量作为解释变量很常见，研究者常利用这些变量，采用多因素回归模型刻画其与结局间的关联，进而探索疾病的危险因素、估计预后、指导治疗等[1]。研究者从临床应用及统计分析的角度考虑，经常将连续型自变量转变为二分类变量进行分析[2]，然而，在模型构建时，研究者对于应用条件的把握上尚存在诸多误区。logistic回归模型对自变量类型一般不做规定，但要求连续型自变量与logitπ之间呈线性关系[3]。本次研究以logistic回归模型为例，探讨连续型自变量的处理方法，其他类型的多因素回归分析可类推。

研究方法

1.模拟数据的产生

利用R软件以成组设计病例对照研究为研究背景产生模拟数据，选取效应量作为关键指标，以控制自变量和结局变量之间发生假阳性关联的情形，其计算公式如下，

d=(M1-M2)/σpooled

(1)

(2)

上式中M1和M2分别代表实验组和对照组的均数，σ1和σ2分别代表两组的标准差，σpooled为两组合并计算的标准差。具体模拟条件设定如下：设定病例组和对照组的“年龄”(age)均服从正态分布，固定病例组和对照组标准差的取值相等，依次增加两组均数的差值，使效应量的大小从0.1依次增加到1.2，每组样本量为1000，从而产生模拟数据集A1～A12(logitπ随自变量的增加而线性地增加)。

2.连续型自变量与logitπ线性关系的判断

3.模型拟合效果的评价

模型拟合效果采用-2Loglikelihood和最小信息准则，即AIC准则(akaike information criterion)进行评价。AIC准则由日本统计学家Akaike于1973年提出。其基本思想是从两方面评价模型拟合效果的优劣：一方面是考虑模型拟合程度的似然函数值；另一方面是考虑模型中未知参数的个数。一个好的拟合模型应该是较优拟合精度和较少未知参数个数的综合最优配置，不同模型拟合效果比较使AIC函数达到最小的模型被认为是最优模型。

模拟研究结果

1.模拟数据集A产生的条件及基本信息汇总

由表1可见，模拟数据集A采用半参数回归模型拟合后，均有自由度df=2，说明logitπ与自变量间呈线性关系。

表1 模拟数据集A基本信息汇总表

*：代表病例组和对照组合并后所得数据集的中位数。

2.模拟数据集A中logitπ与自变量间的函数关系图

logitπ与自变量间函数关系图(图1)显示，在各模拟数据集中二者均呈线性变化关系。

3.采用原始值法、中位数截断法拟合logistic回归模型

两种方法拟合logistic回归模型的信息及有关评价指标如表2、图2所示：

由表2及图2可见当logitπ与自变量间呈单调变化关系时，若采用中位数法对连续型自变量截断成二分类后拟合logistic回归模型会损失信息量，主要表现为中位数法较原始取值法拟合logistic回归模型会导致-2Loglikelihood和AIC增加、参数估计值的假设检验统计量χ2值减小(P值增大)、并且这种变化随着病例组和对照组均数差别的增大更为明显。当效应值较小时(效应值在0.1～0.3)，随着效应值的增加，两种方法所得检验功效逐渐增大，并且两者的差距越来越小，效应值较大时两种方法所得检验功效均为1。

4.实例分析

实例数据来自一项有关高血压患者发病影响因素的现况研究。选取是否患有高血压作为因变量，年龄作为自变量，通过实例数据比较2种方法对原始数据进行预处理后拟合logistic回归模型的效果。实例数据分析中logitπ与自变量间的函数关系图3所示，两种方法拟合logistic回归模型的信息如表3所示。由表3及图3可见当logitπ与自变量间为单调变化关系时，若采用中位数法对连续型自变量二分类后拟合logistic回归模型会损失信息量，主要表现为中位数法较原始取值法拟合logistic回归模型会导致AIC增加、χ2值减小。

图1 模拟数据集中logitπ与自变量间的函数关系图

模拟研究名称数据预处理方法统计量(χ2)POR的95%CIAIC-2LoglikelihoodA1原始值法112.8803.320e-041.017(1.007,1.026)2763.62759.586中位数法24.2293.974e-021.202(1.009,1.433)2772.42768.355A2原始值法133.4997.132e-091.027(1.018,1.036)2742.22738.241中位数法216.1565.833e-051.435(1.203,1.711)2760.42756.367A3原始值法162.4572.723e-151.038(1.028,1.047)2711.12707.092中位数法236.7621.335e-091.729(1.448,2.063)2739.52735.482A4原始值法198.1903.802e-231.049(1.039,1.058)2670.62666.595中位数法259.9329.819e-152.020(1.691,2.414)2715.72711.727A5原始值法1138.9164.596e-321.059(1.049,1.070)2621.32617.319中位数法285.2542.624e-202.326(1.945,2.783)2689.42685.426A6原始值法1182.8031.184e-411.070(1.060,1.081)2563.92559.919中位数法2120.4115.142e-282.754(2.298,3.301)2652.32648.288A7原始值法1228.0961.551e-511.082(1.071,1.093)2499.12495.117中位数法2165.4787.192e-383.330(2.772,4.000)2603.62599.551A8原始值法1273.2102.222e-611.093(1.081,1.105)2427.72423.680中位数法2207.0386.083e-473.905(3.244,4.702)2557.42553.386A9原始值法1316.7767.120e-711.104(1.092,1.117)2350.42346.409中位数法2282.0622.668e-635.096(4.214,6.612)2470.72466.717A10原始值法1357.6699.057e-801.116(1.103,1.129)2268.12264.117中位数法2324.3471.637e-725.879(4.848,7.129)2419.72415.731A11原始值法1395.0096.685e-881.128(1.114,1.141)2181.62177.623中位数法2365.6591.649e-816.745(5.546,8.203)2368.22364.218A12原始值法1428.1513.976e-951.140(1.126,1.154)2091.72087.735中位数法2427.2696.383e-958.271(6.770,10.106)2287.82283.818

图2 模拟数据集A两种方法拟合logistic回归模型效果比较

图3 实例数据logitπ与自变量间的函数关系图

讨论

logistic回归模型对自变量类型一般不做要求，但规定logitπ与连续型自变量之间需满足线性关系。严格来说，在应用logistic回归之前必须先检验logitπ与连续型自变量之间是否符合线性关系，因为如果两者之间的关系是非线性的，参数估计将会发生偏差，从而导致结果不准确以及结论不可靠。周春莲等[5]对1996-2002年发表在《中华流行病学杂志》上应用logistic回归分析的111篇文章进行系统回顾分析，发现在111篇文章中没有一篇提及两者之间的线性关系问题，说明在实际应用中这是一个很容易被忽视的问题。

表3 实例数据拟合logistic回归模型信息汇总表

本研究利用半参数回归模型对logitπ和连续型自变量之间的函数关系进行判断。半参数回归模型是参数回归模型和非参数回归模型的一种概括，其中的参数分量部分是对确定性影响因素进行分析，而非参数分量部分则是对随机干扰因素的刻画[6]。半参数回归模型是参数线性模型和非参数回归模型的混合模型，其较参数线性模型有较强的适应性[7]。在医学研究中研究者经常从临床应用的角度考虑，将连续型的自变量转变为二分类变量后拟合回归模型[2]，目前常用的分类方法为中位数法[8]。当logitπ和连续型自变量之间满足线性关系，若采用中位数截断法进行分类后拟合logistic回归模型会导致信息量的损失。因此，当logitπ和连续型自变量之间满足线性关系时，建议采用连续型自变量拟合logistic回归模型，而非进行二分类预处理后拟合logistic回归模型。对于连续型自变量和logitπ为非单调变化关系的数据类型，本文研究者也进行了相关研究，建议借助OR值最大化的原则，对连续型自变量进行分类后拟合logistic回归模型[3]。

[1] Sauerbrei W,Royston P.Continuous Variables:To Categorize or to Model? In:Reading,C.(Ed.):The 8th International Conference on Teaching Statistics-Data and Context in statistics education:Towards an evidence based society.International statistical Institute,Voorburg,2010.

[2] Brent Williams MS,Jayawant N.Mandrekar PD,Sumithra J.Mandrekar PD,et al.Finding Optimal Cutpoints for Continuous Covariateswith Binary and Time-to-Event Outcomes.Technical Report Series #79,2006.

[3] 何贤英,赵志,温兴煊,等.logistic回归中连续型自变量离散化为二分类变量时适宜分界点的确定.中国卫生统计,2015(02):275-277.

[4] Handan W,Ramjee G.Analyzing Continuous Measures in HIV Prevention Research Using Semiparametric Regression and Parametric Regression Models:How to Use Data to Get the(Right)Answer?.AIDS and Behavior,2012,16(6):1448-1453.

[5] 冯国双,陈景武,周春莲.logistic回归应用中容易忽视的几个问题.中华流行病学杂志,2004(06):92-93.

[6] Rosenberg PS,Katki H,Swanson CA,et al.Quantifying epidemologic risk factors using non-parametric regression:model selection remains the greatest challenge.Statistics in Medicine,2003,22(21):3369-3381.

[7] 王成勇.半参数回归模型研究综述.数理统计与管理,2009,28(5):845-857.

[8] MacCallum RC,Zhang S,Preacher KJ.On the practice of dichotomization of quantitative variables.Psychological Methods,2002,7(1):19-40.

ComparingtheEffectsofContinuousVariablesMethodandMedianSplitMethodFittingLogisticRegressionModel

He Xianying,Zhao Zhi,Huang Jialing,et al

(SchoolofPublicHealth,SunYat-senUniversity(510080)，Guangzhou)

ObjectiveTo explore the difference between continuous variables method and median split method in fitting logistic regression model,when independent variables and logitπmeet linear relationship.MethodsThe simulation data were generated on the basis of two group divisible design case-control study.Justify the monotonerelationship between covariate and logitπby the “SmeiPar” software package of R software.Using continuous variables and median split method to discretize raw data,and then fit the logistic regression models.ResultsCompared with the median split method,the continuous variables method did better in goodness-of-fit test.ConclusionIt is recommended to use two cut-off points maximum OR values method to discrete continuous variables if the relationship between these variables and logitπis monotonic.

Continuous variables method;Median split method;Logistic regression;Semi-parametric regression;AIC

广东省科技计划项目(2014A020212713);中山大学教学改革研究重点项目(中大教务〔2017〕79-12-25)

△通信作者：张晋昕，E-mail:zhjinx@mail.sysu.edu.cn

郭海强)

自变量连续型测定值及基于中位数的0～1转化值拟合logistic回归模型的效果比较*

研究方法

模拟研究结果

讨 论

讨论