区间删失数据下比例风险模型的概率填补方法

2023-02-27 10:35苟洪山
智能计算机与应用 2023年2期
关键词:样本量参数估计端点

朱 婷, 苟洪山, 李 荣

(贵州民族大学 数据科学与信息工程学院, 贵阳 550025)

0 引 言

生存分析是研究生存现象和响应时间数据及其统计规律的。在实际研究中,由于各种各样的条件限制,无法观测出准确的数据,只知道这个数据大于、小于某个值或在两个值之间,这样的不完全数据在生存分析中被称为删失数据。常见的删失类型有区间删失、右删失和左删失,其中区间删失是一种常见的删失类型。

Cox[1]提出了cox比例风险模型,对于右删失数据而言cox比例风险模型能直接适用,是生存分析中最重要的模型之一,cox比例风险模型有参数部分即参数所在的指数函数,还有非参数部分即基底风险函数。cox比例风险模型对右删失数据进行分析时,可将非参数部分抵消掉,从而借助偏似然函数进行参数估计,但分析区间删失数据时无法抵消非参数部分,增加了估计回归参数的难度;Finkelstein[2]首次在区间删失数据下对cox比例风险模型的基底风险函数和回归参数运用牛顿-拉夫森算法(Newton-Raphson算法)进行估计;Goggins等[3]采用期望最大化算法(EM算法)对区间删失数据下cox比例风险模型中的参数进行估计;Betendky等[4]采用局部似然的方法对区间删失数据下cox比例风险模型进行拟合;这些都是最大似然法的思想。另一种思想是填补的思想,就是将区间删失数据填补后转换为右删失数据再进行参数估计,填补分为单点填补和多重填补,Pan[5]将多重填补法运用于区间删失数据下cox比例风险模型的参数估计中,多重填补法需要将cox比例风险模型的非参数部分估计出来,这也失去了cox比例风险模型不依赖非参数部分的优势;Sun[6]将单点填补法运用于区间删失数据下cox比例风险模型的参数估计中;Sun等[7]提出将左端点填补法运用于区间删失数据下cox比例风险模型的参数估计中,并证明了可行性。

只用删失区间的一侧端点填补会丧失部分信息,导致估计结果出现较大偏差,安玉洁[8]提出了混合填补方法,在一定条件下左端点、右端点和中点都会成为部分删失区间的填补值,效果更稳定。本文运用聚类中心的思想,在混合填补法的基础上,提出一种概率填补方法,即利用删失区间的信息也利用未删失数据信息,通过迭代的方式减少填补偏差,不依赖cox比例风险模型中非参数部分的估计。

1 模 型

n个观察对象,对于第i个观察对象,Ti表示生存时间,设存在一个用Xi,i=1,2,…,n,表示的协变量向量,假设Ti满足cox比例风险模型:

λ(t|Xi)=λ0(t)exp(Xiβ′)

(1)

其中,λ0是未知的基底风险函数,β′是回归参数向量。

因为区间删失,不能直接观测到Ti,仅仅知道在一个删失区间(Li,Ri)内,右删失时是Ri=∞,左删失时是Li=-∞,左删失和右删失都可以视为区间删失的一种特殊类型。通常假设Ti独立于删失机制,为了区别左、右删失,将有限(Li,Ri)的观测称为有限区间删失。

基于n个观测值(L1,R1,X1),…,(Ln,Rn,Xn),本文的最终目的是估计回归参数β。

2 概率填补法

有限区间删失可以将删失区间中的真实生存时间视为缺失,如果用确切的时间点替换每个有限的删失区间,如用左端点替换、右端点替换和中点替换,就可以使用常规方法来分析填补数据。混合插值考虑部分删失区间用左端点填补、右端点填补和中点填补,用这种混合填补的方式减少信息的损失,使最终的参数估计结果更加理想,但是混合填补法填补的值虽然使用了删失区间所含的信息,但是未挖掘其深层次信息。为了挖掘删失区间中更深层次的信息,本文提出了概率填补方法,利用了删失区间的深度信息和未删失数据所含信息。

深度信息是指使用改进的K-means算法提取混合填补法填补的时间和真实时间的聚类信息。 概率填补方法是从深度信息中依概率选取删失区间的代表元作为迭代算法前进方向,并且通过迭代的方式优化填补时间,从而使得参数估计结果更好。具体步骤如下:

(1)采用混合填补法将区间删失数据转换为右删失数据;

(2)对右删失数据集中非右删失的数据提取多个代表元,并判断每个删失区间有几个代表元;

(3)产生可能的右删失数据{T(i+1)j,δj,Xj}。对于有限删失区间(Lj,Rj),判断每个有限删失区间(Lj,Rj)中的代表元,若删失区间中只有一个代表元V1或者删失区间中没有代表元,则删失区间前一次填补的值不变,即T(i+1)j=Tij,δj=1;若删失区间不止一个代表元,则先从一个均匀分布中随机取出一个值α,选择最大代表概率的代表元V2即聚类数目最多的聚类中心,将判断点V2+α和判断点V2-α与前一次填补值作比较,若删失区间前一次填补的值Tij>V2+α,则再从一个均匀分布中随机取出一个值ε,使得T(i+1)j=Ti-ε,δj=1,删失区间前一次填补值Tij

在步骤(1)中,当协变量Xi取有限多个值时,要先对区间删失数据分类。为了方便一个协变量取值为0和1。首先按协变量取值对区间删失数据分两类,分别求区间右端点均值u,标准差sd,设判断点A1=u-sd和A2=u+sd。当协变量Xi是连续性变量时,则直接计算所有删失区间的均值和标准差,以求得判断点A1和A2。若对应的删失区间落在判断点A1的左边,则用右端点代替真实的时间;若落在判断点A2的右边,则用区间的左端点来代替;若删失区间与判断点区间(A1,A2)有交点,则取删失区间的中点作真实时间。

概率填补法在混合填补的基础上进行填补,混合填补依赖于删失区间得到的判断点,当删失区间很大或者数量较少时,得到的信息就不够代表整个数据集的信息,得到的判断点也不够有效。而概率填补法解决了这两个问题,提取代表元的方法是对数据集中非右删失的数据考虑了数据集中不同类型的数据,得到的结果更能反映数据集的信息;在模拟中,设每个类中的组内方差小于0.1,选出K个聚类中心,K由组内方差决定,聚类中心就是代表元。

概率填补法没有固定判断点和填补值,允许这两个值在一个有效范围内波动,判断点和填补值的有效范围通常围绕非右删失数据的标准差和删失区间的长度取值,希望使填补值有更多的可能性去在删失区间内接近真实值,以求最后的估计结果更加准确。如:在模拟中根据数据集中的时间点,从均匀分布U(0.05,0.15)中随机取出一个值α,得到判断点V2+α和V2-α判断如何填补,再从均匀分布U(0,0.05)中随机取出一个值ε以调整填补值的大小,以这种方式为单点填补方法增加可变性,得到填补数据集,用填补后的右删失数据集{T(i+1)j,δj,Xj}去拟合cox模型,得到参数估计。

3 模拟研究

通过比较概率填补法和混合填补法、左端点填补法、右端点填补法、中点填补法这5种填补方法的填补性能,证明了概率填补方法能有效提升参数估计的效果。

为了验证概率填补方法在不同情况下所填补的数据在cox模型中都能估计出较好的参数值,分别在含有一定比例准确生存时间的数据集和不含准确生存时间的数据集中设置不同的样本量和删失率进行实验。在模拟数据集中的回归参数真值β=1,生存分布为威布尔分布,其中形状参数α=2,尺度参数λ=1。

数据集a(含有一定比例准确生存时间的数据集)有准确生存数据、右删失数据和区间删失数据,通过在准确的生存时间中制造右删失,右删失比例N%可通过调整删失变量F~U(0,c)中c的大小得到,c由模拟迭代计算得出,生成需要的删失时间点Fj。设生存时间Tj和Fj相互独立,若Tj

数据集b(不含准确生存时间的数据集)中只有右删失数据和区间删失数据。首先,在完整数据集中制造N%的右删失数据,然后剩余1-N%数据制造为区间删失数据(区间删失数据生成过程和数据集a相同)。

所有的估计结果均由200次独立模拟获得,每一次模拟都计算5种填补方法在同一数据集中的估计结果,5种填补方法分别为本文所提概率填补方法(PIA),混合填补法(MIA),左端点填补法(LEPIA),右端点填补法(REPIA)和中点填补法(MPIA);其次,在偏差(Bias)、平均绝对误差(MAE)、均方根误差(RMSE)、标准离差(SSE)这4类定量误差结果下比较REPIA与MPIA、LEPIA、MPIA和REPIA在不同样本量和不同删失率下填补后的参数估计效果,Bias是参数估计值的平均值和参数真值的差值。

平均绝对误差(MAE),公式(2):

(2)

均方根误差(RMSE),公式(3):

(3)

标准离差(SSE),公式(4):

(4)

在数据集a中固定右删失率为20%时,不同样本量、不同区间删失率下5种填补方法的4类误差结果见表1和表2。由表1和表2的实验结果可知,在数据集a中不同删失率下时, 概率填补法填补的数据的参数估计误差相比于混合填补法、左端点填补法、右端点填补法和中点填补法所填补的数据的参数估计误差有所减小,而且在样本量200,不同删失率下,概率填补法的标准离差总是小于其他方法的标准离差,说明随着样本量增加概率填补法比其他填补方法效果更好、更稳定。

表1 数据集a中样本量200时5种填补方法的4类误差结果

表2 数据集a中样本量100时5种填补方法的4类误差结果

在数据集b中右删失率为70%和50%,区间删失率为30%和50%时,不同样本量下5种填补方法的4类误差结果见表3和表4。对比表3、表4的结果可知,数据集b中相同条件时概率填补法始终比混合填补法效果更好,与左端点填补、中点填补和右端点填补总体上性能相近。

表3 数据集b中样本量200时5种填补方法的4类误差结果

表4 数据集b中样本量100时5种填补方法的4类误差结果

模拟实验结果可以说明,概率填补法的填补效果比混合填补法效果更好,并且与左端点填补、中点填补和右端点填补相比,概率填补法的填补性能总体上较好。

4 实例分析

应用概率填补方法,在Sun(2006)的数据集Ⅱ上填补区间删失数据,此数据集中的数据是对来自5个研究中心的368名患者进行HIV-1的感染观察,研究目的是比较未接受因子Ⅷ浓缩物的患者和接受低剂量因子Ⅷ浓缩物的患者之间HIV-1的感染风险。在这项研究中,患者的HIV-1感染时间只有区间删失数据,不含准确生存时间,未接受因子Ⅷ浓缩物的患者人数为236人,接受低剂量因子Ⅷ浓缩物的患者人数为132人。对于无剂量组的患者,定义协变量为0,否则为1,并假设HIV-1感染时间服从cox比例风险模型。为了进行比较还对数据采用了最大似然法(MLE)进行估计还有左端点填补法、混合填补法进行填补后估计,其结果见表5。

表5 实例数据集中4种方法的估计结果

表5中的结果表明:在不同的方法下,其β的估计值都比较接近,且标准误差相比左端点填补法和混合填补法的标准误差是较低的,说明概率填补方法在实际的区间删失数据上填补的数据是有效的。

5 结束语

本文讨论了区间删失数据下比例风险模型的参数估计,许多学者为此提出了不同的方法,其中大多数都涉及未知基底函数的估计。单点填补法将区间删失数据问题转换为右删失数据的问题,避开了未知基底函数的估计,但是一般情况下,当风险函数在很大范围内变化或者删失区间很宽时,使用单点填补法估计会出现偏差较大或者不稳定的情况。例如上述的左、右端点填补和中点填补。而概率填补法主要优点是只涉及回归参数的估计,且估计总体上较为稳定。在样本量较大,含有一定比例准确时间的区间删失数据集下,概率填补法提取的信息更加准确,所以参数估计有更好的效果。模拟和实证分析表明,这种方法是可行和有效的。

猜你喜欢
样本量参数估计端点
非特征端点条件下PM函数的迭代根
基于新型DFrFT的LFM信号参数估计算法
医学研究中样本量的选择
不等式求解过程中端点的确定
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
参数型Marcinkiewicz积分算子及其交换子的加权端点估计
Logistic回归模型的几乎无偏两参数估计
基于向前方程的平稳分布参数估计
基于竞争失效数据的Lindley分布参数估计