二分类资料的五种一致性评价指标应用效果比较*

2016-10-26 05:21中山大学公共卫生学院医学统计与流行病学系510080

中国卫生统计 2016年4期

关键词：评价者一致性系数

中山大学公共卫生学院医学统计与流行病学系(510080)

公为洁　赵　志　顾豪高　张晋昕△

二分类资料的五种一致性评价指标应用效果比较*

中山大学公共卫生学院医学统计与流行病学系(510080)

公为洁赵志顾豪高张晋昕△

【提要】目的探讨5种不同的一致性评价指标用于估计二分类结局一致性的应用效果。方法用Monte Carlo法模拟得到不同样本含量和不同阳性率的二分类数据，分别估计各指标、标准误及估计值与真实值的相对偏差，从列联表的均衡性角度评价各系数的适用性。实例数据则使用Bootstrap估计加以验证。结果当列联表趋于均衡时，5种系数的标准误和相对偏差均较小；列联表趋于不均衡，Kappa、Scottπ和Krippendorffα这3种系数的标准误和相对偏差越大；对于各种情形下的列联表，AC1和G指数的标准误和相对偏差变化均较小。结论列联表的均衡状态对Kappa、Scottπ和Krippendorffα这3种系数的稳定性影响较大。当列联表趋于不均衡时，推荐使用AC1和G指数评价二分类结局的一致性。

一致性评价诊断试验Kappa系数二分类结局

同一方法由不同或同一评价者重复评估同一组样本，所得结果往往不尽相同。因此，有必要对评价结果的一致性程度进行探讨。采用合理的指标客观评价诊断结果很重要[1]。二分类结局作为一种常见的结局类型，对其评价最普遍的方法是Kappa系数。然而，Kappa在实际应用中存在多种悖论[2]，有学者指出应谨慎甚至停止使用[3-4]。以两评价者D和F评估结果的四格表为例，可将结果整理为表1。即使a和d数值不变，当b和c的差值增大(即列联表趋于不对称)时，Kappa取值随之增大，影响对一致性的判断[5]。除Kappa之外，还有多种一致性评价指标，如Scottπ、Krippendorffα等。本文将通过Monte Carlo方法，模拟两评价者间不同发生概率的二分类结局数据，分别估计包括Kappa在内的5种一致性系数、标准误及估计值与真实值的相对偏差，归纳不同情况下各指标的适用性。

表1　两评价者二分类结局的四格表

对象与方法

1.一致性评价指标

本文比较的二分类结局一致性的五种评价指标分别为：Cohen提出的Kappa系数[6]、Scott提出的π系数[7]、Holley等提出的G指数[8]、Krippendorff提出的α系数[9]、Gwet提出的一阶一致性系数(the first-order agreement coefficient,AC1)[10]。这些指标均校正了机遇因素影响，进而衡量两评价者对二分类或无序多分类结局间的一致性程度。其基本定义均为：设γs为其中某一致性系数，则

(1)

表2　二分类结局一致性系数对Po和Pe的不同定义

2.Monte Carlo模拟

3.指标评价

列联表的均衡，定义为分类结局中不同类别所占的构成比例相等[13]。在模拟数据集中，当实际结局阳性率Pr越接近0.500，模拟产生的阳性结果和阴性结果的构成比越接近，则四格表趋于均衡。反之，当Pr越接近1，模拟产生的两类结果构成比相差越大，则四格表越趋于不均衡。

模拟产生多种情况，每种情况均有500组模拟的结果。每种情况下500组数据所得各一致性系数的标准误越小，说明该指标越稳健。各指标的样本估计值与真实值间的相对偏差可用于评价指标的准确性。根据Gwet的假设及推导[12]，设评价者D和F分别有θD和θF的概率会作出随机性判断，且正确率均为50%，则真实的一致率γ为

(2)

(3)

4.实例数据

资料取自1977年由Landis发表的详细数据，为多个评价者间有序分类结局的经典数据[14]。七个病理学家被要求单独诊断，将118张宫颈癌病理切片鉴别为为阴性、非典型鳞状上皮增生、原位癌变、鳞状细胞癌早期间质浸润、侵袭性癌的五种病理类型[15]。根据诊断后随访方式的不同，可将诊断结果划分为二分类结局(I类，包括：阴性、非典型鳞状上皮增生、原位癌变；II类，包括：鳞状细胞癌早期间质浸润、侵袭性癌)[14]。本文选择D和F两位病理学家的二分类结局，整理为表1，结果为a=19，b=13，c=6，d=80，可知四格表中II类结局的例数远大于I类的例数，属于不均衡的列联表。用Bootstrap法以118为样本量对原始数据进行500次再抽样，比较五种指标的标准误大小。

晚上闷热，夜空星月全无，远处传来雷声，是天空云团在碰撞时奏出的交响，他坐着聆听，后面的乐章是婉约？还是激越？是低回？还是电闪电鸣？但所有的音符终将交融成雨水，滋养大地，注入河川。沉浸之中，突然一声巨大的炸雷震得他一惊而起，他不安地望窗外，脑子里跳出尾砂库上的雨景。

本文中的所有模拟及计算均在R i386 3.1.3环境下进行。五种系数的计算参考agree.coeff2.r程序[10]。

结　　果

1.Monte Carlo模拟结果

图1分别为当n取20、60、100时，随着实际结局阳性率Pr的变化，五种一致性系数的标准误及各系数与真实值相对偏差的变化趋势。由图1可见：1)当n为20时，图1(a)和图1(d)中曲线波动幅度较大，标准误和相对偏差取值在0.100附近，说明样本含量n较小时，各系数取值尚不稳定。随n的增大，曲线波动幅度减小，各系数的标准误和相对偏差也逐渐减小；至n=100时，曲线起始平稳段的取值均在0.050左右。2)如图1(a)、1(b)和1(d)、1(e)所示，当n取20、60时，曲线截止于Pr取值为0.755及0.950，而如图1(c)和1(e)所示，当n取100时，曲线截止于Pr取值为0.995。3)随Pr从0.500逐渐增大，五种一致性系数的标准误和相对偏差均有变化。如图1(b)和1(c)所示，在n取60、100时，Pr取值为0.500～0.710时，列联表相对均衡，五种系数的标准误均较小，相差不超过0.05，且曲线变化平缓。当Pr>0.710时，随Pr的增大，列联表逐渐趋于不均衡，G和AC1系数的标准误逐渐减小，标准误均低于0.05，曲线呈平缓下降的趋势，其中G的曲线变化更为平缓；而Kappa、π和α系数的标准误逐渐增大，且趋势一致，三条曲线基本重合。Pr越大，列联表越不均衡，3条曲线增长幅度越大，当Pr逐渐增至0.995，标准误高达0.20以上。如图1(e)和1(f)所示，当Pr取值在0.500～0.800时，各系数与真实值的相对偏差均在10%以内，当Pr>0.800时，Kappa、π和α系数的相对偏差超过10%，且曲线增长幅度较大，当Pr逐渐增至0.995，相对偏差高达70%以上；而G和AC1系数的相对偏差仍较低，保持在10%以下。相对偏差的曲线变化规律与标准误相似，不再赘述。

2.实例数据Bootstrap再抽样结果

如表3所示，对实例数据进行500次Bootstrap再抽样后，五种系数的均数从大到小排序依次为：AC1>G>Kappa=π=α；标准误排序为：π=α>Kappa>G>AC1；极差排序为：Kappa=π=α>G>AC1。

系数均数标准误最小值最大值极差Kappa0.560.0890.320.860.55π0.560.0900.310.860.55G0.680.0690.490.920.42α0.560.0900.320.860.55AC10.750.0610.540.940.39

讨论与建议

Kappa是被广泛应用的分类结局一致性评价指标，存在多种悖论，不能正确反映实际情况[3-4]。目前已有许多研究提出针对不同情况下计算Kappa的多种校正方法。本研究立足于已有的机遇一致性评价指标，探索不同系数在不同条件下的适用性，寻找Kappa的适用情况及合理替代指标。

越不均衡的列联表所需样本含量越大[16]，可以解释在样本含量较小时，无法计算各一致性系数。当列联表趋于较均衡状态时，五种系数的标准误和真实相对偏差均较小。而当其逐渐趋于不均衡时，Kappa、π和α系数的两个统计量(标准误和真实相对偏差)均逐渐增大。根据相对偏差的取值变化，当Pr>0.800时，与其他3种系数相比，G和AC1系数是距离真实一致率更接近、更符合实际情况的Kappa系数替代指标。由实例数据再抽样结果可知，对于不均衡的列联表，相比之下，G和AC1系数的再抽样标准误估更小，说明其取值更为稳健，与Monte Carlo模拟结果相符。另有研究用Kappa系数和AC1分别评价多位医生诊断人格障碍不同指标的分类结局一致性，得到AC1的标准误均小于Kappa，是更为稳健的指标，与本文结论相符[17]。

本文从二分类结局是否均衡的角度比较了一致性系数的应用效果，有待继续探讨无序和有序的多分类资料及多个评价者的判断结果间一致性系数的应用效果。

[1]闫岩,华琳,张建.对诊断一致性kappa系数及评价指标的探讨.中国卫生统计,2007,24(3):313-315.

[2]Cicchetti DV,Feinstein AR.High agreement but low kappa II.Resolving the paradoxes.J Clin Epidemiol,1990,43:551-558.

[3]Zhao X.When to use Cohen′s κ,if ever? The annual meeting of the International Communication Association.Boston,MA,US,2010.[4]Robert GP,Millones M.Death to Kappa:birth of quantity disagreement and allocation disagreement for accuracy assessment.International Journal of Remote Sensing,2011,32(15):4407-4429.

[5]公为洁,温兴煊,何贤英,等.一阶一致性系数AC1对二分类结局一致性的测评.中国卫生统计,2015,32(5):774-776.

[6]Cohen J.A coefficient of agreement for nominal scales.Educational and Psychological Measurement,1960,20(1):37-46.

[7]Scott WA.Reliability of content analysis:The case of nominal scale coding.Public opinion quarterly,1955,19:321-325.

[8]Holley JW,Guilford JP.A note on the G index of agreement.Educational and Psychological Measurement,1964,24(4):749-753.

[9]Krippendorff K.Bivariate Agreement Coefficients for Reliability of Data.Sociological Methodology,1970:139-150.

[10]Gwet KL.Handbook of inter-rater reliability.Gaithersburg,MD:STATAXIS Publishing Company,2001.

[11]Gwet KL.Handbook of inter-rater reliability:The definitive guide to measuring the extent of agreement among raters.Advanced Analytics,LLC,2014.

[12]Gwet KL.Computing inter-rater reliability and its variance in the presence of high agreement.British Journal of Mathematical and Statistical Psychology,2008,61(1):29-48.

[13]Hertzberg VS,Xu F,Haber M.Restricted Quasi-Independent Model Resolves Paradoxical Behaviors of Cohen′s Kappa.Journal of Modern Applied Statistical Methods,2005,5(2):16.

[14]Landis JR,Koch GG.An application of hierarchical kappa-type statistics in the assessment of majority agreement among multiple observers.Biometrics,1977:363-374.

[15]Holmquist N,McMahan C,Williams O.Variability in classification of carcinoma in situ of the uterine cervix.Archives of Pathology,1967,84(4):334-345.

[16]Sim J,Wright CC.The kappa statistic in reliability studies:use,interpretation,and sample size requirements.Physical therapy,2005,85(3):257-268.

[17]Wongpakaran N,Wongpakaran T,Wedding D,et al.A comparison of Cohen′s Kappa and Gwet′s AC1 when calculating inter-rater reliability coefficients:a study conducted with personality disorder samples.BMC Medical Research Methodology,2013,13(1):61-68.

(责任编辑：郭海强)

广东省公益研究与能力建设专项基金(2014A020212713)

张晋昕，E-mail:zhjinx@mail.sysu.edu.cn

二分类资料的五种一致性评价指标应用效果比较*

对象与方法

结 果

讨论与建议

结　　果