基于短期结局预测概率剂量筛选的Ⅱ／Ⅲ期无缝设计研究*

2015-03-09 11:13南京医科大学流行病与卫生统计教研室211166刘丽亚柏建岭

中国卫生统计 2015年2期

南京医科大学流行病与卫生统计教研室（211166）刘丽亚于浩柏建岭刘晋陈峰

南京医科大学流行病与卫生统计教研室（211166）刘丽亚于浩柏建岭刘晋陈峰△

目的介绍一种新的Ⅱ／Ⅲ期无缝设计期中分析策略，应用短期结局预测概率进行剂量筛选，并对其相应统计学性质进行评价。方法以二分类数据为例，通过Monte Carlo模拟方法探讨短期结局有效剂量组同对照组率差变化、长短期结局间不同相关关系及给定不同先验信息对Ⅱ／Ⅲ期无缝设计I类错误、检验效能的影响。结果期中应用短期结局剂量筛选的II／III期无缝设计可以控制总的I类错误在检验水准以内，但是当相关关系很弱时结果偏保守。其检验效能一般低于长期结局剂量筛选结果，即期望检验效能，但是当短期结局有效剂量组同对照组率差增加，两指标相关关系较强或者短期结局有较强的先验信息时，应用短期结局剂量筛选可以大大提高检验效能。结论在Ⅱ／Ⅲ期无缝设计临床试验研究中，长期结局在短时间内无法获得，此时期中分析可以选用临床公认的、有文献支持的短期结局指导期中分析决策。

Bayes理论 Ⅱ／Ⅲ期无缝设计短期结局预测概率

传统的新药II期和III期临床试验是独立设计、独立实施、独立分析的。II期结束后不能马上启动III期临床试验，导致药物上市时间推迟。为弥补传统临床试验设计的不足，Ⅱ／Ⅲ期无缝设计（adaptive seamless phase Ⅱ／Ⅲ design，ASD）将Ⅱ期和Ⅲ期临床试验统一设计并实施，期间没有间隙，缩短了研发周期，充分利用资料信息，同时提高了检验效能。合并Ⅱ期、Ⅲ期临床试验的思想首次由Thall等于1988年提出［1］，后经Bauer等［2］推广，并有研究结果表明［3－4］采用合适的统计分析方法可以控制无缝设计Ⅰ类错误膨胀问题。无缝设计期中分析无法避免长期结局短时间内无法获得，那么以此作为期中分析剂量筛选指标势必导致整个研发周期过长［5］。本设计的特色之处在于考虑应用短期结局代替长期结局指导期中分析决策，从而达到缩短研发周期节约研发成本的目的。本文还将贝叶斯（Bayes）思想应用于替代指标剂量选择的Ⅱ／Ⅲ期无缝设计中，以提高试验的把握度。临床试验应用贝叶斯思想最早可追溯于二十世纪六十年代［6］，Berry等于2001年应用贝叶斯思想决策Ⅱ期临床试验是否进入Ⅲ期临床试验研究［7］。本文应用混合贝叶斯／频率方法，已有研究表明该法可以控制无缝设计Ⅰ类错误膨胀［8］。

方法介绍

1.Ⅱ／Ⅲ期无缝设计方法介绍

假设无缝设计探索阶段（stageⅠ）有i个剂量组，对应i个无效假设Hi：θi＝θ0，θi表示试验组疗效，θ0表示对照组疗效。期中分析i个剂量组分别与对照组进行比较，规定最优剂量组i’同对照组进入确证阶段（stageⅡ）。

探索阶段期中分析涉及多剂量组多重比较，为控制总的I类错误膨胀一般采用封闭原则［9］。封闭原则指的是将全局原假设划分H1＝∩i∈IHi个交集假设，拒绝Hi则需拒绝Hi所有交集假设，如三个剂量组分别同对照组比较，对应三个无效假设H1、H2、H3，要拒绝H2假设则需拒绝H12、H23、H123交集假设及H2假设。

验证阶段结束后进行最终分析，分别估计两阶段（探索阶段、验证阶段）不同原假设下的统计量pi，j（j＝1、2，表示j阶段第i个原假设对应的p统计量）。为控制多阶段假设检验Ⅰ类错误膨胀将两阶段统计量合并，常见合并方法有两种：Fisher’s合并［10］和加权逆正态合并［11］。本文采用Fisher’s原则，首先根据公式C（pi，1，pi，2）＝pi，1×pi，2计算合并统计量，再根据试验前设定的检验水准α＝0．05，估计校正后的检验水准0087则拒绝Hi。

综上所述，无缝设计为避免多重检验I类错误膨胀，将封闭原则及合并统计量方法进行了合并。根据封闭原则，拒绝Hi要拒绝Hi所有交集假设，即在确证阶段估计的Hi所有交集假设的合并统计量都要小于或等于检验水准。值得注意的是，在应用合并方法控制Ⅰ类错误膨胀时，要求不同阶段p统计量满足pclud［12］原则，即在Hi假设成立前提下，pi，1及给定pi，1条件下pi，2均服从均匀分布，并且相互独立。无缝设计应用短期结局代替长期结局指导期中分析决策，而最终分析仍基于长期结局，此时两阶段统计量不满足p-clud原则，因此无法直接估计合并统计量。针这一问题，本文采用Jenkins等［13］和Friede等［14］于2011年提出的一种新的合并两阶段统计量的方法。如图1，探索阶段入组N1名受试者，短时期内无法估计基于长期结局的pi，1统计量，要求期中分析后继续对一阶段受试者进行长期随访。确证阶段，纳入N2名新的受试者基于长期结局估计pi，2统计量。在Hi假设成立前提下pi，1～uniform（0，1），确证阶段与探索阶段受试人群相互独立，在pi，1条件下估计pi，2统计量也服从均匀分布，两阶段统计量相互独立，此时满足p-clud原则。

图1 试验设计示意图

2.应用贝叶斯预测概率（predictive power，PP）剂量选择

Ⅱ／Ⅲ期无缝设计期中分析剂量筛选方法可以分为两类［15］：一类为基于频率学派的条件把握度法；另一类为基于Bayes理论的预测概率法，两者区别在于后者考虑了先验信息。本文应用Bayes理论估计预测概率指导期中分析决策，包括最优剂量组选择及确证阶段样本量校正，没有考虑早期有效或无效终止临床试验。预测概率估计公式，

其中CP（θ）为根据样本数据估计的条件把握度［16］，p（θ｜interm data）为θ的后验分布，

p（θ）表示给定参数θ的先验分布，p（interm data｜θ）为给定θ条件下的似然函数。

估计预测概率分为三个步骤：

（1）估计条件把握度，

其中pi，1、δi、σi可根据探索阶段数据估计，N2为验证阶段总样本量。假设采用Fisher’s原则合并两阶段统计量将这些统计量均代入公式（3）即可估计条件把握度。

（2）估计参数θ的后验分布

假设待估计参数θ为事件发生率，共轭先验分布为Beta分布，pE（d）～Beta（α，β），根据样本信息可得后验分布p（θ｜interm data）～Beta（α＋xi，β＋ni－xi），ni表示探索阶段每组样本量，xi表示阳性事件发生数。

（3）估计预测概率

估计预测概率方法包括两种：一种是将条件把握度及θ后验分布代入公式（1）可估计预测概率；第二种是通过Monte-Carlo模拟，从θ后验分布随机抽取m个θ后验样本，将每个θ带入公式（3）估计不同θ下对应的条件把握度，计算其平均数即为预测概率。

模拟试验

考虑有效剂量组短期结局事件发生率的变化，长短期结局间不同相关关系、短期结局不同先验信息，采用Monte Carlo模拟评价期中分析应用短期结局剂量筛选对无缝设计I类错误及检验效能的影响。模拟试验假定探索阶段包括3个剂量组和1个对照组，即对应3个无效假设Hi：θi＝θ0（i＝1、2、3），样本量分配比例为1：1：1：1，有效率θ*，θ分别表示短期及长期结局事件发生率，不考虑安全性评价指标。根据期中分析短期结局估计的预测概率，筛选最优剂量组连同对照进入确证阶段继续研究。注意期中分析决策仅用来挑选最优剂量组，不考虑试验早期有效或无效终止，而最终统计分析仍基于长期结局。模拟程序编写采用SAS 9.2软件，每种参数组合下模拟3000次，模拟试验流程如图2所示。

1.参数设置及方法选择

（2）探索阶段短期及长期结局列联相关系数ρ；

（3）根据二项分布模拟产生验证阶段长期结局（θ0，2，θ1，2，θ2，2，θ3，2）；

（4）多剂量组多重校正采用Bonferroni校正；

（5）两阶段合并统计量方法采用Fisher’s合并；

（6）根据I类错误0.05、检验效能90%，按照传统方法估计每组样本量N＝120、总样本量为120×4。探索阶段期中分析每组样本量为60（N／2）；验证阶段样本量理论上应按照条件把握度或预测概率估计，简便起见本文考虑每组样本量（480－60×4）／2。

图2 模拟试验流程图

2.I类错误

考虑短期与长期结局间的不同相关关系，评价II／III无缝设计中两种剂量选择方法（预测概率、条件把握度）与两评价指标（短期结局、长期结局）对I类错误的影响。

（1）参数设置

③探索阶段短期与长期结局列联相关系数ρ＝（0．10（0．10）0．90，0．99）；

④短期及长期结局有效率先验分布为无信息先验，Beta（1，1）。

（2）结果

I类错误模拟试验表明（见表1），无论根据短期结局还是长期结局，条件把握度及无信息先验预测概率剂量筛选Ⅰ类错误结果都非常接近，原因在于估计预测概率给定的先验为无信息先验，预测概率的计算主要由条件把握度决定；基于长期结局选择最优剂量组，即期中分析筛选指标与最终分析指标为同一指标，由于多剂量组比较采用Bonferroni校正，较为严格，因此FWER控制在0.05以内，且不随相关系数变化而改变；基于短期结局选择最优剂量组，即期中分析筛选指标与最终分析指标非同一指标，随着探索阶段短期与长期结局相关系数ρ的增加，总Ⅰ类错误也随之增加，ρ＝0，用于筛选的短期结局与长期结局相互独立，此刻根据短期结局筛选最优剂量组有1／3的概率是长期结局筛选的最优剂量组，ρ接近于1，用于筛选的短期结局与长期结局接近完全相关，Ⅰ类错误接近长期结局筛选结果，Ⅰ类错误接近0.05。

表1 不同相关关系条件下期中分析应用长、短期结局对Ⅰ类错误的影响

3.检验效能

考虑短期结局有效率的增加，短期与长期结局间的不同相关关系，及先验信息的变化，评价II／III无缝设计中短期结局、长期结局预测概率剂量选择方法对检验效能及一阶段剂量选择比例的影响。

（1）参数设置

③探索阶段短期及长期结局列联相关系数ρ＝（0.1、0.5）；

④短期和长期结局有效率先验分布的设定方式：以有效率0.2为例，无、弱、中、强先验分布分别为Beta（1，1）、Beta（2，8）、Beta（10，40）、Beta（20，80），先验信息的均数相同，均为0.2，但方差越来越小，其中Beta（1，1）为给定的无信息先验等于均匀分布，如图3所示。

（2）结果

①剂量选择比例

模拟试验结果表明，不同先验信息条件下有效组在期中分析被选择的概率不同，随着先验信息强度的增强，有效组被筛选出来的概率增加，增长的速度加快。以相关关系0.5为例说明不同剂量组被选择比例变化趋势（见图4）。在无先验信息条件下，有效组短期结局事件发生率为0.40时，接近90%的有效组被筛选进入确证阶段，然而中等信息先验条件下有效组短期结局事件发生率为0.30时，90%的有效组被筛选，强信息先验条件下事件发生率只需0.26筛选能力已达90%。同时，随着先验信息的强度增强，无效组被筛选的比例不断降低，降低的速度也在不断加快。

图3 短期／长期结局先验分布（θ＝0.2）

②检验效能

I剂量组有效，随着短期有效剂量组事件发生率的增加，或相关系数的提高，检验效能都有增长趋势；两指标相关关系由0.1到0.5，检验效能提高的比例不明显，在2%以内；随着先验信息的提高检验效能的增长速度加快，无信息先验条件下，短期结局事件发生率为0.4时，检验效能接近以长期结局作为筛选指标的检验效能，根本原因在于此时短期结局有效剂量组同对照组率差等于长期结局有效组同对照组率差；弱信息先验条件下短期有效剂量组事件发生率为0.4，中等信息先验条件下短期有效剂量组事件发生率为0.36，强信息先验条件下短期有效剂量组事件发生率为0.3，检验效能均接近长期结局作为筛选指标结果（见图5）。

图4 不同相关、不同先验对剂量选择比例影响

实例分析

以独立的艾迪康唑乳膏治疗足癣的Ⅱ期、Ⅲ期临床试验为例介绍基于Bayes理论的替代指标作为剂量筛选指标的Ⅱ／Ⅲ期无缝设计研究。两期临床试验均为随机、双盲、阳性对照、多中心临床试验研究，研究目的为评价艾迪康唑乳膏治疗足癣的有效性和安全性。其中Ⅱ期计划入组受试者240例，其中，安慰剂、1%艾迪康唑乳膏、2%艾迪康唑乳膏、4%艾迪康唑乳膏、6%艾迪康唑乳膏组各48例。主要疗效指标为：临床综合疗效、真菌学疗效、临床疗效。次要疗效指标为：临床症状体征记分改变。Ⅲ期计划入组受试者480例，其中试验组360例、对照药组120例。主要疗效指标为：真菌学疗效。次要疗效指标为：临床症状体征记分改变、临床疗效、临床综合疗效。计划用药4周，停药后2周随访。于用药前、用药后2周、用药后4周、停药后2周各访视1次。

图5 不同相关、不同先验对检验效能影响

假定艾迪康唑乳膏治疗足癣的Ⅱ期临床试验为Ⅱ／Ⅲ期无缝设计研究探索阶段、Ⅲ期临床试验为验证阶段。选择用药后4周综合疗效为无缝设计短期结局、停药后2周真菌学疗效为长期结局，最终数据分析集采用FAS集。

首先根据短期结局估计预测概率（见表2），2%艾迪康唑乳膏组预测概率最大，因此该组及其对照组进入确证阶段。试验结束，分别估计探索阶段（228例受试者）、确证阶段（478例受试者）各剂量组同对照组停药后2周真菌学差异（见表2、表3）。多剂量组比较采用Bonferroni校正，估计一阶段统计量为，p1，1＝3.3054×10－4、p2，1＝4.3572×10－5、p3，1＝1.6256× 10－4、p4，1＝2.3202×10－7、p1234，1＝4×2.3202×10－7、p123，1＝4×2.3202×10－5、p12，1＝p23，1＝3×2.3202× 10－7、p12，1＝p23，1＝2×4.3572×10－5、p24，1＝2×2.3202 ×10－7，由于仅有2%艾迪康唑乳膏组进入确证阶段，则p2，2＝p1234，2＝p123，2＝p124，2＝p234，2＝p12，2＝p23，2＝p24，2＝0.053。根据Fisher’s原则合并两阶段统计量，满足封闭原则要求，最终拒绝H2假设。该资料Ⅱ／Ⅲ期无缝设计研究结论为2%艾迪康唑乳膏组与对照组治疗足癣疗效差别有统计学意义。而仅根据Ⅲ期研究结果，不能得出2%艾迪康唑乳膏组与对照组治疗足癣疗效差别有统计学意义的结论（P＝0.053）。

表2 Ⅱ期临床试验用药后4周综合疗效、停药后2周真菌学疗效

表3 Ⅲ期临床试验停药后2周真菌学疗效

结论

当研究的药物或疗法在短期内有非常好的疗效时，应用短期结局替代长期结局指导期中分析决策可以缩短药物研发周期，提高研究效率。以短期结局作为初期剂量筛选指标可用于多种疾病的药物研究。目前，一些在特定环境下能够很好替代长期结局的短期结局已经获得监管当局认可，如关于晚期结直肠癌研究无进展生存期（progression－free survival、PFS）可替代总生存期［17］及关于结肠癌辅助化疗研究中位随访3年的无病生存期（disease－free survival、DFS）也能够替代中位随访5年总生存期（overall survival、OS）［18］。

本研究结果显示根据短期结局剂量筛选的II／III期无缝设计可以控制总的I类错误在检验水准以内，但是在相关关系很弱前提下，短期结局剂量筛选结果偏保守。一般情况下其检验效能低于期望，但是当有效剂量组同对照组短期结局率差同长期结局率差接近，两指标相关关系较强或者短期结局有较强的先验信息时应用短期结局剂量筛选可以大大提高检验效能，并接近期望值。值得注意的是，不同先验信息的强度对检验效能的影响很大，在实际工作中如果可以获得较强信息先验的话，应用预测概率进行剂量筛选可以大大提高检验效能。

因此，应用短期结局作为II／III期无缝设计剂量初筛指标时注意，选用临床公认的、有文献支持的替代指标。本文尚存在一些不足之初，如本文只考虑有效剂量同对照组率差为0.2的情况，期中分析仅考虑一个最优剂量组进入确证阶段，研究指标仅为二分类指标，没有考虑早期有效或无效终止，也没有考虑药物安全性等，这些情况有待进一步研究。

1.Thall PF，Simon R，Ellenberg SS.Two-stage selection and testing designs for comparative clinical trials.Biometrika，1988，75（2）：303－310.

2.Bauer P，Kieser M.Combining different phases in the development of medical treatments within a single trial.Stat Med.1999，18（14）：1833－1848.

3.Posch M，Koenig F，Branson M，etal.Testing and estimation in flexible group sequential designs with adaptive treatment selection.Stat Med，2005，24（24）：3697－3714.

4.Bretz F，Schmidli H，Konig F，et al.Confirmatory seam less phase II／III clinical trials with hypotheses selection at interim：general concepts.Biom J，2006，48（4）：623－634.

5.吴莹，侯艳，李康.适应性无缝设计在临床试验中的应用及研究进展.中国卫生统计，2013，30（1）：140－142.

6.Anscombe FJ.Sequential Medical Trials.Journal of the American Statistical Association，1963，58（302）：365－383.

7.Berry D，Müller P，Grieve A，et al.Adaptive Bayesian Designs for Dose-Ranging Drug Trials.In：Case Studies in Bayesian Statistics.Edited by Gatsonis C，Kass R，Carlin B，Carriquiry A，Gelman A，Verdinelli I，West M，vol.162：Springer New York，2002：99－181.

8.Schmidli H，Bretz F，Racine-Poon A.Bayesian predictive power for interim adaptation in seam less phase II／III trials where the endpoint is survival up to some specified timepoint.Stat Med，2007，26（27）：4925－4938.

9.Marcus R，Eric P，Gabriel KR.On closed testing procedures with special reference to ordered analysis of variance.Biometrika，1976，63（3）：655－660.

10.Bauer P，Kohne K.Evaluation of experiments with adaptive interim analyses.Biometrics，1994，50（4）：1029－1041.

11.Lehmacher W，Wassmer G.Adaptive sample size calculations in group sequential trials.Biometrics，1999，55（4）：1286－1290.

12.Brannath W，Posch M，Bauer P.Recursive Combination Tests.Journal of the American Statistical Association，2002，97（457）：236－244.

13.Jenkins M，Stone A，Jennison C.An adaptive seam less phase II／III design for oncology trials with subpopulation selection using correlated survival endpoints.Pharm Stat.2011，10（4）：347－356.

14.Friede T，Parsons N，Stallard N，et al.Designing a seam less phase II／III clinical trial using early outcomes for treatment selection：an application in multiple sclerosis.Stat Med，2011，30（13）：1528－1540.

15.Spiegelhalter DJ，Freedman LS，Blackburn PR.Monitoring clinical trials：Conditional or predictive power？Controlled Clinical Trials，1986，7（1）：8－17.

16.陈建平，魏永越，陈峰，等.期中分析的条件把握度及样本含量再估计.中国卫生统计，2010，27（4）：361－363.

17.Sargent DJ，Wieand HS，Haller DG，et al.Disease-free survival versus overall survival as a primary end point for adjuvant colon cancer studies：individual patient data from 20，898 patients on 18 randomized trials.J Clin Oncol，2005，23（34）：8664－8670.

18.Buyse M，Burzykowski T，Carroll K，et al.Progression-free survival is a surrogate for survival in advanced colorectal cancer.J Clin Oncol，2007，25（33）：5218－5224.

（责任编辑：郭海强）

An Adaptive Seam less Phase II／III Clinical Trials with Dose Selection Using Predictive Power of the Short-term Endpoint

Liu Liya，Yu Hao，Bai Jianling，et al.（Department of Epidemiology＆Biostatistics，Nanjing Medical University（211166）Nanjing）

ObjectiveWe describe a new interim analysis strategy with treatment selection based on predictive power of the short-term endpoint in adaptive seam less phase II／III design and corresponding statistical properties are evaluated.MethodsBased on Monte Carlo simulations，we evaluate the influence of parameter variation on the typeⅠerror and power.ResultsThe familywise typeIerror rate can be controlled in the strong sense，especially when the short-term endpoint is weekly correlated with the long-term endpoint.Furthermore，we cannot get a higher power by using the short-term endpoint for subgroup selection at interim analysis than by using the long-term endpoint.However，when the rate difference increases，the short-term／long-term endpoint correlation is not week or the prior information is strong，the power of the new interim analysis will be greatly improved and close to the expected value.ConclusionAs few final outcomes can be observed at the time of interim analysis，the short-term endpoint，which has been proved effective in papers and clinical practice，can be considered as the surrogate of the long-term endpoint to save development cost and to shorten R＆D（research and development）cycle in the study of adaptive seamless Ⅱ／Ⅲdesign.

Bayesian methods；Seam less phase II／III design；Short-term endpoint；Predictive power

国家自然科学基金（81273184）；国家自然科学青年基金（81302512）

△通信作者：陈峰

基于短期结局预测概率剂量筛选的Ⅱ／Ⅲ期无缝设计研究*

方法介绍

模拟试验

实例分析

结 论

结论