晚期非小细胞肺癌患者真实世界生存终点指标验证性研究

2022-10-14 05:17唐现策赵二江刘长鹏邢文群刘先本郑燕李婵婵余华琼

中国合理用药探索 2022年9期

唐现策，赵二江，刘长鹏，邢文群，刘先本，郑燕，李婵婵，余华琼

1郑州大学附属肿瘤医院，郑州 450008；2零氪科技（北京）有限公司，北京 100080

近年来，使用真实世界数据（real-world data，RWD）解决无法通过临床试验数据回答的临床问题、改进治疗方案和支持药物监管决策等受到了广泛关注［1-2］。根据美国食品药品监督管理局（FDA）给出的定义，RWD是指常规收集的、与患者健康状况或护理服务相关的数据［3］，其来源是医院信息系统（hospital information system，HIS）、医疗保险系统、死因登记数据库、慢病登记数据库以及其他新兴数据库。真实世界证据（real-world evidence，RWE）是通过应用相关研究方法，分析RWD得出的有关医疗产品的使用和潜在益处或风险的临床证据［4］。可靠的RWE取决于适用和高质量的RWD，完整的信息收集、优秀的研究设计和分析通常会将数据偏差降到最低［5］。但电子健康记录（electronic health records，EHR）等不是基于研究目的而进行收集的数据通常不够完整，缺失和非标准化的数据在一定程度上限制了RWE的应用。

基于生存结果的总生存期（overall survival，OS）可用于评估肿瘤临床试验中干预的临床效益。生存变量包括生存状态（死亡或生存）、死亡日期和死亡原因。在传统的随机对照试验（randomized controlled trial，RCT）中，生存变量通常由现场人员进行收集、临床医事委员会裁定死亡类型［6］，但EHR结构化数据或行政索赔中的死亡信息通常不够完整。有研究表明，在EHR结构化数据中，约有34%的死亡记录存在字段缺失［7］。此外，由于缺乏足够的文献、标准化的实践监管指南，临床试验和真实世界环境中生存终点的差异尚未解决，相关研究仍具有极大的挑战性［8］。Curtis等［7］于2018年首次评估了Flatiron Health肿瘤学数据库中的生存数据质量，即以国家死亡指数为基准，评估数据的敏感性、特异性、阳性预测值（positive predictive value，PPV）、阴性预测值（negative predictive value，NPV）和日期一致性。结果表明，仅EHR结构化数据集中生存数据的敏感性通常在66%左右，而特异性高达97%；将河南省癌症中心和河南省疾病预防控制中心、LinkDoc随访等多源融合数据库与EHR数据集相结合后，融合生存数据集的灵敏度提高至91%。这种高质量的融合生存数据集为真实世界研究（real-world study，RWS）提供了质量保障。将融合生存数据集的评估范围扩大到18种癌症，结果表明，与国家死亡指数相比，灵敏度达到83.9%～91.5%，特异性高达93.5%～99.7%，18种癌症的中位总生存期（median overall survival，mOS）估计值提高2.8%～12.7%［8］。一项关于死亡数据缺失对OS分析影响的研究［9］发现，在EHR衍生队列中，死亡数据缺失会导致mOS的偏差从温和偏差（0.6～0.9月）变为较低敏感度（60%～70%）产生时的大量偏差（3.3～9.7月）。遗漏死亡数量将导致持续提高mOS估计值，而死亡数据的低敏感度会导致实质性偏差。因此，生存数据质量对评估RWE的可信度具有重要意义，临床试验中必须对生存数据质量进行研究和描述。

RWS受到了我国医疗卫生和监管决策部门的重视。国家药品监督管理局（NMPA）药品审评中心于2021年发布了《用于产生真实世界证据的真实世界数据指导原则（试行）》［10］，涉及RWD的管理、标准、质量保证和适用性，但临床实践中关于RWD中生存数据质量的验证鲜有报道。为了填补这项空白，本研究将EHR数据源和LinkDoc随访数据源整合为融合生存数据集，首次开发了适用于国内的生存终点验证方法，并以政府来源的金标准数据集为基准，对融合生存数据集的质量进行验证，旨在开发一个高质量的融合生存数据集，用于设计回顾性或前瞻性研究。

1 资料和方法

1.1 研究设计

选取2015年1月～2018年12月本院收治的晚期非小细胞肺癌（non-small cell lung cancer，NSCLC）患者数据作为研究队列，通过LinkDoc随访数据处理平台，对患者的数据进行抽象化、标准化和整合，构建融合生存数据集。基于ID号将融合生存数据集与金标准数据集中的患者进行匹配。通过与金标准数据集的比对，评估融合生存数据集中死亡数据的准确性，包括生存状态和死亡日期。由于金标准数据集的形成时间滞后超过1年，因此随访的截止日期设定为2019年12月31日。

1.2 融合生存数据集的数据来源

融合生存数据集包含晚期NSCLC患者的死亡数据：①EHR结构化数据，包括住院和门诊病历。②LinkDoc随访平台通过电话随访和移动应用随访等方式收集到的结构化随访数据。在患者层面，对相关数据进行汇总、规范化和统一，见图1。其中，当不同的数据源中患者的生存状态或死亡日期不一致时，数据优先级是EHR、电话随访数据和移动应用随访数据；排除明显不正确的死亡日期，如诊断或治疗前的死亡日期。

图1 融合生存数据集的数据来源

LinkDoc随访平台由电话随访中心和移动应用随访组成。晚期NSCLC患者随访计划是出院后每3个月随访1次，180个月时终止。该平台收集的患者信息包括：生存状态、死亡日期、最后生存日期、人口学特征、用药情况、转移信息、不良事件等。

1.3 金标准数据集的数据来源

金标准数据集整合了河南省疾病预防控制中心疾病监测点系统（Diseases Surveillance Point System，DSPs）和河南省癌症中心癌症登记系统（Henan Cancer Report Information Management System，HCRS）的晚期NSCLC患者的死亡数据，见图2。DSPs和HCRS都有标准的工作流程和严格的质量控制体系以确保数据的准确性。当一个患者的死亡日期在两个数据库中不一致时，数据优先级是DSPs、HCRS。

图2 金标准数据集的数据来源

DSPs是全国性的死亡监测系统，每年收集所有省份的死亡率和死亡原因等数据。2017年，DSPs覆盖31个省，共计605个县或区，涉及约3.23亿人口，占全国总人口的24.3%［11］。由于采用了全国性的抽样策略，DSPs可更准确地反映总死亡率、广泛的死因分布及地理分布［12］。DSPs覆盖了河南省的全部人口。河南省疾病预防控制中心工作流程如下：①收集居民小组长的统计报表，为所选乡镇/街道所有村/社区内的每个居民小组（最小行政单位）建立重点时段的死亡者名单。②通过与公安部门、民政部门、计划生育部门和妇幼保健部门的数据对比，对名单进行核对和补充。③每个村/社区的访谈者通过对每个发生死亡的家庭进行调查，核实和完善死亡记录的相关信息。本研究从DSPs中摘录匹配患者的死亡日期［11］。

HCRS中的肿瘤登记平台包含癌症发病率、生存状况、死亡日期、死亡原因和人口数据等内容。2018年，河南省共有39个癌症登记处，覆盖30.51%的人口［13］。通过该系统，河南省癌症中心不断收集、整理、分析和报告动态的癌症发病率、死亡率和生存期信息。本研究从HCRS中提取了相匹配的晚期NSCLC患者的生存状态、死亡日期和最后联系日期。最后联系日期用于鉴别分析融合生存数据集和金标准数据集中的最后生存日期偏移可能产生的原因。

1.4 纳排标准

纳入标准：①2015年1月～2018年12月期间由本院病理诊断为晚期NSCLC者。②接受一线系统治疗者。③有2份以上病历或有1份病历且随访1次以上者。排除标准：①无身份证号信息者。②合并其他活动性原发肿瘤者。③在一线系统治疗后30天内死亡者。

初步筛选后共有4844例患者符合条件。截至2019年12月31日，排除214例于2020年1月后死亡的患者，最终纳入4630例患者作为数据有效性指标分析的研究对象；排除3626例无死亡日期或仅在单一数据集中有死亡日期的患者，最终纳入1218例患者用于分析死亡日期的一致性；排除1627例金标准数据集中无死亡日期或最后联系日期的患者、932例最后联系日期在2020年1月之前的患者、1例有多个死亡日期的患者，最终纳入2284例患者作为分析OS的研究对象，见图3。

图3 研究队列的选择

1.5 生存状态验证方法［7］

截至2019年12月31日，若患者有生存状态记录，则被算作生存；若患者的最后生存日期记录在随访截止日期之后，则被算作生存；若无法获得生存状态信息，则被定义为检查；若患者有死亡日期记录或在随访期间确认为“死亡”，则被定义为死亡。

对4630例患者进行生存状态验证，并按年龄、性别和诊断年份进行分层，记录全部死因。与金标准数据集相比，融合生存数据集的数据质量由有效性指标评估，包括敏感性、特异性、PPV和NPV。

真阳性（A）是指患者在金标准数据集和融合生存数据集中都被记录为死亡；假阳性（B）是指患者在金标准数据集中被记录为生存，但在融合生存数据集中未被记录为生存；假阴性（C）是指患者在金标准数据集中被记录为死亡，但在融合生存数据集中未被记录为死亡；真阴性（D）是指患者在金标准数据集和融合生存数据集中都被记录为生存。敏感性是指真阳性患者在真阳性和假阴性患者中的占比；特异性是指真阴性患者在真阴性和假阳性患者中的占比；PPV代表真阳性患者在真阳性和假阳性患者中的占比；NPV代表真阴性患者在真阴性和假阴性患者中的占比。

1.6 死亡日期的验证方法

数据一致性被定义为金标准数据集和融合生存数据集之间死亡日期完全相同者在所有患者中的占比［7］。本研究比较了1218例在两个数据集中都有明确死亡日期患者的死亡日期一致性。与金标准数据集相比，融合生存数据集的死亡日期一致性是通过确切日期一致性、±15天一致性和±30天一致性来评价的。若患者在融合生存数据集中记录的死亡日期与金标准数据集相差超过30天，则被定义为日期不一致。

1.7 OS分析

对2284例患者进行OS分析。OS被定义为从患者接受一线治疗的开始日期到患者死亡或在末次随访时间未发生终点事件的时间，其中，若未知终点事件，则按删失数据处理。采用Kaplan-Meier生存曲线估计OS，并以mOS为指标比较金标准数据集和融合生存数据集之间的生存差异。

1.8 统计学分析

采用 SAS 9.4软件对数据进行统计分析。采用Kaplan-Meier法绘制生存曲线；计数资料以n（%）表示，组间生存率的比较行Logrank检验。P＜0.05为具有统计学差异。

2 结果

2.1 金标准数据集和融合生存数据集的特征

共有4844例符合研究标准的患者被纳入本研究，依据ID号与HCRS和DSPs中的患者进行匹配。HCRS和融合生存数据集都有死亡日期、最后生存日期、生存状态，而DSPs仅有死亡日期，详见表1。

表1 金标准数据集和融合生存数据集的信息 n=4844，n（%）

在DSPs和HCRS中均记录死亡日期的769例患者被用来评估死亡日期一致性。结果显示，DSPs和HCRS之间死亡日期的确切日期、±15天和±30天一致性分别为83.7%、89.7%和90.8%，提示金标准数据集的死亡日期一致性很高，见表2。

表2 DSPs和HCRS的死亡日期一致性比较 n=769

2.2 融合生存数据集中死亡数据的质量

以金标准数据集为基准评估融合生存数据集中死亡数据的质量（表3）。结果表明，与金标准数据集比较，融合生存数据集的敏感性（82.8%，95%CI：81.1%～84.5%）和 NPV（86.2%，95%CI：84.8%～87.6%）水平较高，而特异性（76.8%，95%CI：75.2%～78.4%）和 PPV（71.8%，95%CI：70.0%～73.7%）较低；社会人口学特征分析结果显示，各年龄分层、不同性别及年份的数据敏感性存在明显差异，其中35～50岁亚组、2015年的数据敏感性低于80.0%。见表3。

表3 融合生存数据集中死亡数据的质量 n=4630，%

续表

图4 金标准数据集和融合生存数据集的Kaplan-Meier曲线

2.3 死亡日期一致性

对两个数据集共有的1218例有死亡日期患者进行死亡日期一致性评估。结果表明，±15天、±30天的准确率均在可接受范围，且日期不一致率占比较低（18.6%，95%CI：16.4%～20.7%）。见表 4。

表4 融合生存数据集与金标准数据集的死亡日期一致性比较 n=1218

2.4 OS分析

对有确切生存时间记录的2284例患者进行OS分析，其中金标准数据集中有4例因死亡日期早于诊断日期而被排除。结果表明，金标准数据集和融合生存数据集的mOS分别为15.2月（95%CI：14.6月～15.8月）、16.0月（95%CI：15.3月～16.8月）。

3 讨论

2020年，NMPA发布《真实世界证据支持药物研发与审评的指导原则（试行）》，鼓励应用RWD研发与评价药物，强调RWD在我国药物监管决策中的重要地位［14］。但鉴于目前医疗服务和相关数据收集的分散性，获得研究所需完整、准确的RWD仍是一项巨大挑战［15］。包括OS在内的完整、准确的生存数据是评估肿瘤进展重要结果的必要条件，不完整的生存数据会导致对生存率的不准确估计，在比较研究中也可能得出错误结论。在肿瘤学研究中，作为变量的生存率和作为终点的OS是重要指标，生存监测的低敏感性会使OS估计出现偏差［8］，估计并确定造成偏差的敏感性阈值是RWS中的关键环节［9，16］。

本研究共4630例进行生存状态验证。结果显示，融合生存数据集的敏感性、特异性、PPV和NPV分别为82.8%、76.8%、71.8%和86.2%。特异性和PPV较低是由于627例（13.5%）患者为假阳性，推测可能是DSPs的部分漏报导致的金标准数据集死亡数据不完整［11］和其中283例患者的失访日期早于金标准数据集的死亡日期引起。本研究中，确切死亡日期的准确率（39.1%）低于±30天死亡日期准确率（81.4%），这可能是由于在随访过程中：①死亡患者家属未提供准确的死亡日期，有时仅提供月份信息。②由于我国部分人员仍习惯于使用阴历日期，而在报告信息时将阴历日期误记为阳历日期。③家属因记忆错误而报告错误的死亡日期。此外，金标准数据集和融合生存数据集的mOS分别为15.2月和16.0月，表明在大多数情况下，使用融合生存数据集生存变量估计的mOS偏差不大。

本研究的难点在于构建金标准数据集，该数据集中的生存数据主要以DSPs为基础，辅以HCRS，其中DSPs含有覆盖整个河南省的死因监测系统。人口死亡登记包括死亡证发放、死亡信息报告、死亡信息核实/修改和复核等过程［11］。现阶段死亡信息报告过程有完善的法律制度保障，报告数据也设置专人负责定期进行漏报调查和质量审核。报告显示，2009～2011年DSPs的3年平均漏报率为12.6%［11］。此外，本研究进一步从HCRS获得了目标人群的随访数据。按照《河南省肿瘤登记实施方案》的要求，HCRS对生存数据进行了规范的收集、存储和严格的质量控制，其数据质量的可靠性使其成为质量评估的金标准，但其数据仅覆盖河南省 30.5% 的人口［13］。

综上所述，基于完整性和时效性等方面的限制，临床迫切需要一个完整、准确和最新的RWE数据源。本研究首次开发了一种适用于国内的生存终点验证方法，并以金标准数据集为基准验证了本院融合生存数据集的质量，提示融合生存数据集的质量较高时足以产生可靠的RWD。