詹思延：大数据和主动监测给药物全生命周期管理“脱胎换骨”

2019-04-17 04:39文图中国医药科学

中国医药科学 2019年4期

文图/《中国医药科学》费菲

近几年，我国及全球各国药物管理部门越来越重视加强对药品不良反应的主动监测。对包括中药注射剂在内的所有上市药品，主要采用的药品安全主动监测方法是传统的流行病学专题调查方法，如队列研究、病例对照研究等，这些方法固然弥补了被动自发监测报告的局限，但其花费和时效性从监管角度来看都是较差的。尤其是前瞻性队列研究虽有很好的研究设计，但也存在一些问题，比如需要较大的样本量。目前大数据的出现恰好为我们研究这些罕见的药品不良反应发生频率和事件带来了很好的机遇。日前，在第二届临床中药学大会上，北京大学公共卫生学院流行病与卫生统计学系主任詹思延教授分享了在大数据和药品安全主动监测方面的最新研究成果。

药品不良反应从被动监测走向主动监管

世界卫生组织对药物警戒（PV）的定义是发现、评价和预防药物不良反应或其他任何可能与药物有关问题的研究活动。药物警戒前3个阶段为药物研发阶段：第一阶段20～50名健康志愿者收集同步数据，进行临床前动物试验以确定急性毒性、器官损伤、剂量相关性、代谢、动力学和致癌性。第二阶段150～350名患者，确定安全性和剂量建议；第三阶段250～4000多名不同种患者组确定短期安全性和效验。之后进入注册批准上市后阶段，进行核准后新药研究以确定特殊安全性问题，主动报告核准后研究，进行风险效益研究，进行药品不良反应监测，自发报告系统风险和效益的评价。而药品上市后临床使用状况与上市前临床试验所限定的使用条件不大相同，上市后风险管理的重点是广泛使用情况下药品的安全性，重在发现上市前观察不到的安全性盲点，如新的罕见严重不良反应、迟发的严重不良反应、药物相互作用、对特殊人群的影响等。因此，药品在广泛使用情况下，最常出现如肝毒性、肾毒性、心血管毒性、血液毒性、中枢神经系统损害、皮肤损害、骨骼和肌肉损害等安全性问题。

众所周知，药品需要全生命周期管理，在上市前经过严格的临床前和Ⅲ期临床试验，但是仅这样还不够，由于样本量和研究人群的局限，上市后仍需要开展上市后的药品监管。现在对药品不良反应更强调从被动监测走向主动监管。被动的监测是世界各国目前针对药品不良反应的常规性工作。常见的自发报告系统有世界卫生组织（WHO）国际药品监察中心、美国安全性信息和不良事件报告系统（MedWatch）、英国不良反应黄卡制度、加拿大药物不良反应监测中心（CADRMP）、澳大利亚不良反应蓝卡制度，我国也设立了国家药品不良反应监测中心，收集由各级往上呈报的药品不良反应报告。被动监测有很多优点，比如可快速进行追踪、费用低、覆盖范围广、研究工作的持续时间没有限制、不影响医师处方习惯或日常临床工作等。但也存在局限性，比如漏报、报告带有随意性，且内容不完整，较难确定因果关系；由于缺少用药基础人群数量，无法计算不良反应的发生率、无法分析危险度；没有对照组；存在报告偏倚等。

如果对研究要求较高，可开展前瞻性队列研究，但此类研究存在需要较大的样本量等问题。如果药品不良反应（ADR）发生率在1/1000水平，至少需随访观察3000名用药人群从中发现1例才具有统计学意义；如果是1/10 000水平，则需随访观察3万例从中发现1例才具有统计学意义。詹思延团队开展抗结核药物不良反应发生率调查，2007年立项，2008年起在全国4个省52个县市用随机抽样的整群抽样方法进行调查，2013年才发表第一篇文章。全球基金投入150万元，耗费4年时间（现场随访2年，数据整理、分析近1年，论文撰写到发表1年），仅获得一个抗结核药物不良反应率（虽有其他副产品）的数据。

□詹思延：大数据为药品安全主动监测带来全新机遇

大数据药品安全性主动监测时代来了

大数据（Big Data）的特点主要体现为4个“V”:体量巨大（volume）、类型多样（variety）、价值密度低、商业价值高（value）、即时性和处理速度快（velovcity）。大数据给我们带来抽样与全体、精确性与混杂性、因果关系与相关性等思维改变。医疗大数据具有多种类型，每个人身边也不断产生各种数据。所谓大数据就是使用不同于传统的统计分析方法，收集分析日常诊疗行为所产生的数据，如电子病历、全国城镇医保数据及公共卫生领域的各种监测数据。

近年来，詹思延团队一直在关注基于我国现有的集成数据源大数据回答药品安全性问题的可行性，并开展了相关的分析和研究，总体结论是目前已进入基于大数据开展药物上市后安全性主动监测和药物流行病学研究阶段。大数据在药品主动监测中可发挥以下作用：便于前瞻性设计；实现不同数据库不良事件的快速识别；获得整体用药人群（分母）计算不良反应事件发生率；选择对照，控制混杂，进行关联强度分析。但这一理念并不是我国首先提出，美国食品药品监督局（FDA）在2007年获得国会授权，启动了建立药品安全主动监测系统的行动。除建立大型电子数据库，也十分重视数据分析方法。美国建立了公司和监管部门联合的观察性医疗结果合作（OMOP）项目，欧洲也有探索与理解药品不良反应（EU-ADR）的项目，目的都是用各种数据源开展主动监测，并将数据分析方法作为最重要的研究方向之一。

从2013年开始，詹思延团队与美国和欧洲相关数据库管理者建立了交流和合作，邀请他们到北京大学医学部开展讲座，介绍经验，同时对国际主动监测系统进行了系统梳理，为国家药品监督管理局提供了各国药品安全主动监测系统的整体情况报告，报告中分析了主动监测主要的特点是分布式网络（distributed network），即主动监测基于的数据库并不是固定到某一家，而是分散存在的。如何用好分布式网络？国际上普遍采用通用数据模型（common data modal），即对多元易构的数据进行抽提转换标准化，通过统计分析的方法，整合相关数据结果或原始数据总和来回答问题。

药品安全性主动监测需要采集三组数据元素：一组是要研究的暴露（药物），如中药、西药、疫苗、生物制品等；第二组元素是用药后结局：安全有效或安全性不良事件/不良反应。研究暴露和结局不能直接看两者关系，尤其是观察性研究，有大量的复杂因素，很难判断是合并用药还是基础疾病或本身遗传特质带来的影响，因此还要收集第三组元素，就是协变量。

通用数据模型是什么？无论是电子病历还是医保数据，把这些相关的数据元素抓取出来，将数据进行结构化标准化，就可以按照统一的方法进行相应的统计分析模式。比如QT 间期延长综合征是心脏传导阻滞的标志，可能由药物的心血管毒性导致，就可以到每个数据库里给个指令，对数据库里QT间期延长、心电图ST段抬高，肝脏损伤的数据实现快速识别。再查找医院里使用了阿奇霉素的患者群和这些患者中出现QT间期延长的数据，就能得到不良反应的发生率。考虑到可能存在不使用阿奇霉素也发生QT间期延长的情况，需要观察对照组。数据库里可以快速找到对照组，比如将未使用阿奇霉素的患者群或使用其他药物的患者群作为对照。有了对照就可以控制混杂进行药物危险度分析。最新的大数据分析技术不仅能回顾性使用数据，随着药物和监测病例的数据不断进入数据库，还可开展前瞻性队列研究；不限于回答安全性问题，还能回答药物经济学和真实世界的疗效问题。

我国已建立药品主动监测数据库平台

目前我国是否建立了相关的数据库来开展药品主动监测研究？詹思延团队用了两年的时间，完成了对我国典型数据库和5%抽样的医保数据库的调研和试用，其中也包括中医电子病历数据库。通过对以上数据库的调研，按照通用数据模型的表单构建进行案例分析，得出的结论是，基于我国现有的集成数据源，可以开展药品主动监测和药物流行病学研究。然而，开展主动监测和药物流行病学调查并不等于必然能达到预期的结果，是否还存在一些挑战？首先，电子病历数据库最大的问题在于如何实现标准化和结构化。先看标准化问题。比如，詹思延团队2014年国家自然科学基金的一项研究，是关于耐多药肺结核主动监测通用数据模型构建，5省8家医院数据库都存在不一致的问题（如吡嗪酰胺有十几种写法等）。再看数据结构化处理的问题。比如肝脏损伤的不良反应不仅要观察转氨酶、胆红素指标，还需要病程记录、电子病历里很多其他数据。但文本没有实现结构化就无法使用。针对这一问题，詹思延团队与北大合作进行文本挖掘机器学习，建立了文本识别和结构化处理的一套规则。目前我国肿瘤、肾病、内分泌等学科都在开展通用数据模型的研究。

其次，城镇医保数据库还存在一定的局限性。当前我国有两大城镇医保数据库，一个是7亿人群医保数据库，詹思延团队正在使用该数据库进行罕见病发生率研究；第二个数据库是基于5%抽样的数据库，涵盖了十分详细的就诊信息。即所有医保患者每年在所有医疗机构的就诊信息。这两大数据库的局限性是缺乏结局数据，比如服药后的结果无法追踪。患者做了哪些检查和相关费用都有记录，但没有检测结果。正如上述所列出的药品安全性主动监测需要采集三组数据元素，数据库里有暴露信息，但缺乏结局信息，包含了部分协变量信息但不完整。在这种情况下能否进行药品安全性主动监测？答案是可以通过统计学方法进行主动监测。同样以肝损害为例，医师给患者开了心血管疾病用药处方，这个药可能会导致肝功能异常，但大部分医师肯定会相应开出保肝药的处方，因此在医保数据库里虽然看不到转氨酶指标改变和医师开具肝损害的诊断，但如果在某个药物后发现保肝药的处方比之前明显增加，就代表有肝损害的警戒信息。这种方法就是处方序列分析和处方序列对称分析，通过借助这种统计学分析方法可以发现肝损害警戒信息。詹思延团队在北京市科委的支持下，针对心血管系统的常用药物进行了主动监测。比如，针对他汀类药物肝脏安全性研究，在数据库里能否发现这些肝损害信息？可基于现有的、完备的处方记录数据库，通过检索、查找参考文献和引文、咨询方法学专家，对处方序列分析及处方序列对称分析，了解其引起肝功能异常的数据，根据药物的次序、频率分布来得出药物与不良事件是否存在关联。詹思延团队的硕士生已经完成了这项工作，通过数据库的处方序列分析，发现在他汀类药物使用后保肝药处方明显增多。然而仅依靠这样一个已知事实的验证远远不够，因此詹思延团队的一名博士生又针对上百种对照病例进行了系统研究，目前博士生论文还在整理中。总之，医保数据库最大的优点是基于真实世界的数据，每个参保者一年的数据累积量和总体样本量极大，有助于发现药品安全警戒信号，缺点是变量太少，不能提供直接证据。

第三，区域医疗数据库缺乏全国代表性。目前国内最成熟的区域医疗数据库（宁波鄞州卫生信息平台）囊括了3家综合性医院，24家社区卫生服务中心，285家社区卫生服务站。平台自2008年起户籍人口电子档案累计建档122.2万（98.19%），6358万条门诊就诊记录，47万条住院登记记录；每日新增门诊就诊记录2.8万条，住院平均日登记209条。平台整合了1000多张表格，4亿多条数据。詹思延团队使用这一平台进行了致癌致畸药物的研究——育龄期妇女禁用利巴韦林，但是否做到了？鄞州区门诊利巴韦林注射剂18岁至44岁育龄使用者用药情况分析结论是，妊娠诊断记录前后6个月有利巴韦林注射剂处方记录617例，占0.33%。几年来，借助这一数据库还完成了纵向队列研究，如中药区域性肝损伤的发生率研究。区域性医疗数据平台的优点是，适合常见病和常用药品的研究，社区里30%～40%的人群均存在血压、血糖、血脂“三高”问题，可进行多种健康数据、多暴露、长随访、多结局的药品监测调查，但缺点是区域性数据库缺乏全国代表性，对罕见病、非常用药物的研究难以开展。

数据库可开展药品不良反应信号发现研究

药品不良反应（ADR）信号能否被独立发现？詹思延团队采用了职业卫生统计的调查方法，建立树状扫描统计量开展ADR信号发现研究。2003年由美国首次提出并于2013年用于ADR研究。这一方法适用于纵向数据，采用在区域医疗平台上进行信号扫描的方法，同时检测大量的ADR，并调整多重检验的问题，从而发现药品不良反应信号。与一些传统检测方法相比，ADR信号发现系统具有较好的特异性，由于是队列研究，观察期可长达8 ～ 10年；且可发现和检验信号。国际上有研究者指出，他汀类药物可能引起新发的2型糖尿病增加。为研究这两者的关联是否成立，詹思延团队在鄞州区域医疗数据平台开展了一项回顾性队列研究，从9万多例患者中筛选出7万多例新用药的非糖尿病患者，将其中2万多例使用他汀类药物的患者和5万多例非他汀类药物的患者随机分为两组，随访6年观察其2型糖尿病发生率。结果显示，他汀使用组是28‰，非他汀使用组16‰，差异具有统计学意义。随后采用倾向评分技术等各种偏倚调整模型，得出他汀类药物使用与2型糖尿病相关的一致性结论，各种亚组分析也得出同样的结论。这是国内首次通过大数据平台实现了药品安全性监测的队列研究，相关文章已于2018年7月发表。综上所述，现有集成性的数据源可以支持开展药品主动监测，数据库如何链接、如何更好的学习各种数据库，尝试开发罕见病和非常用药品研究的用途，是下一步需要解决的问题。

詹思延教授最后指出，2017年起，北京大学公共卫生学院开开始搭建中国队列共享平台，提供标准化数据模型和统计分析。目前平台上已覆盖了包括药品安全性研究在内的30多个国内大型的队列研究，呼吁更多队列研究加入平台，展示优质数据资源，扩大国际影响，未来这一平台将不断促进各队列研究之间的合作共赢，打造一流的国际合作研究平台。