整合转录组学识别食管鳞癌关键基因细胞周期蛋白依赖性激酶抑制因子3

2021-03-21 12:17王万鹏张启迪傅承宏陈皓瑜周素芹刘艳艳何中祥
医学信息 2021年5期
关键词:高通量细胞周期模块

王万鹏,张启迪,傅承宏,陈皓瑜,周素芹,刘艳艳,何中祥,宋 坚,濮 娟

(1.南京医科大学康达学院附属涟水人民医院放疗科,江苏 淮安 223400;2.南京医科大学康达学院附属涟水人民医院中心实验室,江苏 淮安 223400;3.上海交通大学医学院附属上海市第一人民医院消化科,上海 200080)

食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)占食管癌中的约90%,是起源于食管鳞状上皮系统的恶性肿瘤,其发病是多阶段、多基因、多步骤的联合作用导致[1]。随着肿瘤大数据的普及,网络公共平台也提供了大量的肿瘤组学数据,为研究肿瘤的生物学本质提供了极大的便利。但单个研究样本量较小,且各研究间存在批次、标本获取方法、实验目的或实验条件的不同,结果差异较大。虽然不同的数据整合方法也相继出现,但由于每种方法都有各自的不足,限制了其广泛应用[2]。本研究采用秩聚合(RRA)方法整合来自公共平台的多套ESCC 表达谱数据,在获取相关差异表达基因(DEGs)后通过构建蛋白互作(PPI)网络进行基因模块挖掘,使用TCGA 数据库中的ESCC 表达数据及免疫组化方法加以实验验证,以期寻找影响ESCC 发病机制的关键基因,为进一步探究ESCC 生物标志物和分子靶点提供新的科学思路。

1 资料与方法

1.1 资料来源 收集基因表达综合数据库(gene expression omnibus,GEO)中ESCC 转录组表达谱数据原始文件(raw data)。收集标准:包含癌组织及及癌旁组织且各组至少包含3 例。共收集到9 个系列的ESCC 表达谱数据:GSE77861、GSE77861、GSE100942、GSE26886、GSE17351、GSE38129、GSE33426、GSE20347、GSE23400。各数据集资料见图1。

图1 9 个ESCC 表达谱数据

1.2 数据预处理及整合转录组学差异基因分析 采用R 语言(3.6.2 版)中的Affy 包对原始数据进行预处理,包括ReadAffy 函数读取原始文件,RMA 函数归一化及对数化,KNN 法补充缺失值[3],若多个探针对应同一基因名称,则采用平均值法得到基因表达值。limma 包进行差异表达值计算,贝叶斯法多重检验校正,得到不同数据集中各基因的校正P 值及倍数变化(FC)对数值的绝对值,即|Log2FC|。得到9 个差异表达矩阵后,使用R 语言包“Robustrankaggreg”对数据集中的基因进行整合,“Robustrankaggreg”包是基于RRA 方法,该方法基于不相关输入的无效假设筛选出持续优于预期的基因,最终通过贝叶斯校正得出各基因的矫正P值[2]。各基因的Log2FC 由各数据集中基因的Log2FC 平均值得出。最终选择阈值为|Log2FC|≥1.5,P<0.05 的基因作为DEGs。

1.3 蛋白互作(PPI)网络构建和模块挖掘 应用STRING(https://string-db.org/)数据库分析所得DEGs 的蛋白互作网络,阈值设置为confidence score≥0.4,并通过Cytoscape 3.5.1 软件进行可视化处理。使用插件Molecular Complex Detection(MCODE)对PPI 网络进行模块分析,参数设置为节点度阈值(degree cutoff)>5,邻节点个数(k-core)>5,余均为默认设置。

1.4 关键基因mRNA 水平验证 关键基因的mRNA表达水平验证使用来自TCGA 数据库中ESCC 数据。从UCSC 癌症基因组浏览器(http://xena.ucsc.edu/welcome-to-ucsc-xena/)中下载来源于TCGA 的食管癌表达数据及对应样本的临床资料,数据集名为“GDC TCGA Esophageal Cancer(ESCA)”,该数据集基于IlluminaHiSeq RNASeq V2 高通量RNA 测序平台,表达数据已经经过归一化的相对值。提取其中具有临床资料的81 例ESCC 患者癌组织和11 例对照的数据进行分析。

1.5 病例收集 收集我院2013 年1 月~2015 年12 月就诊的184 例ESCC 患者病理资料及蜡块,其中男157 例,女27 例,年龄36~86 岁。纳入标准:①经过我院病理科证实病理类型为ESCC;②取样本前均未行放化疗;③入院前无感染病史和血液性疾病。排除标准:①临床资料不全者;②伴随严重感染或者自身免疫性疾病者。另外收集同期50 例癌旁组织(距离癌组织边缘5 cm 以上)作为对照。

1.6 免疫组织化学检测蛋白表达 CDKN3 抗体购自美国Abcam 公司(货号:ab175393)。石蜡块来自于我院病理科长期保存,制成4 μm 组织切片,常规脱蜡、水洗后与加入一抗(1∶200),于4 ℃湿盒内过夜。二抗37 ℃孵育30 min、PBS 液清洗后滴加辣根过氧化物酶并于37 ℃温箱内孵育30 min,DAB 显色,苏木素复染细胞核、封片。以肿瘤细胞染色强度和阳性细胞比例进行计分,评分标准按照文献[4]。

1.7 统计学分析 使用SPSS 22.0 整理及分析数据,Graphpad prime 5 制作统计图片。计数资料使用KS 检验检测正态分布情况,符合正态分布的计量资料使用()表示,组间比较采用t检验;偏态分布资料使用四分位间距(IQR)表示,组间比较使用Mann-Whitney 检验;计数资料使用(n,%)表示,若出现理论频次小于5 则使用Fisher 确切概率法计算相应的χ2值和P值。所有P值均为双尾检验,P<0.05 认为差异有统计学意义。

2 结果

2.1 整合转录分析识别差异表达基因 对GEO 数据库中下载得到的9 套基因表达谱进行整合分析后,以|Log2FC| ≥1.5、P<0.05 为标准,共得到ESCC 相关DEGs 244 个,其中上调93 个、下调151 个。上调和下调排名前10 位的基因见图2。

2.2 PPI 网络构建和模块挖掘 将得到的244 个DEGs 输入STRING 数据库,共得到194 个节点、864个连接的PPI 网络,见图3A。为了进一步探究PPI网络中可能存在的具有核心意义的蛋白互作模块,利用Cytoscape 软件中的MCODE 插件在网络中进行了模块挖掘和分析,结果显示得分最高(score=23.304)的蛋白模块包含24 个节点和268 个连接,见图3B,其中种子(seed)基因为细胞周期蛋白依赖性激酶抑制因子3(Cyclin-dependent kinase inhibitor 3,CDKN3)。

2.3 CDKN3 mRNA 在ESCC 中的表达验证 TCGA数据库分析结果示,ESCC 组织中CDKN3 相对表达量为3.291(IQR:2.833~3.659),11 例对照组织相对表达量为1.184(IQR:0.734~1.720),两者比较,差异有统计学意义(U=18.000,P<0.05),见图4A。受试者工作特性曲线(ROC)结果显示,曲线下面积(AUC)为0.980,以2.149 为截断值,其特异性为90.91%(95%CI:58.72%~99.77%),敏感性为92.59%(95%CI:84.57%~97.23%),见图4B。

图2 ESCC 差异表达基因

图3 蛋白互作用网络构建

图4 CDKN3 mRNA 在ESCC 及癌旁组织中的表达

2.4 CDKN3 蛋白在ESCC 中的表达 免疫组织化学法检测结果显示,50 例对照组织中CDKN3 蛋白阴性表达34 例(68.00%),阳性表达16 例(32.00%);184 例ESCC 组织中,阴性表达71 例(38.59%),CDKN3 阳性表达113 例(61.41%),ESCC 组织中CDKN3 蛋白阳性表达率高于对照组织,差异有统计学意义(χ2=13.750,P<0.05),见图5。

图5 CDKN3 在ESCC 及癌旁组织中的表达(×400)

2.5 CDKN3 蛋白表达与ESCC 患者临床病理特征的关系 单因素分析显示,不同性别、年龄、T 及M 分期的ESCC 患者CDKN3 蛋白表达比较,差异无统计学意义(P>0.05);不同N 分期及临床分期的ESCC患者CDKN3 蛋白表达比较,差异有统计学意义(P<0.05),见表1。

表1 CDKN3 蛋白表达与ESCC 患者临床特征关系(n)

3 讨论

虽然与过去相比,ESCC 的诊断及治疗手段已明显进步,但由于其起病隐匿及高度恶性的特点,患者预后仍很差,约10%的患者被诊断时已为晚期,肿瘤已扩散到其他器官[5,6]。近年来,随着微阵列和高通量测序技术的不断发展,肿瘤研究进入大数据时代,通过高通量技术对肿瘤的检测不仅可以明确其遗传学改变,还可以了解肿瘤患者的个体化情况,辅助肿瘤个体化治疗。但对于不同的研究,其重复性仍然不能令人完全满意,主要原因如下:①各单独实验所包含的疾病例数较少;②各中心标本取材、存储手段及条件等客观因素的存在,因此标本质量也无法完全一致;③各中心的高通量数据往往基于不同的平台。因此,不同中心所得出的高通量数据之间无论是在数据表达还是数据构成上均存在差异,这种差异易造成假阳性及假阴性的产生。

基于此,面对各种不同平台提供的海量高通量数据,一方面给予研究人员提供了极大的便利,一方面又对于数据整合方法提出了新的要求。目前常用的数据整合方法主要包括:①通过分析不同表达谱的差异基因[7],然后取得交集。虽然这种方法非常可靠,但在操作易丢失大量的信息,产生假阴性;②可采用R 语言sva 包中combat 函数去除批次效应[8],但这种方法存在一定的缺点:需要被合并的表达矩阵必须具有相同的探针,因此只能在同一平台内合并,跨平台整合数据则无法实现,最终仍需要取得基于不同平台的DEGs 交集。本研究采取秩聚合方法进行整合不同表达谱,主导思想是通过不同实验的差异分析结果,优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法[2]。因此,秩聚合方法可以成为这一类问题有用且通用的解决方案,通过这种方法不再受限于平台,同时又可以扩大样本量。最终本研究得到DEGs 共244 个,其中多个基因已经被报道在ESCC 中发挥着重要作用,如MMP1[9]、MAGEA6[10]、MAL[11]等,该结果从侧面说明了秩聚合方法的可靠性。

ESCC 发生机制极其复杂,涉及多种通路及因子,但传统的生物学研究以单基因或蛋白为出发点,难以对系统进行全面的探索。基于此,本研究通过构建由DEGs 组成的PPI 网络,并挖掘其中重要的基因互作模块,结果显示其中最重要的PPI 模块由FOXM1[12]、DTL[13]等24 个基因构成的模块,既往研究也显示其中很多基因也被认为是ESCC 相关基因。进一步分析显示,该基因模块的中心基因为CDKN3,因此可以推断其生物功能在ESCC 的发生发展中具有核心地位。CDKN3 是一种细胞周期调控蛋白,可直接或间接与细胞周期蛋白依赖性激酶(cyclin-dependent protein kinase,CDK)等细胞周期调控因子作用,参与细胞周期调控,因此与多种肿瘤的发生发展密切相关[14]。本研究结果显示,ESCC 组织中CDKN3 mRNA 表达量较正常组织升高;以2.149为截断值,CDKN3 mRNA 对于ESCC 具有较高的诊断价值,其特异性为90.91%,敏感性为92.59%。此外,通过免疫组织化学,进一步验证了CDKN3 在蛋白水平的表达异常,初步提示CDKN3 可能参与ESCC 的进展。同时,有研究已经在细胞水平证实CDKN3 可以通过依赖或非依赖的AKT 信号通路参与ESCC 的增殖、侵润及转移,这也在分子水平佐证了本研究所用生物信息学方法的可靠性。

综上所述,CDKN3 在食管鳞状细胞癌组织及癌旁组织中表达存在差异,其可能是食管鳞状细胞癌的关键基因;另外,CDKN3 的表达与患者N 分期及临床分期有关,其可作为临床诊断食管鳞状细胞癌的生物标志物。

猜你喜欢
高通量细胞周期模块
高通量卫星网络及网络漫游关键技术
28通道收发处理模块设计
“选修3—3”模块的复习备考
高通量血液透析临床研究进展
Ka频段高通量卫星在铁路通信中的应用探讨
红霉素联合顺铂对A549细胞的细胞周期和凋亡的影响
中国通信卫星开启高通量时代
NSCLC survivin表达特点及其与细胞周期的关系研究
X线照射剂量率对A549肺癌细胞周期的影响
熊果酸对肺癌细胞株A549及SPCA1细胞周期的抑制作用