HNF1A和HNF1B基因遗传变异与乳腺癌遗传易感性的关联研究

2022-03-02 04:57陈佳萍马红霞
关键词:易感性遗传变异位点

陈佳萍,周 静,蒋 涛,江 玥,马红霞

1南京医科大学公共卫生学院流行病学系,江苏 南京 211166;2苏北人民医院信息处,江苏 扬州 225002;3南京医科大学公共卫生学院生物统计学系,江苏 南京 211166

据WHO 下属国际癌症研究机构(International Agency for Research on Cancer,IARC)发表的最新全球癌症发病数据报告,2020 年全球乳腺癌新发病例高达226万例,约占全球女性新发肿瘤的25%,乳腺癌已成为全球第一大癌症[1]。我国虽属乳腺癌传统低发病区,但近年来我国乳腺癌发病率呈现快速增长趋势,2020 年中国女性新发乳腺癌约42 万例,占女性新发肿瘤的20.1%,是我国女性中发病率最高的恶性肿瘤[1]。因此,乳腺癌在我国和世界范围内都是危害人类健康的重要公共卫生问题。

目前的研究表明,乳腺癌的发生发展是一个多因素、多阶段的过程,是环境因素和遗传因素共同作用的结果。宏观流行病学研究表明,乳腺癌发生的环境危险因素主要包括月经生殖因素(初潮早、绝经晚、未经产等)、生活方式(高饱和脂肪酸摄入、吸烟饮酒等)以及外源性雌激素暴露因素(口服避孕药和雌激素替代治疗)等[2]。但在相同生活环境暴露下,仅有小部分个体发生乳腺癌,说明遗传因素与乳腺癌发生有着密切的相关性。

肝细胞核因子1(hepatocyte nuclear factor 1,HNF⁃1)转录因子家族包括HNF1A(也称为TCF1)和HNF1B(也称为TCF2)。这两个基因分别位于染色体12q24.31 和染色体17q12 上,在人体肝脏、胰腺、肾脏及睾丸等许多组织中表达,能与百余个基因的启动子区相结合,是脂蛋白代谢及糖激胰岛素分泌基因的重要上游调控因子[3-4]。最近的研究证实,HNF1A 和HNF1B 可通过调控关键信号通路效应因子的表达,进而特异性激活或抑制信号通路,促进肿瘤细胞生长、诱导上皮细胞间质转化、抑制细胞凋亡,在多种肿瘤的发生发展过程中发挥重要的作用[5-7]。HNF1A 和HNF1B 基因是人类多个常见疾病及临床症状的易感基因,如HNF1A 基因单核苷酸多态性与糖尿病、高血压、血脂异常、血清尿酸异常、胰腺癌等疾病发病风险呈现显著关联[8-11]。HNF1B 单核苷酸多态性与前列腺癌、卵巢癌、子宫内膜癌等疾病的发病风险密切相关[12-15]。在乳腺癌的研究中,Humberto 等[16]研究发现HNF1B 基因遗传变异与高加索人群乳腺癌的发病风险密切相关。在中国人群中,HNF1A 和HNF1B 基因与乳腺癌的关联性研究报道较少。研究HNF1A 和HNF1A 基因单核苷酸多态与中国人群乳腺癌发病之间的关联性,分析基因与环境交互在乳腺癌发生发展中的作用,对于指导中国人群乳腺癌预防和治疗具有重要的理论和现实意义。

1 对象和方法

1.1 对象

1.1.1 样本收集

本研究中所涉及乳腺癌病例⁃对照样本为相互间无血缘关系的女性汉族人群,来自江苏南京及周边地区,共包括1 064 例经病理组织学确诊的乳腺癌病例及1 125 例无肿瘤病史的社区健康对照人群。病例为2004年1月—2010年4月在江苏省肿瘤医院、南京医科大学第一附属医院、南京市鼓楼医院经病理组织学确诊的新发乳腺癌病例。正常人群对照随机选自同时期参加江苏省社区慢性病筛查的正常人群(无肿瘤病史),按年龄(±5岁)与病例进行频数匹配。所有参与的研究对象均进行流行病学调查并签署知情同意书。本研究经南京医科大学伦理委员会批准,批准号为FWA00001501。

1.1.2 资料收集

使用统一规范设计的女性健康状况调查表格,对研究对象进行面访调查。调查内容包括:一般人口学资料、月经婚育史、饮食习惯、既往疾病史、一级亲属(父母、兄弟姐妹和子女)肿瘤患病史等。乳腺癌病例的雌激素受体(ER)/孕激素受体(PR)状态信息从确诊病理报告中获取。调查表及相关资料使用Epidata 3.1软件双轨录入。

1.2 方法

1.2.1 基因多态位点的选择

利用Hapmap 数据库筛选HNF1A 基因和HNF1B基因上下游2 kb的遗传变异,所有单核苷酸多态性(SNPs)在中国人群中最小等位基因频率(MAF)均大于等于5%,若位点间存在较强的连锁不平衡,仅取其中一个位点。通过Haploreg V4.1,SNP info 和Regulome DB 等生物信息学工具筛选潜在功能性遗传变异,最后筛选出HNF1A 和HNF1B基因上6 个SNPs 遗传变异(rs2464196,rs7310409,rs1183910,rs1169288,rs4430796,rs7501939)进行基因分型。

1.2.2 基因型检测

分别收集病例和对照样本空腹静脉血5 mL,采用常规酚氯仿法提取基因组DNA。利用Illumina Infinium®BeadChip(Illumina 公司,美国)平台对1 064 例乳腺癌病例和1 125 例正常女性对照进行基因分型检测,Genome Studio(v2011.1)软件对芯片的荧光信号进行判读,按照多态位点分型成功率(≥95%),研究对象是否存在亲缘关系对芯片的分型结果进行质量控制,排除32 例病例和62 例对照样本,具体筛选标准和流程详见Zhou 等[17]的报道。最终,1 032例乳腺癌病例和1 063例健康女性对照被纳入进一步的统计分析。

1.2.3 生物信息学分析

采用Genotype⁃Tissue Expression(GTEx)v8 数据库(http://www.gtexportal.org/)对候选位点进行表达数量性状基因座(expression quantitative trait loci,eQTL)分析,其中包含396 例正常乳腺组织样本。在GTEx 网站下载乳腺组织中HNF1A 和HNF1B 基因的表达数据,并利用dbGaP 数据库(dbGaP Acces⁃sion phs000424.v8.p2)中候选位点的基因分型数据进行eQTL分析。

1.3 统计学方法

采用R 软件(3.2.3 版本)进行统计结果分析。卡方检验或独立样本t检验比较样本年龄构成、月经生殖因素以及所选多态位点基因型频率在乳腺癌病例组和对照组间的分布。单因素和多因素Lo⁃gistic 回归模型计算多态位点与乳腺癌发病风险的关联强度,计算比值比(odds ratio,OR)及其95%可信区间(confidence interval,CI)。针对阳性的多态位点,分别以年龄、初潮年龄、首胎活产年龄、绝经年龄、绝经状态、ER 和PR 状态进行分层分析,采用基于卡方分布的Q检验计算各亚组间的异质性。所有统计学检验均为双侧检验,P<0.05 为差异有统计学意义。

2 结果

2.1 研究对象基本特征

本研究中1 032 例乳腺癌病例和1 063 例健康女性对照的年龄、月经生育情况以及病例组中ER、PR 分布特征如表1 所示。乳腺癌病例组和对照组之间年龄分布匹配均衡(P=0.078),病例组的初潮年龄显著低于对照组(P<0.001),而首胎活产年龄显著高于对照组(P<0.001)。病例组和对照组在女性绝经状态(未绝经、自然绝经、非自然绝经)的分布具有显著统计学差异(P<0.000 1)。乳腺癌病例组中ER阳性患者和阴性患者分别为460例和373 例,PR阳性患者和阴性患者分别为469例和360例。

表1 研究对象的一般特征在乳腺癌病例组和对照组中的分布Table 1 Characteristics of breast cancer patients and can⁃cer⁃free controls

2.2 HNF1A和HNF1B基因遗传变异与乳腺癌发病风险之间的关联

采用显性、共显性、隐性及相加模型分析HNF1A 和HNF1B 基因遗传变异与乳腺癌易感性之间的关系(表2、3)。如表2 所示,在调整了年龄、初潮年龄、绝经状态后,位于HNF1A 基因外显子区的rs2464196(G>A)位点可显著降低乳腺癌的发病风险(OR=0.80,95%CI:0.71~0.91,P=7.45×10-4,相加模型)。另外,位于HNF1A 基因内含子区的2 个多态位点与乳腺癌发病风险显著相关,rs1183910(G>A)(OR=0.87,95%CI:0.77~0.99,P=0.039,相加模型),rs7310409(G>A)(OR=0.86,95%CI:0.76~0.98,P=0.023,相加模 型)。进一步通过FDR校正后,rs1183910和rs7310409未达到统计显著(P=0.078和P=0.068),rs2464196 仍与乳腺癌易感性显著相关(P=4.47×10-3)。同时,通过不同Logistic 模型分析rs2464196 与乳腺癌遗传易感性的关系,rs2464196在显性、隐性、共显性各模型下均可显著降低乳腺癌的发病风险(OR=0.72,95%CI:0.59~0.88,P=1.43×10-3,显性模型;OR=0.78,95%CI:0.63~0.97,P=0.023,隐性模型;OR=0.75,95%CI:0.61~0.93,P=9.38×10-3,OR=0.65,95%CI:0.50~0.84,P=9.13×10-4,共显性模型)。

表2 HNF1A、HNF1B基因遗传变异与乳腺癌遗传易感性的关联研究结果Table 2 Associations ofgenetic variants in HNF1A and HNF1B genes with breast cancer risk

2.3 HNF1A和HNF1B基因遗传变异分层分析

根据关联研究结果,对rs2464196 位点以年龄、初潮年龄、首胎活产年龄、绝经状态以及ER 和PR状态为分层因素,分析各亚组中该位点基因型与乳腺癌发病风险的关联。如表4所示,rs2464196位点在年龄、初潮年龄、首胎活产年龄各亚组中与乳腺癌发病风险均显著相关(P<0.05)。此外,rs2464196 在未绝经和绝经状态中与乳腺癌发病风险呈显著相关(P=0.036和0.021)。在不同乳腺癌亚型中,rs2464196 与ER 阳性乳腺癌发病显著相关(P=0.002),在PR 分组中均显示显著相关(P=0.018和0.011)。异质性检验分析显示,rs2464196在所有乳腺癌亚组分层间中均不存在异质性(P>0.05)。

表4 rs2464196位点与乳腺癌发病风险的分层分析Table 4 The associations of the SNP rs2464196 with breast cancer risk in subgroups divided by characteristics

表3 Rs2464196位点在不同基因模型下与乳腺癌遗传易感性的logistic回归分析Table 3 Associations between the SNP rs2464196 and breast cancer risk in different genetic models by Logistic analysis

2.4 候选遗传变异位点eQTL分析

利用GTEx v8数据库,对rs2464196多态位点上下游1 Mb 以内的基因进行eQTL 分析。结果如图1所示,在正常乳腺组织中,rs2464196 位点G>A 的改变可显著降低C12orf43、SPPL3 基因的表达(P=3.2×10-5,P=0.046)。由于HNF1A 基因在GTEx v8 数据库乳腺组织中的表达较低,中位TPM(transcripts per million)表达值为0.017,rs2464196 位点与本体基因HNF1A的eQTL值无法计算。

图1 rs2464196位点在乳腺组织中的eQTL分析(GTEx数据库)Figure 1 eQTL analysis of the SNP rs2464196 in breast mammary tissues with the GTEx database

3 讨论

本研究采用病例对照研究设计,探讨了肝细胞核因子HNF1A 基因上4 个遗传变异(rs2464196、rs1169288、rs1183910、rs7310409)和HNF1B 基因上2 个遗传变异(rs4430796、rs7501939)与乳腺癌的遗传易感性。研究结果显示,位于HNF1A基因外显子区的rs2464196 遗传变异可显著降低乳腺癌的发病风险。此外,在GTEx 数据库的正常乳腺组织中,rs2464196 位点显著影响了相邻基因C12orf43、SP⁃PL3的表达。

HNF1A 基因位于染色体12q24.31 上,包含9 个外显子,其蛋白由631个氨基酸组成,含有3个功能结构域:二聚体结构域、DNA 结合结构域以及反式激活结构域。作为多个基因的转录因子,该基因在人体的多个组织如肝脏、胰腺、肾脏及睾丸中表达,是胆汁酸、血浆胆固醇代谢相关基因的重要上游调控因子[4]。目前研究报道,HNF1A基因为多个复杂性疾病的易感基因,如糖尿病、冠状动脉疾病、高血压、血脂异常、代谢综合征、胰腺癌等[8-11]。其中HNF1A上最常见的4个遗传变异,编码区的rs1169288 位点(A/C,Ile27Leu)、rs2464196位点(G/A,Ser487Asn)以及内含子区的rs7310409位点(G/A)、rs1183910位点(G/A)报道与C反应蛋白水平、冠状动脉疾病、糖尿病、酒精性脂肪肝的遗传易感性密切相关[18-21]。本研究结果显示,HNF1A 基因上的rs2464196、rs1183910 以及rs7310409多态位点可显著降低乳腺癌的发病风险(P=7.45×10-4,P=0.039,P=0.023),进一步通过FDR 校正后,rs2464196 位点与乳腺癌遗传易感性仍然存在着显著的相关性(P=4.47×10-3)。

rs2464196 位点(G/A,Ser487Asn)位于HNF1A基因第7 外显子上,反式激活结构区域。Li 等[22]研究报道,在中国健康人群和肝癌患者中,rs2464196位点的A等位基因与血清AFP水平降低具有显著相关性。Morjane等[23]在摩洛哥人群研究中,rs2464196 G>A 的改变,可显著增加代谢综合征的发病风险,并且在女性人群中携带A 等位基因与高甘油三酯发生率密切相关。此外,多项研究结果表明rs2464196 位点的改变与血清C 反应蛋白浓度异常、冠状动脉疾病、糖尿病的遗传易感性密切相关[10,19-20]。目前rs2464196 位点与乳腺癌相关的研究报道较少。本研究结果表明,rs2464196位点的次要等位基因A在人群中能够降低乳腺癌的发病风险,是一个保护性等位基因(OR=0.80)。进一步分层分析,发现rs2464196 位点在年龄、初潮年龄、首胎活产年龄各亚组中与乳腺癌发病风险均显著相关,在年龄较大、月经初潮晚、初次生育早的亚组中降低乳腺癌发病风险的效应更为显著。根据I⁃Mu⁃tant 和iStable 生物信息学在线分析,rs2464196(Ser487Asn)的改变表现为良性的氨基酸变化,可增加本体HNF1A 蛋白的稳定性。eQTL 分析显示rs2464196 多态位点与正常乳腺组织中的C12orf43基因和SPPL3基因表达相关。C12orf43基因、SPPL3基因与HNF1A基因在染色体上位置比较接近,其中C12orf43 与HNF1A 基因相距仅为1 kb。通过检索GEPIA数据库,发现C12orf43、SPPL3基因与HNF1A基因在乳腺癌组织样本中存在较强的线性关系(C12orf43,r=0.18,P=7.3×10-10;SPPL3,r=0.12,P=2.6×10-5)。这些结果提示,rs2464196位点可能通过调控邻近C12orf43和SPPL3基因间接调控本体基因HNF1A,在乳腺癌的发生发展过程中发挥了重要的作用。

总之,本研究发现HNF1A 基因上的多态位点rs2464196与乳腺癌发病风险显著相关,提示该位点可能是中国人群乳腺癌的潜在遗传易感标志物。本研究的局限性在于样本量相对偏小,且全部来自江苏地区,研究结果的外推性可能受到限制,需要进一步在不同人群中进行验证。此外,rs2464196多态位点和HNF1A 基因在乳腺癌发生发展中的确切作用机制有待进一步阐明。

猜你喜欢
易感性遗传变异位点
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
DNA脱碱基位点的检测方法及其生物学研究进展
多环境下玉米保绿相关性状遗传位点的挖掘
葡萄醇酰基转移酶编码基因遗传变异研究
PTSD易感性人格特质、工作记忆能力和创伤期间认知加工对模拟创伤闪回的影响*
一种改进的多聚腺苷酸化位点提取方法
轮状病毒感染性腹泻易感性与维生素D3水平关系研究
基于改进粒子群优化算法的电动汽车最优充放电策略研究
建构“软磁铁模型”突破教学难点的课例分析
HLADR/DQ基因与类风湿关节炎的易感性研究进展