单细胞测序技术及其应用综述

2022-12-31 04:56张成鹏

河南科学 2022年9期

张成鹏

（河南省科研平台服务中心，郑州 450000）

单细胞测序（Single Cell Sequencing，SCS）技术是指单细胞基因组或转录组的测序，从而获得基因组、转录组或其他多细胞信息，以揭示细胞种群差异和细胞进化关系. 通过对单个细胞的全基因组、转录基因组和表观基因组进行测序，可以揭示疾病发生和进展所涉及的复杂异质机制，进一步改善疾病诊断、预后预测和药物治疗效果的监测. 传统的测序方法只能得到许多细胞的平均值，无法分析少量细胞并丢失细胞异质性信息. 与之相比，单细胞技术可以检测单个细胞间异质性、区分少量细胞和绘制细胞图. 然而，早期的单细胞测序由于成本高而限制了其广泛使用，但随着研究的不断发展，许多新的单细胞测序方法被开发出来，降低了单细胞测序的成本阈值. 目前，单细胞测序技术越来越多地应用于各个领域.

1 单细胞测序技术

SCS技术旨在通过下一代测序识别单个细胞的基因组序列信息，并获取细胞之间遗传物质和蛋白质差异的信息，从而更好地了解单个细胞在微环境中的功能. SCS主要涉及以下四个步骤：单细胞分离、核酸扩增、高通量测序和数据分析，其中单细胞分离和核酸扩增是核心技术.

1.1 单细胞分离

SCS 的第一步是将单个细胞从组织样本中分离出来，以获得合格的单细胞悬浮. 目前，许多技术方法已用于单细胞分离，其中包括连续稀释法、显微操作法、荧光激活细胞分选（Fluorescence-activated Cell Sorting，FACS）、免疫磁珠分离（Immunomagnetic Bead Separation，IMS）、激光捕获显微切割技术（Laser Capture Microdissection，LCM）和微流控平台. 这些方法各具优点和缺点，研究人员可根据单细胞的具体情况选择合适的分离方法.

1.1.1 连续稀释法

该方法基于细胞培养原理，单细胞样本通过稀释细胞群一系列倍数来制备. 由于其操作方便、成本低廉、具有特殊装置的独立性，该方法已成功应用于来自体外不同组织的干细胞和祖细胞的克隆形成分析［1-2］.而这种方法有以下缺点：严重依赖梯度稀释的计算；很容易发生分离错误或细胞丢失的情况；该方法耗时长，通量率低，无法准确过滤目标细胞.

1.1.2 显微操作法

显微操作法是分离未培养的微生物或早期胚胎的经典方法，它使用毛细管移液器从细胞悬架中吸出单个细胞，在显微镜下对细胞形态和着色特性进行目视检查［3-4］. 机械微操作的缺点是，吞吐量低，耗时长，在操作过程中机械剪切会导致细胞损伤.

1.1.3 荧光激活细胞分选

荧光激活细胞分选技术可根据单个细胞的大小、粒度和荧光特性每分钟分离数十万个细胞. 高吞吐量、省时性和自动性能是它的主要优势. 此外，研究人员可通过给靶细胞贴上特定荧光抗体的标签，将特定的单个细胞与异质细胞样本分离［5］. 虽然分拣过程复杂，但这种实验技术已经成熟，有统一的标准遵循.

1.1.4 免疫磁珠分离法

在免疫磁珠分离法中，磁珠可以将细胞表面抗原与特定的单克隆抗体结合. 与磁珠相连的表面抗原细胞被吸附并保留在磁场中，但未与磁珠相连的细胞不会留在磁场中，因此目标细胞可以快速分离. 虽然此操作相对复杂，但它已经被用来从肿瘤样本中分离单细胞［6］.

1.1.5 激光捕获显微切割技术

激光捕获显微切割技术通过用激光束熔化透明膜盖，然后冷却后将细胞固定在胶黏膜上，从而能够快速准确地从组织样本中获取单细胞亚群或单细胞悬浮液，从而进一步分析细胞异质性. 在倒置显微镜下，目标组织切片或细胞有选择地固定在激光脉冲活性热塑性膜（醋酸乙烯、聚乙烯四乙酸盐酯或聚乙二醇四磷酸盐膜）上的涂片中［7］. 该技术可以显示细胞的空间位置，并快速准确地分离细胞，而无须细胞悬浮. 然而，激光捕获显微切割技术尚有成本高、通量低、缺乏自动化和精度有限等缺点. 另外，细胞核很容易被切割，导致在该过程中会丢失一些染色体片段，并且切割过程中可能会涉及相邻细胞的原生体成分或受损的细胞核. 大多数RNA在准备单细胞悬浮时会降解，因此这种方法不适合进行转录分析.

1.1.6 微流控平台

微流控平台是一种新开发的高度集成的系统，可按顺序处理或操纵少量流体在尺寸为几十到几百微米的通道中实现单细胞培养和测序，该通道已应用于单细胞实验［8-9］. 微流体的优点是能够输入纳升到皮升的样品量，并输出高分辨率和灵敏度的准确结果［8］. 此外，微流控可以进行平行和快速地分析，提高研究效率.

1.2 核酸扩增

核酸扩增是通过酶的作用将待检核酸序列进行扩增，包括全基因组扩增和全转录组扩增.

1.2.1 全基因组扩增

为了在单个细胞中均匀扩增基因组DNA，已经开发了全基因组扩增（Whole Genome Amplification，WGA）方法［10］，包括简并寡核苷酸引发的聚合酶链反应（Degenerative Oligonucleotide PCR，DOP-PCR）、多重置换扩增（Multiple Displacement Amplification，MDA）和多重退火和基于环的扩增循环（Multiple Annealing and Loop Based Amplification Cycles，MALBAC）. MDA是一种利用具有链置换活性和高保真度的聚合酶的方法，可以实现基因组的高覆盖率，但会产生不均匀的扩增. MALBAC以其独特的准线性扩增特征，减少了指数扩增加剧的序列依赖性偏差且已应用于单细胞转录组测量［11］. DOP-PCR 通常会产生低基因组覆盖率，但DOP-PCR 非常适合在具有100万个碱基的大型基因组规模上测量CNV［1］.

1.2.2 全转录组扩增

SMART-seq［12］是一种利用寡核苷酸引物和模板切换进行全长cDNA 扩增的全转录组扩增（Whole Transcriptome Amplification，WTA）方法. SMART-Seq24、Quartz-seq5 和CEL-seq6 也已经被开发出来，可以稳定地测量单个细胞的mRNA. 尽管存在多种WTA方法，但因其需处理成百上千个单细胞和少量液体，所以进行scRNA-seq仍存在一定难度.

1.3 高通量测序

高通量测序包括单细胞基因组测序、转录组测序和表观遗传学测序，可以揭示细胞在不同阶段、不同方面的功能和特征. 这种方法可以同时对数百万个DNA分子进行测序，从而有可能全面分析物种的转录体和基因组，通过提高测序速度和降低测序成本，有效提高了我们确定和诊断人类疾病根本原因以及评估复杂疾病风险的能力.

1.3.1 单细胞基因组学测序

单细胞基因组测序能够阐明遗传异质性，它可用于分析正常细胞和癌细胞中的新生种系突变和体细胞突变. 突变在细胞中独立积累并导致衰老和疾病，例如发育疾病和癌症. Zhang等［13］报告了一项关于B淋巴细胞体细胞突变的单细胞全基因组测序研究，并观察到体细胞突变随年龄增长而积累以及与B细胞癌的致癌性有关的突变特征.

1.3.2 单细胞转录组学测序

scRNA-seq 允许比较单个细胞的转录组. 因此，scRNA-seq 的一个主要用途是评估细胞群内转录的相似性和差异. RNA-seq 实现了高通量基因表达谱分析，可以深入了解基因型和表型之间的功能联系［14］.RNA-seq 分析通常测量细胞混合物（称为“批量”）中的转录本. 批量RNA-seq 分析允许仅测量细胞群中的平均转录表达. 例如，在癌症组织的RNA-seq 中，分析了来自各种类型细胞的转录本，包括肿瘤细胞、免疫细胞、成纤维细胞和内皮细胞. 为了测量单个细胞中的转录物，必须从极少量的RNA中进行逆转录（Reverse Transcription，RT）和cDNA扩增［15］.

1.3.3 单细胞表观遗传学测序

单细胞表观基因组测序用于检测单个细胞分化足迹. 通过阐明细胞的表观基因组状态，如DNA甲基化和染色质状态，我们可以观察单个细胞的细胞谱系和分化状态. 单细胞DNA 甲基化分析可以通过单细胞亚硫酸氢盐测序（single cell Bisulfite Sequencing，scBS-seq）和单细胞减少代表性亚硫酸氢盐测序（single cell Reduced Representation Bisulfite Sequencing，scRRBS）进行分析［15］. Smallwood 等［16］报道了一种scBS-seq方法，可用于精确测量高达48.4%的CpG 位点的DNA 甲基化. Guo 等［17］描述了一种甲基化组分析技术，该技术能够基于scRRBS进行单细胞和单碱基分辨率DNA甲基化分析. 研究染色质状态，可以使用多种方法来测量单个细胞中组蛋白修饰的模式. Rotem等［18］用单细胞ChIP-seq揭示由染色质状态定义的细胞亚群.单细胞ChIP-seq 可以通过称为Drop-ChIP 55的基于液滴微流体的程序进行. Grosselin 等［19］最近进行了单细胞染色质免疫沉淀和测序（single cell Chromatin Immunoprecipitation followed by sequencing，scChIP-seq），以分析患者来源的乳腺癌异种移植物（Patient-Derived Xenograft，PDX）的H3K27me3 染色质景观和特征.Kaya-Oku 等［20］描述了靶标和标记下的裂解（CUT&Tag），这是一种酶系链策略，可提供高效的高分辨率测序文库，用于分析不同的染色质成分.

1.4 数据分析

1.4.1 单细胞基因组测序数据分析

获得带有测序读数的文件后，数据分析的第一步是映射到参考基因组［21］. 大多数模式生物的基因组DNA序列可以从各种在线数据库中轻松获得. 在映射之前，建议检查读取质量并修剪低质量碱基以及读取末尾的剩余适配器序列. 但是，如果剩余读取长度太短，则应丢弃读取以避免错误映射，此外，建议删除PCR重复项. 执行映射后，映射到多个基因座的读数应被丢弃或计数，每个基因座的统一权重降低，以便每个读数的权重加起来为1，后续处理取决于分析类型. 为了确定CNV，可以通过将基因组分割成Bin来减轻读取覆盖率的局部变异性［22-23］. 例如，圆形二元分割算法［22］使用t统计量和置换参考分布来推断断点的P值. 另一项研究采用隐马尔可夫模型进行CNV检测，隐状态对应于本地拷贝数［24］. 在使用源自非癌细胞的归一化因子消除扩增偏差后，推断出癌细胞中的异常拷贝数. 该模型的发射概率对应于指示癌细胞是否具有比正常细胞更高的拷贝数的二元载体.

基因组分析工具包GATK含有一系列用于处理下一代测序数据和变异调用的方法，例如，可用于单核苷酸多肽性（Single Nucleotide Polymorphism，SNP）检测的贝叶斯框架.

1.4.2 单细胞转录组测序数据分析

1）质量控制. 分析scRNA-seq 的第一步是排除那些不太可能代表完整的单个细胞的细胞条码［25］. 最直接的方法是计算一个数据集的特定阈值，即认为一个条形码是一个细胞所需的最小数量的唯一分子识别符（Unique Molecular Identifier，UMI）［26］.

2）标准化. 从测序实验中获得的有用读数的数量在不同的细胞之间会有所不同，我们必须对这种差异进行校正［25］. 对于scRNA-seq 数据，这种影响是明显的，因为每个细胞的RNA 数量会因为细胞周期阶段和其他生物因素而有很大的不同，即使是在同一细胞类型中.

3）批量效果校正. 与测序深度的差异类似，批效应是技术上的混淆因素，必须加以解释才能产生真正的生物信号［25］. 批效应是生物学中常见的问题，它是由实验时间、实验人员、试剂等非生物因素的差异引起的. 如果不加以适当解释，批效应可能会被误认为是真正的生物信号，但通过仔细的实验设计，它们完全可以避免.

4）代入法和平滑法. 原则上，去除零可以减少噪音，并使其更容易识别数据的潜在结构（如基因-基因相关性、细胞簇、标记基因或发育轨迹）. 已经开发了一些工具来“输入”在scRNA-seq数据中发现的零值，包括scImpute，DrImpute和SAVER. 其他工具，如使用扩散模型的MAGIC 和使用自动编码器的scVI，应用平滑算法来降低噪声.

5）细胞周期分配. 如果样品中含有活跃循环的细胞，这可能会导致生物混杂物，可能需要在下游分析中去除. 另外，细胞周期的阶段可能是正在研究的生物学问题的兴趣所在. 无论哪种情况，都有必要将细胞分配到适当的细胞周期阶段［25］. 有两种广泛使用的工具来识别细胞周期阶段：Cyclone和Seurat.

6）特征选择. 特征选择识别出相对于技术噪声具有最强生物信号的基因. 通过将下游分析限制在信息量最大的基因上，减少维数的影响，降低噪声，简化分析［25］. 最广泛使用的特征选择策略是考虑高可变基因（即方差高于预期的基因）.

7）降维和可视化. 减少表达式矩阵高维的负面影响的另一种策略是对降维后的特征空间进行降维［25］.最常用的策略包括主成分分析（Principal Component Analysis，PCA），这是一种线性变换，在完整的主成分空间中保持单元间的欧氏距离，即使对非常大的数据集也能有效计算. 目前的最佳实践方法是统一流形逼近和投影降维（Uniform Manifold Approximation and Projection，UMAP）［27］. 该算法使用一个cell-cell最近邻网络来近似数据的拓扑结构，估计数据的低维嵌入能使结构保持最好. UMAP在很大程度上取代了t分布随机邻居嵌入（t-distribution Stochastic Neighbour Embedding，t-SNE），因为它能够更好地保存大规模结构.

8）无监督聚类. 对scRNA-seq 数据的无监督聚类是大多数分析的中心，因为它可以识别具有相似表达谱的细胞组. 其中一些组可以代表不同的细胞类型，其他组可以被认为是中间细胞状态（例如，细胞周期阶段）［25］. 无监督聚类的算法包括广泛使用的k-means算法、用于网络聚类的Louvain算法等.

9）拟时间. 如果数据集代表了一个发展过程，或者是从一个时间过程实验中衍生出来的，那么从一个连续体来看细胞是更合适的. 这种连续的轨迹，可以表示空间位置、化学浓度或时间过程，通常被称为“伪时间”，每个细胞都可以被分配一个特定的位置［25］. 第一种方法是使用降维技术来识别细胞所在的低维“流形”，并使用细胞-细胞图来描述流形的拓扑结构；第二种方法是在链接集群并将单个单元投射到分支上之前，使用无监督集群对单元进行分组.

10）差异性表达. 差异表达（Differential Expression，DE）是RNA 测序中最重要的应用之一，因为它提供了在两种或两种以上生物学条件下受干扰的基因列表. 对scRNA-seq的DE更有挑战性，因为我们不仅仅是比较每个基因的单个值，还可以比较表达水平的分布［25］. 最近的一项比较得出结论，非参数Wilcoxon检验比其他方法表现得更好［28］.

11）比较和合并数据集. 随着scRNA-seq数据量的持续增长，一个重要的挑战是确定如何最好地组合数据集. 当组合来自不同实验室的实验时，批处理效应是一个主要的挑战，而且即使它们可以被克服，重新分析合并的数据集可能需要大量的时间、精力和存储［25］. 合并数据集的另一种策略是对它们进行比较，当数据集非常大时（例如，细胞图集），适用这种策略.

1.4.3 单细胞表观遗传学测序数据分析

通常可用于处理大规模表观基因组数据的工具包括动态测序数据可视化工具，例如AnnoJ和综合基因组学查看器（http：//www.broadinstitute.org/igv）. 尽管UCSC基因组浏览器或ENSEMBL等标准工具也可用于可视化目的，但这些工具专门针对处理大量读取进行了优化，并动态响应用户请求，因此它们无须从服务器响应用户操作. 这些工具旨在安装在本地并允许快速缩放和导航. 同样，通用生物信息学平台Galaxy提供了执行标准操作的简单方法，例如重叠基因组片段和基于基因组区间计算各种统计数据. EpiGRAPH是一个通用工具，用于处理表观遗传数据集. 与Galaxy类似，它允许用户上传有关基因组区域信息的文件（例如，富含乙酰化组蛋白的区域）. EpiGRAPH 还可以计算各种预加载或用户提供的特征（2010年初大约有1000 个预加载特征）的上传区域的丰富度. 该软件还可以构建分类器，能够从给定的基因组区域预测目标变量的值.

2 单细胞测序的应用领域

2.1 早期胚胎学

早期胚胎学研究内容多发生在胚胎发育前期. 传统的胚胎学在基础研究上缺乏对微观过程的剥离，但基于SCS的胚胎学能很好地弥补这一点. 如研究通过对灵长类动物的胚胎植入，得出受精卵或双细胞阶段的多极分裂和染色体的细胞片段相关，这将对解决试管婴儿失败和胚胎丢失有着重要的意义；对于胚胎发育过程，尚且有很多组织结构和过程产物的作用机制不清楚，SCS优于传统学科，它的运用可避免母体干扰，建立体外培养系统［29］，独立创建模型了解靶向生物标志物和多系统参与的生物机制，例如胚胎-神经系统等. 有研究通过分析小鼠2-细胞期胚胎的单细胞转录本，揭示了对高强度光照的综合反应，包括形态变化、长期伤害效应和细胞内损伤修复机制［30］.

2.2 免疫学

免疫学是研究生物体对抗原物质免疫应答性及其方法的生物医学科学. 利用免疫应答的特异性，植入SCS方法的免疫学可以结合多方法多学科，实现单一学科不能实现的功能，如免疫细胞单细胞测序对肿瘤免疫治疗效果的预测［31］、研究对自身免疫性疾病和免疫缺陷疾病的治疗［32］、研究对衰老与免疫反应的关系［33］以及包括对当前热度很高的新型冠状病毒在内的细菌病毒微生物类与免疫反应的研究等［34］.

SCS技术可以揭示宿主免疫应答的内在异质性，准确评估免疫细胞激活过程中涉及的特定分子机制. 霍尔特等人通过SCS技术鉴定出罕见的CD4 T细胞［35］. 总之，这些研究全面证明，SCS技术可以揭示基因表达网络、异质性和免疫细胞的随机表达等遗传信息，为研究人员为免疫疾病提供更多的治疗选择奠定理论基础.

2.3 肿瘤学

癌症的特异性来源于其本身克隆多样性以及突变的不确定性，这都会增大治疗的难度和降低患者的生存率［36］，SCS技术作为一种理想的工具以其特异性和操作的独立性已广泛应用于各种原发性的癌症治疗，如食管癌、肺癌、乳腺癌和宫颈癌等［37］.

通过对骨髓异常导致的白血病的单细胞测序，对比患者与对照的基因表达水平，可以较为容易地找到炎症相关作用通路和与骨髓系白血病相关的敏感基因［38］. 对于黑色素瘤的治疗，单细胞测序技术的介入用于识别黑色素瘤的预后亚型，特别强调肿瘤微环境中的免疫细胞和成纤维细胞. 治疗抗性机制不仅包括预先存在的亚克隆的选择过程，还包括不同基因表达状态之间的转换［39］；对于一些新起的癌症治疗技术，单细胞测序也可以很好地从微观的角度做出有效评价.

2.4 微生物学

目前的自然条件下微生物的种类虽然繁多，但想要依赖自然条件批量使用特定微生物或对某些微生物进行生物多样性研究却是一道门槛. 然而随着SCS技术的加入，许多问题都有望得到解决［40］. 对于对抗某些有害微生物，如通过对大豆胞囊线虫的抗性基因的破坏，用SCS技术检测基因表达区域的差异性，对比得出某些序列多态性是线虫所特有的，从而获得抗线虫毒性的方法［41］；同样对于曼氏血吸虫的研究，了解其生命周期的不同阶段作用和特点，可以很有效地采取对应的防治措施［42］. 而对于人类生产生活有帮助的微生物，SCS也是大有建树的，如针对有利于海洋生态的大型硫细菌，运用SCS揭示氧化带、硫化带和海洋微生物之间循环的机制，研究这些丝状硫氧化细菌的基因组，大大加深了对它们的进化及其对海洋沉积物中硫和氮循环作用的理解［43］.

2.5 神经生物学

神经细胞的多样性以及神经元的异质性是导致神经研究艰巨的重要原因之一［44］，但SCS技术的加入，使得对神经方向的研究更具有方向性. 对神经元和神经胶质细胞的研究，有望解释特异性突变与人类某些疾病的起源有关以及了解突变与人体衰老的关联性大小［45］；通过在单细胞与神经元池，运用转录组方法在单个激光捕获神经元以及相应海马区的基因表达谱比较患病和正常人群，有效得出神经疾病的基因作用靶部位［46］；同样，也可以用SCS技术评价某些有毒有害物质对神经组织的损害程度和毒作用机理［47］.

2.6 干细胞研究

干细胞是一类具有自我复制能力的多潜能细胞，在一定条件下，它可以分化成多种功能细胞，鉴于这种特性，可以通过将干细胞或相关衍生产品移植入患者体内，替换损伤细胞从而治愈疾病. 但传统的干细胞研究的局限性在于干细胞分化可导致成瘤性，且在肿瘤研究中大多数肿瘤干细胞缺乏特异性的标志物，组织定位和形态特征不明确，因此无法直接从肿瘤细胞中分离，这样会使工作量加重，有时甚至无法进行. 将SCS技术运用于干细胞研究，可以拓宽研究方向，如器官再生、解释生物过程、解释生物效应等. 如果单细胞技术可运用于生物工程肺的发展，这对终末期肺衰竭需要肺移植来说可能是唯一的方法［48］；解释干细胞增殖和凋亡的转录后作用［49］；揭示干细胞的功能，如视网膜细胞的有序诞生方面的可行性和潜力［50］等. 使用单细胞分析的类似策略可为其他类型的器官分化研究提供信息，并将促进再生医学领域的研究进展.

3 总结或展望

单细胞测序（SCS）作为NGS方法，它的超高分辨率为我们对生命科学的许多领域的理解提供了新的视角，主要用于分析细胞间遗传和蛋白质信息的差异，获取单细胞水平基因组序列信息，更好地理解它们在微环境中的特定作用. 通过对单个细胞的全基因组、转录组和表观基因组进行测序，可以揭示疾病发生和发展过程中复杂的异质性机制，进一步提高疾病诊断、预后预测和药物疗效监测［51-52］. 传统测序方法只能得到多个细胞的平均值，无法分析少量细胞、丢失细胞异质性信息. 与传统测序技术相比，单细胞技术具有检测单个细胞间异质性、区分少量细胞、勾画细胞图谱等优点. 单细胞测序技术仍存在操作烦琐、检测成本高等问题，限制了技术的推广［53］. 但可预见通过技术的不断发展，单细胞测序技术将会有更广泛的应用.