亮点一
由于算法本身的特点,经我们测试,该自动注释方法具有快速、准确、有效过滤污染、批次效应、能识别潜在的肿瘤细胞与新细胞等诸多优点。新格元SynEcoSys单细胞数据库已经包含了脑、肺、胰腺、肠、骨髓等几乎所有的组织、器官的自动注释参考数据。对物种的支持上包含了人、小鼠、大鼠等常见的物种,并且算法与数据库还在不断更新优化中。在标准分析流程中引入Cell-ID这款自动化注释分析软件,并基于注释结果进行后续标准分析,相比于基于cluster更可以满足客户的需求,对于样本后续参与整合分析也能够起到一定的提示作用。
Figure1:MCA算法介绍
亮点二
更为全面的单样本分析
在单细胞分析中,单个barcode并不一定等价于一个真实细胞,它有可能是由于两个或多个细胞被同一个bead捕获造成的doublet,也可能是死细胞裂解向周围环境释放出RNA后,只包含环境RNA的empty bead。由此可见,样本中捕获的barcodes很大程度影响着整个数据质量,在下游分析中扮演了至关重要的角色。而传统的标准分析流程中只展示整个样本的UMI、Total Genes、线粒体基因和核糖体基因含量,并不足以全面描绘样本最本质的蓝图。在常规小提琴图展示的基础上,进一步展示了随细胞UMI数目变化,细胞线粒体基因含量以及基因数的变化趋势 (Figure2a-b)。正常情况下,基因数和UMI能够呈现出一个逐步上升的正相关态势。这些图都是对于质控分析如中值基因、中值UMI等进一步的补充。此外,标准分析还引入了dropkick[2]软件以及ambient基因的定义。在之前的介绍中,empty beads会造成很强的背景噪音,他们由于包含环境RNA,有可能不会被过滤掉,且通常会在后续的分群中被聚集在一起,并对ambient基因(环境基因)高度富集。通过drop out率 (即每个基因在barcode中未被检测到的比例)来加以鉴定并排序(Figure2c)。如ambient基因中存在某一些特定细胞类型的经典markers,可能反映出样本存在污染。如发现线粒体基因比例较高,也可能反映出细胞死亡或细胞凋亡。上述一系列较为详细的质控减少了低质量细胞造成的误差,保障了后续标准分析的可参考性。
Figure2:a,b两图展示了随细胞UMI数目变化,细胞线粒体基因含量以及基因数目的变化趋势。c图基于filter后的表达矩阵,将barcode根据UMI进行排序后,展示细胞中基因数目、细胞中UMI数目、细胞中线粒体基因含量和细胞中环境基因含量的变化趋势,以及鉴定的ambient genes
是不是觉得质控分析到此为止了?
不,还远远不止这些。
在后续分群和自动化注释后,会再次展示每个cluster以及每个celltype的UMI和Total genes数值(Figure3),从而判断是否存在因质量低而被聚在一个cluster中的细胞。质控分布在标准分析流程中的各个角落,体现了CeleScoot-1.0.0这款标准分析流程的严谨性和全面性。
Figure3:展示不同clusters和细胞类型的Total Genes数量,以供参考:不同的细胞群表达基因丰度有所差异,有些低质量细胞群基因数目也会较低
2、差异基因分析结果展示的多样性
在传统的dotplot、heatmap的基础上,trackspot(Figure4b)也是结果展示的一大亮点,将每个细胞的表达值转换为高度极为直观新颖。除每个细胞类型的top2差异基因表达值外,新添加了top2差异基因log2FC值的展示(Figure4a),能够将每个基因在不同细胞类型之间的区别更为准确的体现出来。仅仅是差异基因的可视化,报告中就进行了四种展示,这些精美的分析结果图,能够为客户们的文章增加亮点。
Figure4:基于自动化注释的结果,a图展示样本中细胞类型top2差异基因在不同细胞类型的FoldChange变化情况。b图展示样本中细胞类型top2差异基因在不同细胞类型的表达情况。轨迹图不同于常规图,将基因表达由高度表示
3、细胞互作分析
新版标准分析增添了CellCall[3]互作分析内容展示,这款软件通过细胞对相互作用弦图展示了不同细胞类型之间发生的相互作用关系(Figure5),外圈为细胞类型,内圈根据图例颜色,橙色是该细胞作为配体,蓝色是该细胞作为受体。受配体细胞与下游转录因子之间的关系也是这款软件一大亮点,为后续的下游分析挖掘提供了可靠的方向。
Figure5:左图为细胞对相互作用展示弦图:展示了不同细胞类型之间发生的相互作用关系。右图为受配体细胞与下游转录因子之间关系展示桑基图
4、预估转录剪切降解速率
在轨迹分析部分,借助scVelo[4]软件,在自动化注释的基础上捕获每个细胞类型的剪切情况(Figure6b),即pre-mRNAs(含内含子)与剪切后的mRNAs丰度之比,无需任何实验数据即可预估随着潜伏时间,该样本的转录、剪切和降解速率(Figure6a)的变化趋势,从而对细胞身份和异质性有更深刻的理解。这款软件从表层的剪切信息出发,进入到更深层次的角度,挖掘样本中的有用信息。
Figure6b:不同细胞类型中未剪切和剪切的mRNA占比情况
5、基因集合分析
单一的基因集富集分析方法不仅只能反映有限的信息,而且也容易带来误差。CeleScoot标准分析流程中加入了irGSEA[5]这款软件,通过整合基于单个样本的基因表达排名的基因集分析方法AUCell[6]、UCell[7] 、singscore[8]和ssgsea[9],减少了批次效应的影响,便于寻找稳定可靠的基因集。该分析筛选出在大部分基因集富集分析方法中都显著富集的基因集后,可展示基因集在不同细胞类型中的富集情况(Figure7)。
Figure7:展示单个基因集富集分析方法中关注的通路在不同细胞类型中的打分
当然啦,上述内容只是新版新格元标准分析CeleScoot-1.0.0流程的冰山一角。富集分析、轨迹分析、转录因子调控等,我们都对输出的分析结果图做了不同程度的优化。从细胞类型到具体的基因,多层次多方位的展示正等着客户们一起来体验呢。我们也会不断收集大家的意见,继续优化我们的标准分析流程及报告内容,提供最专业且贴心的服务。
参考文献
1.Cortal, A., Martignetti, L., Six, E. et al. Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID. Nat Biotechnol 39, 1095–1102 (2021). (cellid)
2.Heiser CN, Wang VM, Chen B, Hughey JJ, Lau KS. Automated quality control and cell identification of droplet-based single-cell data using dropkick. Genome Res. 2021 Oct;31(10):1742-1752. (dropkick)
3.Zhang Y, Liu T, Hu X, Wang M, Wang J, Zou B, Tan P, Cui T, Dou Y, Ning L, Huang Y, Rao S, Wang D, Zhao X. CellCall: integrating paired ligand-receptor and transcription factor activities for cell-cell communication. Nucleic Acids Res. 2021 Sep 7;49(15):8520-8534. doi: 10.1093/nar/gkab638. PMID: 34331449; PMCID: PMC8421219.(cellcall)
4.Bergen,V.,Lange,M.,Peidli,S.etal.Generalizing RNAvelocity to transient cell states through dynamical modeling.NatBiotechnol38,1408–1414 (scvelo)
5.https://github.com/chuiqin/irGSEA/(irgsea)
6.https://github.com/aertslab/AUCell/(AUCell)
7.https://github.com/carmonalab/UCell/(UCell)
8.https://github.com/DavisLaboratory/singscore/(singscore)
9.https://gsea-msigdb.github.io/ssGSEA-gpmodule/v10/index.html(ssGSEA)
电 话:025-58165529
业务咨询:025-58165526
售后电话:025-58862675
电子邮件:singleron@singleronbio.com
售后邮箱:product-service-support@singleronbio.com
地 址:南京市江北新区药谷大道11号加速器二期06栋3-5层
Copyright © 2021 新格元生物科技
网站建设:华科互动