多少次午夜梦回
多少次键盘敲碎
多少次衣带渐宽终不悔
多少次为伊消得人憔悴
非线性的数据分析管线,渐进明晰的数据挖掘过程以及对先验知识的重度依赖是摆在海量单细胞生物信息分析者面前的三座大山。细胞数以百万,基因数以几千,通路不计其数,如此多的生物信息特征,哪些值得作为故事的落脚点?细胞与基因层面的论据论点又该如何裁剪?
好消息好消息!
新格元推出基于机器学习模型的单细胞特征筛选器scModel——针对单细胞大数据,无需先验知识,即可从海量数据中找到分组间差异相关度最高的细胞特征,帮助您快速锁定研究目标,节约数据探索时间。
scModel:新格元单细胞特征筛选器
AI浪潮如火如荼,单细胞数据嗷嗷待哺。scModel是新格元针对单细胞大数据现状,自主研发的特征筛选机器学习工具。scModel对大样本单细胞数据进行建模,可快速判断和锁定不同临床样本组间最值得关注的特征,如肺癌患者和健康人之间重要的细胞类型、基因、基因集合、互作对、转录因子差异等等。scModel在海量临床特征与单细胞特征之间架起链接桥梁,让单细胞数据与临床问题之间“天堑变通途”。
scModel流程
Step1:特征构建及选择
Step2:构建分类器模型
Step3:判断重要特征
Step4:预测样本表型
scModel测试数据怎么样?
利用新格元SynEcoSys数据库中健康人和新冠病人(共772例样本31种细胞亚群,来自于11篇文献)PBMC的scRNA-seq公共数据集,从中随机抽出700例样本作为训练集训练模型,剩余72例作为测试集用于后续验证。使用各亚群细胞在样本中的占比、各亚群top20差异上调基因在各样本中的平均表达量作为特征训练模型。在训练模型前对特征进行清洗以及交叉验证,通过准确率值(Accuracy)来评估模型并挑选最佳参数组合。得到模型后,从测试集样本中提取和训练集一致的特征,将模型应用在测试集上进行测试。通过混淆矩阵可算出测试的Accuracy可达0.94((56+12)/72)(图1-1),测试集的ROC曲线结果显示,模型的在测试集上的AUC值达到0.89(图1-2)。
图1-1.测试集评估模型混淆矩阵
图1-2.测试集ROC曲线
众所周知,人体细胞处于一个复杂的系统之中,细胞数量、基因表达等多种特征互相影响,这便是个体的差异的来源之一。为了得到每个特征在个体差异中的贡献度,我们引入了SHAP(SHapley Additive exPlanations)模型解释器。基于每个特征在组合子集中对分类影响的综合贡献度,计算每个特征的shapley value用于判断每个特征重要性的依据。特征的shapley value越高,其在模型判断样本分类时造成的影响就越大,其重要性就越高。经过SHAP计算,按照shapley value从高到低筛选前20个重要特征,分别展示只保留细胞类型特征的结果(图2-1)和保留所有特征的结果(图2-2)。
图2-1.细胞占比特征Top20
图2-2.差异基因和细胞占比特征Top20
模型判断显示:样本体内滤泡辅助性T细胞(Follicular helper T cells,Tfh)数量占比越低,该样本被识别为新冠患者的可能性就越高(图2-1)。Tfh细胞是CD4+ T细胞的一个亚型,通过激活Tfh依赖性B细胞来促进抗体产生,其功能丧失与COVID-19感染情况高度相关[1]。研究表明,中度COVID-19患者体内Tfh细胞数量占比显著低于非SARS-CoV-2肺炎患者。而且在肺部炎症患者康复过程中,COVID-19患者的部分Tfh亚群细胞数量变化情况和非SARS-CoV-2肺炎患者相比也存在显著差异[2]。结合两次结果可以看出,虽然CD4+效应T细胞数量的变化情况不是影响模型判断的主要依据,但其特异性表达的NPIPB6基因却有着较高的影响力。可见在单细胞层面,功能差异和比例差异都非常重要。深入挖掘单细胞层面的功能差异信息正是scRNA相较于流式等只检测细胞比例的研究的优势之所在。
scModel优势在哪里?
1.无需生物学先验知识,快速锁定最值得研究的特征
在目前的单细胞研究中,锁定具有意义的细胞亚群或者基因等特征进行深入研究时,一种方法是基于先验知识,选择比较重要的特征进行研究。比如研究接受不同药物治疗的非小细胞肺癌患者时,已有大量的研究表明Tex细胞对非小细胞肺癌的肿瘤细胞具有免疫杀伤功能,我们可以聚焦于鉴定Tex细胞群,观察不同药物治疗下Tex细胞群的数量变化及相关基因表达变化情况等去判断哪种药物治疗的治疗效果更佳。但有意义的先验知识需要足够强大的生物学背景支持,并且存在较大程度的人为干涉。而且涉及到一些罕见疾病或者尚无法鉴定的细胞亚群,往往没有足够的先验知识进行支持。另一种则是逐个分析待研究的特征,再挑选有意义的特征进行分析。这种方法费时费力,且无定量对比。
scModel只需要样本的临床表型或者分组信息,就可以基于单细胞测序数据构建,快速判断出影响样本分类归属的重要特征。
2.面对40个以上大样本单细胞数据中结果更可靠
当先验知识无法满足分析需求时,研究者还会根据各个细胞类型占比或者基因表达的变化情况,通过t.test、wilcox.test等不同的统计学算法,衡量不同的特征在样本/分组间变化的差异程度,来进一步选择具有研究意义的特征。但在衡量比较时,往往只关注显著性而忽视了数据的效应量(effect size)。在单细胞数据中,样本数量较多时每组的细胞数量较大(单组样本数大于20),忽略effect size的显著性结果并不具有实际意义。而且显著性结果也不能得出不同细胞类型间哪些因素对整体组间差异的贡献更大,对单个特征逐一进行筛查也需要消耗大量的时间和精力。
scModel首先基于Accruancy、F1 score等模型评估方法评判本次建立的模型是否具有可信度,基于一个最优质的模型去预测重要特征,缓解显著性分析的弊端。然后将细胞类型、单一基因、基因互作对、表达模式通路基因集合等不同种类的特征相结合,利用SHAP模型从全局角度衡量单个特征的贡献度,进而寻找样本分类时最为关键的特征。
scModel的应用场景有哪些?
scModel可以在缺乏先验知识的情况下快速从海量的特征中挑选最值得关注的内容。而且通过SHAP模型计算特征贡献度,可以更好地从复杂生物系统中寻找到核心特征。
1.挖掘罕见疾病样本的关键细胞亚型、关键基因。
当研究方向没有足够的背景知识支持时,可以从数据所有细胞类型、差异基因、显著互作对显著转录调控因子等特征中去筛选重要的特征,大幅缩小探索范围,极大减少数据挖掘工作量。
2.从无法注释的亚群中寻找关键亚群。
当细胞亚群无法准确命名时,可以将这些亚群的占比作为特征进行模型构建,去判断不同样本分类情况下这些亚群的重要性。
3.进一步筛选研究方向。
当找到上百个差异基因、几十个显著差异互作对、十几条显著通路都与研究对象相关时,可以使用scModel进一步推断这些特征与不同类型的样本关联的紧密度,来寻找最为关键的影响因子。
大模型时代的到来对临床医学和生物信息学的结合起到了积极的推动作用,基于单细胞数据的大模型将为临床研究筛选出重要的细胞及功能。欢迎联系新格元,一起踏上大模型的浪潮,共同探索大模型工具在单细胞数据中的应用。
参考文献
电 话:025-58165529
业务咨询:025-58165526
售后电话:025-58862675
电子邮件:singleron@singleronbio.com
售后邮箱:product-service-support@singleronbio.com
地 址:南京市江北新区药谷大道11号加速器二期06栋3-5层
Copyright © 2021 新格元生物科技
网站建设:华科互动