今天这篇是关于机器学习和单细胞的,这两个方向都是妥妥的上分神器。机器学习不用多说,AI的大火势必带动机器学习的发展,而单细胞测序在各种顶级期刊中频频出现,国内外多少顶级团队目前通过单细胞发顶刊比咱们发朋友圈还快!所以,这两个黄金搭档组合到一起必然高分发到手软~
这篇文章选题和分析思路都很到位 ~
文章研究的是基于糖尿病的胰腺细胞的异质性,有朋友可能会说这选题也不是很新嘛,相关的单细胞数据早有发表,这一点🕐️作者在文章背景部分也提到了,“虽然非糖尿病患者和糖尿病患者中都绘制了细胞类型特异性的分子图谱,但标记基因的差异,尤其是胰腺外分泌细胞中的差异,阻碍了不同数据集之间的比较以及对亚群的深入功能分析”,所以作者下载了多个胰腺谱系单细胞测序数据,通过多种机器学习算法开发了PanSubPred模型,这个模型能够准确识别内分泌细胞和外分泌细胞的亚型,并识别出细胞类型特异性标志物物。
由于是来自多个数据源的单细胞数据,所以这个模型也更加稳健,此外,作者还开发了PSC-Stat用于量化星状细胞的激活动态。接下来就是一些常见的分析流程了……
这篇文章除了构建这两个机器学习模型有上有一定的难度,其他分析方法都是单细胞分析中经常用到的,所以会了第一步后边也就好操作了~机器学习+单细胞这对组合发文实力雄厚,建议大家早早上车,现在用上更有竞争力,发高分的机会也更大!
01
背景介绍
胰腺细胞的异质性对于全身代谢调节至关重要,但糖尿病中胰腺的病理重塑情况尚不明确。
02
收集数据
从GEO和ArrayExpress 数据库中获取公开可用的人类胰腺数据集。
03
思路解析
1)整合单细胞数据与机器学习,开发了PanSubPred模型用于胰腺细胞亚型的高精度多谱系注释;
2)开发了PSC-Stat模型,用于量化星状细胞的激活动态。
3)此外还进行了聚类分析、通路富集分析、细胞间通讯网络分析、伪时间轨迹分析等。
04
主要结果
利用PanSubPred预测的细胞标签,识别出64种细胞类型特异性的标志物(其中 38 种为新发现的)。这些标志物即使在排除已知的典型标志物后仍能保持跨数据集的准确性(AUC > 0.970)。
基于PanSubPred注释的精确性,作者开发了PSC-Stat来量化星状细胞的激活动态,揭示了它们从糖尿病到胰腺癌的逐步激活过程。
糖尿病通过FGF7-FGFR2/3、EFNB3-EPHB2/4/6 和 EFNA5-EPHA2轴将细胞间通讯重新组织为以导管为中心的枢纽,并得出了一个15个基因的特征组合,用于描述糖尿病导管细胞(AUC = 0.846)。
胰岛细胞异质性分析揭示了糖尿病相关成熟胰岛素分泌簇的减少(INS + NKX6-1+)、未成熟(CD81 + RBP4+)和内质网应激适应亚型(DDIT3 + HSPA5+)的增加。
非胰岛细胞谱系也表现出功能障碍:腺泡细胞向炎症态转变(CCL2 + CXCL17+),导管细胞表现出分泌表型(MUC1 + CFTR+)。
05
总结
这篇10分+的文章看起来内容不多,但是信息量不小,无论是构建的两个机器学习模型还是文章的主要发现,对于疾病本身都有重要的临床意义。
大家可能也发现了,最近经常分享单细胞方向的文章,而且都是用的公共数据集,分值也都不低,所以对于一些做不了测序又想发高分的朋友来说,可以考虑利用公开单细胞数据,在结合一下机器学习,发文实力也杠杠的!