预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况

预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况
文章导读

传统的化合物途径预测方法主要聚焦于代谢途径,但细胞和生物体中还存在众多其他类型的途径,如“人类疾病”、“遗传信息处理”等,这些途径同样对生物学家具有极大的吸引力。然而,由于训练数据集的大小限制,先前的模型往往只能预测有限的代谢途径。为了打破这一局限,肯塔基大学马基癌症中心的Erik D. Huckvale与Hunter N.B. Moseley教授在 Metabolites 发表了一项研究,该研究通过创新的机器学习模型,成功预测了京都基因和基因组百科全书 (KEGG) 中定义的所有生化途径及相关化合物的参与度,为生物和生物医学研究提供了强有力的支持。

研究过程与结果

研究团队首先构建了包含超过3,200,000个条目的数据集,该数据集涵盖了KEGG层次结构中的所有途径 (L1、L2和L3) 和具有途径注释的化合物。随后,作者使用多层感知器 (MLP) 二元分类器进行预测,并通过优化数据加载技术和模型超参数,显著提高了模型的预测性能。值得一提的是,研究团队还创新性地设计了一种自定义数据加载器,通过减少CPU和GPU之间的数据传输延迟,将模型的训练时间减少了20多倍。图1显示了每个数据集在CV迭代中的MCC分布。L1、L2和L3数据集是包含所有通路的完整数据集,并在200次CV迭代中运行。L2和L3数据集排除了L1通路,并在50次迭代中运行。L3数据集仅包含L3通路,也在50次CV迭代中运行。

图1. 每个数据集在CV迭代中的MCC分布。

图2解释了有关“代谢”的差异,可以看到“代谢”的规模比L1途径 (途径规模由与该途径相关的所有化合物中非氢原子的总数定义) 大得多,与之相关的化合物更多,数据集中与“代谢”途径相对应的阳性条目也更多。类别不平衡问题使这项机器学习任务变得困难,因为与途径无关的化合物往往很多,而与途径相关的化合物相对较少。然而,“代谢”途径也存在相反但同样具有挑战性的问题,即阳性条目过多,而其他途径则面临着阴性条目过多的挑战。“代谢”的真阳性有助于提高F1得分,但假阴性的数量会降低特异性。

图2. L1通路MCC和大小以及具有正值的通路特征的数量。

图3清晰地描绘了完整KEGG数据集中化合物与途径的大小分布情况。图3a展示了被广泛分布的所有途径,其中,“代谢”途径以其超过160,000的规模 (如图2所示) 显著突出。为了更精确地观察途径大小分布的峰值,图3b聚焦于大小不超过1000的途径,并展示了其途径计数的详细分布。

图3. 完整KEGG数据集中通路和化合物大小的分布:(a) 所有通路的大小分布;(b) 小于1000的通路的分布;(c) 化合物的大小分布。此处的大小是指化合物或通路中非氢原子的数量 (与通路相关的化合物的总和)。

图4则揭示了单个化合物和途径的马修斯相关系数 (MCC) 分布情况。值得注意的是,途径的MCC主要集中在0.6—0.9的区间内,而其他途径的MCC则更接近0,甚至偶有略低于0的情况出现,这暗示了部分途径的预测存在轻微的反向趋势。值得一提的是,即便在进行了200次交叉验证 (CV) 迭代后,仍有四条途径因无法在不除以零的情况下计算MCC而未能获得有效的分数,因此它们无法单独纳入结果分析,但其假阴性和真阴性计数仍对最终结果的计算产生了影响。

图4. 完整KEGG数据集中各个途径和化合物的MCC分布:(a) 途径MCC的分布;(b) 化合物MCC的分布。

图5进一步探究了化合物与途径大小与其相应MCC之间的关系。在对x轴进行对数缩放后,作者发现无论是途径 (图5b) 还是化合物 (图5d),其大小与MCC之间均未呈现出强烈的线性相关性。然而,途径的分布呈现出漏斗形状,意味着随着途径大小的增加,其方差逐渐减小。对于化合物而言,当大小达到某个临界值时 (如图5),其MCC才可能达到1.0的高峰。

图5. 通路和化合物大小与完整KEGG数据集的单个MCC的关系:(a) 通路大小与通路MCC;(b) 通路大小与通路MCC,x轴为对数尺度;(c) 化合物大小与化合物MCC;(d) 化合物大小与化合物MCC,x轴为对数尺度。文章总结

总的来说,这项研究不仅展示了机器学习在预测化合物通路参与度方面的巨大潜力,还为生物和生物医学研究提供了强有力的支持。随着更多的化合物和通路被纳入研究范围,预测性能的不断提升,相信这一领域将会迎来更加广阔的发展前景。未来,该领域的研究工作应以这一标准为基础,不断探索新的预测方法和应用场景,为生物学和生物医学领域的发展贡献更多的智慧和力量。

原文信息

Huckvale, E.D.; Moseley, H.N.B. Predicting the Pathway Involvement of All Pathway and Associated Compound Entries Defined in the Kyoto Encyclopedia of Genes and Genomes. Metabolites 2024, 14, 582. https://doi.org/10.3390/metabo14110582

Metabolites 期刊介绍

期刊内容涵盖代谢组学、代谢生物化学、计算和系统生物学、生物技术和医学领域相关的代谢物以及代谢方面的研究。

2023 Impact Factor: 3.5

2024 CiteScore: 6.9

猜你喜欢

LV大秀:欧阳娜娜显老,周冬雨青春洋溢,王楚钦帅气爆棚,金晨嘴型怪异

几天前她刚在迪士尼游玩,还被粉丝团团围住求合照,几天不见,她却仿佛换了个人。但到了LV现场,她化了浓烈的烟熏妆,整体气质大变。可以说,他不仅赛场上称霸,这回在红毯上也完胜明星,真让人忍不住想问:“王楚钦,你还…

LV大秀:欧阳娜娜显老,周冬雨青春洋溢,王楚钦帅气爆棚,金晨嘴型怪异

高空水雾的环境治理密码:高杆喷雾桩的核心效能

恒昱【HY-85PW-2】在城市环境治理与工业污染防控领域,高杆喷雾桩以独特的高空作业模式,成为改善空气质量的重要利器。 高杆喷雾桩 降尘是高杆喷雾桩的核心功能。此外,雾滴还能吸附空气中的有害颗粒与污染物,对…

高空水雾的环境治理密码:高杆喷雾桩的核心效能

浪姐成“照妖镜”:叶童拿冠军,吴宣仪表情亮了!李晟太惨

到了个人奖项的时候,她被安排到了第四名,在王珞丹和吴宣仪的后面,粉丝们也是破防了。吴宣仪粉丝在总决赛之前,就各大网络平台上吹嘘吴宣仪是冠军,到了结果揭晓之后,就很尴尬了。 粉丝们的理解就仁者见仁、智者见智…

浪姐成“照妖镜”:叶童拿冠军,吴宣仪表情亮了!李晟太惨

小米米家空调夏测正式启动:硬抗新疆吐鲁番48℃高温

吐鲁番是中国夏季最热的地区之一,是天然的“高温极限测试场”,会直接挑战其核心部件的性能,能直接体现出来压缩机的高负荷表现、能效稳定性、外机散热性能等等。 现在很多户型会出现“监狱机位”的问题,因为开发商在建…

小米米家空调夏测正式启动:硬抗新疆吐鲁番48℃高温

宇明阀门取得新型气体安全阀专利,可防止阀门意外关闭

金融界2025年7月5日消息,国家知识产权局信息显示,宇明阀门集团有限公司取得一项名为“一种新型气体安全阀”的专利,授权公告号CN223063201U,申请日期为2024年09月。 专利摘要显示,本实用新型涉…

宇明阀门取得新型气体安全阀专利,可防止阀门意外关闭