预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况

文章导读

传统的化合物途径预测方法主要聚焦于代谢途径,但细胞和生物体中还存在众多其他类型的途径,如“人类疾病”、“遗传信息处理”等,这些途径同样对生物学家具有极大的吸引力。然而,由于训练数据集的大小限制,先前的模型往往只能预测有限的代谢途径。为了打破这一局限,肯塔基大学马基癌症中心的Erik D. Huckvale与Hunter N.B. Moseley教授在 Metabolites 发表了一项研究,该研究通过创新的机器学习模型,成功预测了京都基因和基因组百科全书 (KEGG) 中定义的所有生化途径及相关化合物的参与度,为生物和生物医学研究提供了强有力的支持。

研究过程与结果

研究团队首先构建了包含超过3,200,000个条目的数据集,该数据集涵盖了KEGG层次结构中的所有途径 (L1、L2和L3) 和具有途径注释的化合物。随后,作者使用多层感知器 (MLP) 二元分类器进行预测,并通过优化数据加载技术和模型超参数,显著提高了模型的预测性能。值得一提的是,研究团队还创新性地设计了一种自定义数据加载器,通过减少CPU和GPU之间的数据传输延迟,将模型的训练时间减少了20多倍。图1显示了每个数据集在CV迭代中的MCC分布。L1、L2和L3数据集是包含所有通路的完整数据集,并在200次CV迭代中运行。L2和L3数据集排除了L1通路,并在50次迭代中运行。L3数据集仅包含L3通路,也在50次CV迭代中运行。

今日霍州(www.jrhz.info)©️

图1. 每个数据集在CV迭代中的MCC分布。

图2解释了有关“代谢”的差异,可以看到“代谢”的规模比L1途径 (途径规模由与该途径相关的所有化合物中非氢原子的总数定义) 大得多,与之相关的化合物更多,数据集中与“代谢”途径相对应的阳性条目也更多。类别不平衡问题使这项机器学习任务变得困难,因为与途径无关的化合物往往很多,而与途径相关的化合物相对较少。然而,“代谢”途径也存在相反但同样具有挑战性的问题,即阳性条目过多,而其他途径则面临着阴性条目过多的挑战。“代谢”的真阳性有助于提高F1得分,但假阴性的数量会降低特异性。

今日霍州(www.jrhz.info)©️

图2. L1通路MCC和大小以及具有正值的通路特征的数量。

图3清晰地描绘了完整KEGG数据集中化合物与途径的大小分布情况。图3a展示了被广泛分布的所有途径,其中,“代谢”途径以其超过160,000的规模 (如图2所示) 显著突出。为了更精确地观察途径大小分布的峰值,图3b聚焦于大小不超过1000的途径,并展示了其途径计数的详细分布。

今日霍州(www.jrhz.info)©️

图3. 完整KEGG数据集中通路和化合物大小的分布:(a) 所有通路的大小分布;(b) 小于1000的通路的分布;(c) 化合物的大小分布。此处的大小是指化合物或通路中非氢原子的数量 (与通路相关的化合物的总和)。

图4则揭示了单个化合物和途径的马修斯相关系数 (MCC) 分布情况。值得注意的是,途径的MCC主要集中在0.6—0.9的区间内,而其他途径的MCC则更接近0,甚至偶有略低于0的情况出现,这暗示了部分途径的预测存在轻微的反向趋势。值得一提的是,即便在进行了200次交叉验证 (CV) 迭代后,仍有四条途径因无法在不除以零的情况下计算MCC而未能获得有效的分数,因此它们无法单独纳入结果分析,但其假阴性和真阴性计数仍对最终结果的计算产生了影响。

今日霍州(www.jrhz.info)©️

图4. 完整KEGG数据集中各个途径和化合物的MCC分布:(a) 途径MCC的分布;(b) 化合物MCC的分布。

图5进一步探究了化合物与途径大小与其相应MCC之间的关系。在对x轴进行对数缩放后,作者发现无论是途径 (图5b) 还是化合物 (图5d),其大小与MCC之间均未呈现出强烈的线性相关性。然而,途径的分布呈现出漏斗形状,意味着随着途径大小的增加,其方差逐渐减小。对于化合物而言,当大小达到某个临界值时 (如图5),其MCC才可能达到1.0的高峰。

今日霍州(www.jrhz.info)©️

图5. 通路和化合物大小与完整KEGG数据集的单个MCC的关系:(a) 通路大小与通路MCC;(b) 通路大小与通路MCC,x轴为对数尺度;(c) 化合物大小与化合物MCC;(d) 化合物大小与化合物MCC,x轴为对数尺度。文章总结

总的来说,这项研究不仅展示了机器学习在预测化合物通路参与度方面的巨大潜力,还为生物和生物医学研究提供了强有力的支持。随着更多的化合物和通路被纳入研究范围,预测性能的不断提升,相信这一领域将会迎来更加广阔的发展前景。未来,该领域的研究工作应以这一标准为基础,不断探索新的预测方法和应用场景,为生物学和生物医学领域的发展贡献更多的智慧和力量。

原文信息

Huckvale, E.D.; Moseley, H.N.B. Predicting the Pathway Involvement of All Pathway and Associated Compound Entries Defined in the Kyoto Encyclopedia of Genes and Genomes. Metabolites 2024, 14, 582. https://doi.org/10.3390/metabo14110582

Metabolites 期刊介绍

期刊内容涵盖代谢组学、代谢生物化学、计算和系统生物学、生物技术和医学领域相关的代谢物以及代谢方面的研究。

2023 Impact Factor: 3.5

2024 CiteScore: 6.9

特别声明:[预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2026年如何挑选展飞10包入彩色印刷牛皮纸挂耳咖啡包装盒?(2026年买什么车)

挑选优质挂耳咖啡包装盒是提升用户体验的关键。展飞10包入挂耳包装盒采用彩色印刷牛皮纸材质,适合个性化定制。本文从材质、尺寸、印刷质量等多维度分析选购要点,帮助您找到最合适的包装方案,节省预算同时确保品牌形象。 2026年新规要求更严格的环保

2026年如何挑选展飞10包入彩色印刷牛皮纸挂耳咖啡包装盒?(2026年买什么车)

智连未来:全球线束加工行业迈向自动化与柔性制造新纪元(智联未来官方下载)

品联电子的故事,是中国乃至全球线束加工行业宏大转型图景的微观缩影,揭示了一个关键趋势:自动化与柔性制造的普及正沿产业链向下渗透,形态日益多样化和务实。 审视“自动化与柔性制造新纪元”,其内涵既涵盖引领方向的…

智连未来:全球线束加工行业迈向自动化与柔性制造新纪元(智联未来官方下载)

2026男士油头洗发水榜单:6款实测避坑,温和控油蓬松不塌顶(2020男士油头)

一、实测标准:4大核心维度,筛选真正适配男士油头的洗发水为保证评测专业性与参考性,本次制定4大核心实测标准,均对应油头核心痛点,全程围绕标准测试6款男士油头洗发水、男士控油洗发水,不看品牌热度、不主观评判…

2026男士油头洗发水榜单:6款实测避坑,温和控油蓬松不塌顶(2020男士油头)

宇树科技的功夫梦 『机器人』️武术震撼春晚(宇树科技知乎)

2026年除夕夜,宇树科技作为春晚『机器人』️合作伙伴,第三次亮相总台春晚舞台,并献上了全球首次全自主人形『机器人』️集群武术表演。弹射空翻破空而出,剑法招式行云流水,花式翻桌跑酷灵活利落

宇树科技的功夫梦 『机器人』️武术震撼春晚(宇树科技知乎)

恶女》:道德标签下的女性♀️抗争与人性叩问(恶女这部电影解析)

影片以“恶女”这一充满道德审判的标签为切入点,呈现了一个被社会定义为“恶”的女性♀️,如何在偏见与压迫中挣扎求存,最终用自己的方式证明人性的复杂远非简单的善恶二分所能概括。需要明确指出的是,《恶女》是一部以女性♀️命…

《<strong>恶女</strong>》:道德标签下的女性♀️抗争与人性叩问(恶女这部电影解析)