预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况

预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况
文章导读

传统的化合物途径预测方法主要聚焦于代谢途径,但细胞和生物体中还存在众多其他类型的途径,如“人类疾病”、“遗传信息处理”等,这些途径同样对生物学家具有极大的吸引力。然而,由于训练数据集的大小限制,先前的模型往往只能预测有限的代谢途径。为了打破这一局限,肯塔基大学马基癌症中心的Erik D. Huckvale与Hunter N.B. Moseley教授在 Metabolites 发表了一项研究,该研究通过创新的机器学习模型,成功预测了京都基因和基因组百科全书 (KEGG) 中定义的所有生化途径及相关化合物的参与度,为生物和生物医学研究提供了强有力的支持。

研究过程与结果

研究团队首先构建了包含超过3,200,000个条目的数据集,该数据集涵盖了KEGG层次结构中的所有途径 (L1、L2和L3) 和具有途径注释的化合物。随后,作者使用多层感知器 (MLP) 二元分类器进行预测,并通过优化数据加载技术和模型超参数,显著提高了模型的预测性能。值得一提的是,研究团队还创新性地设计了一种自定义数据加载器,通过减少CPU和GPU之间的数据传输延迟,将模型的训练时间减少了20多倍。图1显示了每个数据集在CV迭代中的MCC分布。L1、L2和L3数据集是包含所有通路的完整数据集,并在200次CV迭代中运行。L2和L3数据集排除了L1通路,并在50次迭代中运行。L3数据集仅包含L3通路,也在50次CV迭代中运行。

图1. 每个数据集在CV迭代中的MCC分布。

图2解释了有关“代谢”的差异,可以看到“代谢”的规模比L1途径 (途径规模由与该途径相关的所有化合物中非氢原子的总数定义) 大得多,与之相关的化合物更多,数据集中与“代谢”途径相对应的阳性条目也更多。类别不平衡问题使这项机器学习任务变得困难,因为与途径无关的化合物往往很多,而与途径相关的化合物相对较少。然而,“代谢”途径也存在相反但同样具有挑战性的问题,即阳性条目过多,而其他途径则面临着阴性条目过多的挑战。“代谢”的真阳性有助于提高F1得分,但假阴性的数量会降低特异性。

图2. L1通路MCC和大小以及具有正值的通路特征的数量。

图3清晰地描绘了完整KEGG数据集中化合物与途径的大小分布情况。图3a展示了被广泛分布的所有途径,其中,“代谢”途径以其超过160,000的规模 (如图2所示) 显著突出。为了更精确地观察途径大小分布的峰值,图3b聚焦于大小不超过1000的途径,并展示了其途径计数的详细分布。

图3. 完整KEGG数据集中通路和化合物大小的分布:(a) 所有通路的大小分布;(b) 小于1000的通路的分布;(c) 化合物的大小分布。此处的大小是指化合物或通路中非氢原子的数量 (与通路相关的化合物的总和)。

图4则揭示了单个化合物和途径的马修斯相关系数 (MCC) 分布情况。值得注意的是,途径的MCC主要集中在0.6—0.9的区间内,而其他途径的MCC则更接近0,甚至偶有略低于0的情况出现,这暗示了部分途径的预测存在轻微的反向趋势。值得一提的是,即便在进行了200次交叉验证 (CV) 迭代后,仍有四条途径因无法在不除以零的情况下计算MCC而未能获得有效的分数,因此它们无法单独纳入结果分析,但其假阴性和真阴性计数仍对最终结果的计算产生了影响。

图4. 完整KEGG数据集中各个途径和化合物的MCC分布:(a) 途径MCC的分布;(b) 化合物MCC的分布。

图5进一步探究了化合物与途径大小与其相应MCC之间的关系。在对x轴进行对数缩放后,作者发现无论是途径 (图5b) 还是化合物 (图5d),其大小与MCC之间均未呈现出强烈的线性相关性。然而,途径的分布呈现出漏斗形状,意味着随着途径大小的增加,其方差逐渐减小。对于化合物而言,当大小达到某个临界值时 (如图5),其MCC才可能达到1.0的高峰。

图5. 通路和化合物大小与完整KEGG数据集的单个MCC的关系:(a) 通路大小与通路MCC;(b) 通路大小与通路MCC,x轴为对数尺度;(c) 化合物大小与化合物MCC;(d) 化合物大小与化合物MCC,x轴为对数尺度。文章总结

总的来说,这项研究不仅展示了机器学习在预测化合物通路参与度方面的巨大潜力,还为生物和生物医学研究提供了强有力的支持。随着更多的化合物和通路被纳入研究范围,预测性能的不断提升,相信这一领域将会迎来更加广阔的发展前景。未来,该领域的研究工作应以这一标准为基础,不断探索新的预测方法和应用场景,为生物学和生物医学领域的发展贡献更多的智慧和力量。

原文信息

Huckvale, E.D.; Moseley, H.N.B. Predicting the Pathway Involvement of All Pathway and Associated Compound Entries Defined in the Kyoto Encyclopedia of Genes and Genomes. Metabolites 2024, 14, 582. https://doi.org/10.3390/metabo14110582

Metabolites 期刊介绍

期刊内容涵盖代谢组学、代谢生物化学、计算和系统生物学、生物技术和医学领域相关的代谢物以及代谢方面的研究。

2023 Impact Factor: 3.5

2024 CiteScore: 6.9

特别声明:该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

410kW巨擎诞生!骥翀氢能MH290电堆赋能重卡新生

多年以来,骥翀氢能基于燃料电池理论与实践经验,建立独有的车用电堆正向产品开发流程,以确保产品性能、寿命及成本目标的实现,同时缩短开发周期、降低开发成本,形成独立的知识产权体系和持续升级迭代能力,在此次MH29…

410kW巨擎诞生!骥翀氢能MH290电堆赋能重卡新生

人体工学巅峰,chennu臣奴 自动扣男士腰带,开启腰间皮具「舒展自如」的崭新纪元!(人体工学行业)

臣奴 带着颠覆式的创新结构,用“一推即锁,一拉即开” 的便捷方式,化繁为简。 将皮带尾完美隐藏,忍隐的是飘逸,展示的是成熟与睿智;整圈都是理想弧线,皮带与腰围完美贴合。 臣奴CHENNU,参与你人生的每一…

人体工学巅峰,chennu臣奴 自动扣男士腰带,开启腰间皮具「舒展自如」的崭新纪元!(人体工学行业)

媒体:韦世豪实现自我救赎 球场表现回应质疑(韦世豪专访)

北京时间7月25日,媒体回顾了足协杯14决赛成都蓉城以2-1战胜青岛海牛的比赛,并对表现出色的韦世豪进行了点评。韦世豪通过进球和胜利回应了过去一周围绕自己的各种声音

媒体:韦世豪实现自我救赎 球场表现回应质疑(韦世豪专访)

优服务丨微光暖人心 细节见真情——齐齐哈尔市第一医院南院老年医学科用服务温度守护银发岁月(微光暖暖)

李奶奶说,以前护士用手电筒查房,强光扫过眼睛,她总要醒好一会儿,现在有了“月光灯”,两小时一次的查房成了“隐形的守护”,反而睡得更沉了。为此,科室特意配置了磁吸定位灯,护士进入哪个病房,便会把灯吸在对应门口墙…

优服务丨微光暖人心 细节见真情——齐齐哈尔市第一医院南院老年医学科用服务温度守护银发岁月(微光暖暖)

Dell'Oro报告:5G SA部署加速 推动5G核心网市场增长率提高(dell vlt0204报错)

C114讯 北京时间7月25日消息(岳明)根据市场研究公司Dell'Oro Group发布的最新报告,全球5G移动核心网市场在2024-2029年期间预计将以6%的年复合增长率(CAGR)增长,这一增长主要5…

Dell'Oro报告:5G SA部署加速 推动5G核心网市场增长率提高(dell vlt0204报错)