谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!(谷歌开源大模型)

谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!(谷歌开源大模型)

编辑丨coisini

精确的基因组组装(Genome assembly)是生物学研究的基石,但即便是最高质量的组装仍会残留构建技术导致的错误。人类基因组包含 30 亿个核苷酸,即使微小的错误率也会导致错误总量惊人,进而削弱基因组数据的应用价值。

碱基层面的错误通常需要通过额外的抛光(polishing)步骤来修正 —— 该步骤利用与初版组装比对后的测序读段来识别必要的编辑。然而,现有方法难以在过度抛光与抛光不足之间取得平衡。

为此,谷歌联合加州大学圣克鲁斯分校基因组学研究所等机构开发了一款新型深度学习工具 ——DeepPolisher,旨在通过精准修正碱基级错误显著提升基因组组装精度。

论文地址:https://genome.cshlp.org/content/35/7/1595

开源地址:https://github.com/google/deeppolisher

DeepPolisher 近期在完善人类泛基因组参考图谱中发挥了关键作用。谷歌首席科学家 Jeff Dean 称赞道:「(DeepPolisher)在基因组组装精度方面取得了令人振奋的进步!」

DeepPolisher 的创新突破

DeepPolisher 是一个基于 Transformer 架构的纯编码器模型,利用 PacBio HiFi 读段与二倍体组装的比对结果来预测底层序列的修正方案。

DeepPolisher 创新性地引入了「纯合区域读段定相法(PHARAOH)」,通过 ONT 超长读段数据确保比对相位准确性,并能在错误纯合区域正确引入杂合性修正。

DeepPolisher 的训练数据来自个人基因组计划(Personal Genomes Project)捐赠的人类细胞系基因组。该参考基因组经过美国国家标准与技术研究院(NIST)和美国国家人类基因组研究所(NHGRI)的全面鉴定,并采用多种测序技术验证,预计完整度达 100%,准确率达 99.99999%。

研究团队使用人类 1-19 号染色体进行训练,21、22 号染色体用于模型筛选,20 号染色体用于最终精度验证。

模型输入包含四大维度:碱基信息、测序仪报告的质量分数、读段定位质量、错配碱基注释。DeepPolisher 能分类识别组装错误并提出修正方案,最终实现基因组组装的精准校正。

性能表现

DeepPolisher 能将基因组组装错误减少约 50%,其中「插入 - 缺失错误(InDel)」的改善尤为显著,降幅超过 70%。

插入 - 缺失错误的修正至关重要,因为碱基的插入或缺失会导致「移码突变 ( frame shift mutation)」,致使基因组注释程序漏标相关基因,从而影响临床分析或药物研发中的检测报告。

为了评估 DeepPolisher 的优化效果,研究团队已将其应用于人类泛基因组参考联盟(HPRC)新数据发布的 180 个组装样本,通过交叉验证不同测序技术对同一样本的检测结果,成功识别出组装序列中的异常核苷酸组合,使基因组主要区域的预测质量值(QV)从平均 Q66.7 提升至 Q70.1,平均提升 3.4(相当于错误率降低 54%),并且所有评估样本均展现出显著改进。

DeepPolisher 现已投入实际应用。今年 5 月,HPRC 宣布的第二批数据经 DeepPolisher 处理,单核苷酸错误和插入 - 缺失错误率降低至原有水平的 50%,最终实现每五十万组装碱基中错误少于一个的极低误差率。

谷歌表示将 DeepPolisher 作为开源工具发布,是为了让其更广泛地服务于科研社区。DeepPolisher 将持续为科学界优化基因组学资源。

参考内容:https://research.google/blog/highly-accurate-genome-polishing-with-deeppolisher-enhancing-the-foundation-of-genomic-research/

特别声明:[谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!(谷歌开源大模型)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

速抢,“支付宝碰一下”发放1亿元红包

用户在等电梯的时候,用户只要打开手机碰一下这个蓝环,就可以领取支付宝的“碰一下”支付红包、品牌优惠券等多种优惠,并且会直接存入支付宝,下次消费时就能用。 3、如果是在使用碰一碰功能的过程中出现了资金被盗的情况…

速抢,“支付宝碰一下”发放1亿元红包

林汐潼荣膺17季缪斯时尚盛典“全球荣耀见证官”(林汐免费阅读)

林汐潼作为见证者登场,是缪斯时尚盛典的忠实粉丝,曾多次登上缪斯时尚盛典的舞台,更是见证了整个荣耀体系的精神传承——她不仅展示了个人风采,更代表着缪斯童模群体的精神高度。 “全球荣耀见证官”作为缪斯时尚盛典…

林汐潼荣膺17季缪斯时尚盛典“全球荣耀见证官”(林汐免费阅读)

2025年全国绕线机公司排名 高低压配电柜厂适配之选

二、排名维度:从配电柜厂的核心需求出发我们围绕高低压配电柜厂的真实痛点,选取5个关键维度作为排名依据:1.定制化适配能力(能否匹配不同规格母线、配电柜型号);2.质量稳定性(连续运行72小时的故障发生率);…

2025年全国绕线机公司排名 高低压配电柜厂适配之选

美俄乌三方关系何去何从 和平之路充满变数(美俄外交关系)

8月8日是美方给出的俄乌达成和平协议的所谓“最后期限”。距离这个期限仅剩两天时,美国中东问题特使威特科夫访问了俄罗斯,并与俄罗斯总统普京会面,引起了全球媒体的关注。随后有消息称俄美两国总统可能会举行会晤。会谈后,美俄双方均表示会谈富有成效

美俄乌三方关系何去何从 和平之路充满变数(美俄外交关系)

电科网安:公司尊御系列安全手机仍在售卖中(电科网安公司经营情况)

证券日报网讯电科网安8月7日在互动平台回答投资者提问时表示,公司尊御系列安全手机仍在售卖中,已搭载鸿蒙系统。公司和华为、移动等厂商仍在持续合作。 (编辑 袁冠琳)…

电科网安:公司尊御系列安全手机仍在售卖中(电科网安公司经营情况)