谷歌开源DeepPolisher，基因组组装错误率减半，Jeff Dean：令人振奋！(谷歌开源大模型) #科技 #错误率 #染色体 #数据 #技术 #Jeff

编辑丨coisini

精确的基因组组装（Genome assembly）是生物学研究的基石，但即便是最高质量的组装仍会残留构建技术导致的错误。人类基因组包含 30 亿个核苷酸，即使微小的错误率也会导致错误总量惊人，进而削弱基因组数据的应用价值。

碱基层面的错误通常需要通过额外的抛光（polishing）步骤来修正 —— 该步骤利用与初版组装比对后的测序读段来识别必要的编辑。然而，现有方法难以在过度抛光与抛光不足之间取得平衡。

为此，谷歌联合加州大学圣克鲁斯分校基因组学研究所等机构开发了一款新型深度学习工具 ——DeepPolisher，旨在通过精准修正碱基级错误显著提升基因组组装精度。

论文地址：https://genome.cshlp.org/content/35/7/1595

开源地址：https://github.com/google/deeppolisher

DeepPolisher 近期在完善人类泛基因组参考图谱中发挥了关键作用。谷歌首席科学家 Jeff Dean 称赞道：「（DeepPolisher）在基因组组装精度方面取得了令人振奋的进步！」

DeepPolisher 的创新突破

DeepPolisher 是一个基于 Transformer 架构的纯编码器模型，利用 PacBio HiFi 读段与二倍体组装的比对结果来预测底层序列的修正方案。

DeepPolisher 创新性地引入了「纯合区域读段定相法（PHARAOH）」，通过 ONT 超长读段数据确保比对相位准确性，并能在错误纯合区域正确引入杂合性修正。

DeepPolisher 的训练数据来自个人基因组计划（Personal Genomes Project）捐赠的人类细胞系基因组。该参考基因组经过美国国家标准与技术研究院（NIST）和美国国家人类基因组研究所（NHGRI）的全面鉴定，并采用多种测序技术验证，预计完整度达 100%，准确率达 99.99999%。

研究团队使用人类 1-19 号染色体进行训练，21、22 号染色体用于模型筛选，20 号染色体用于最终精度验证。

模型输入包含四大维度：碱基信息、测序仪报告的质量分数、读段定位质量、错配碱基注释。DeepPolisher 能分类识别组装错误并提出修正方案，最终实现基因组组装的精准校正。

性能表现

DeepPolisher 能将基因组组装错误减少约 50%，其中「插入 - 缺失错误（InDel）」的改善尤为显著，降幅超过 70%。

插入 - 缺失错误的修正至关重要，因为碱基的插入或缺失会导致「移码突变 ( frame shift mutation)」，致使基因组注释程序漏标相关基因，从而影响临床分析或药物研发中的检测报告。

为了评估 DeepPolisher 的优化效果，研究团队已将其应用于人类泛基因组参考联盟（HPRC）新数据发布的 180 个组装样本，通过交叉验证不同测序技术对同一样本的检测结果，成功识别出组装序列中的异常核苷酸组合，使基因组主要区域的预测质量值（QV）从平均 Q66.7 提升至 Q70.1，平均提升 3.4（相当于错误率降低 54%），并且所有评估样本均展现出显著改进。

DeepPolisher 现已投入实际应用。今年 5 月，HPRC 宣布的第二批数据经 DeepPolisher 处理，单核苷酸错误和插入 - 缺失错误率降低至原有水平的 50%，最终实现每五十万组装碱基中错误少于一个的极低误差率。

谷歌表示将 DeepPolisher 作为开源工具发布，是为了让其更广泛地服务于科研社区。DeepPolisher 将持续为科学界优化基因组学资源。

参考内容：https://research.google/blog/highly-accurate-genome-polishing-with-deeppolisher-enhancing-the-foundation-of-genomic-research/