编辑丨&
在当下,基因编辑技术在科研工作中并不少见,不少疾病的药物研发、作物改良,都少不了它的技术支持。源自微生物的 CRISPR 基因编辑器虽然强大,但在移植到非原生环境后,其「功能权衡」——或者说,在活性、特异性等方面的表现并不尽如人意。
基于这种现状,美国加利福尼亚的 Profluent Bio 工作室借助 AI 的辅助设计,构建了一个包含超过 100 万 CRISPR 操纵子的数据集,并提出了一种由人工智能生成的基因编辑器 OpenCRISPR-1,与碱基编辑兼容。
该研究成果以「Design of highly functional genome editors by modelling CRISPR–Cas sequences」为题,于 2025 年 7 月 30 日刊登在《Nature》。
论文链接:https://www.nature.com/articles/s41586-025-09298-z
CRISPR–Cas Atlas
在明确了现有瓶颈之后,接下来一同了解「CRISPR–Cas Atlas」如何为 AI 设计提供丰富土壤。
研究团队首先从 26.2 Tbp 的全球微生物组装基因组中,通过 CRISPRCasFinder 等工具识别出 1,246,088 条CRISPR–Cas 操作子(operon),由此构建了前所未有的「CRISPR–Cas Atlas」。
这是一个包含了 Cas 蛋白、CRISPR 阵列、转激活 CRISPR RNA(tracrRNA)和 PAM 的 CRISPR–Cas 基因座数据集。相较于其他数据库,CRISPR–Cas Atlas 有着更为广泛的自然多样性。
与 UniProt 数据库相比,该 Atlas 所涵盖的 Cas 蛋白簇数量提升约 2.7 倍,对于如 Cas9(4.1 倍)、Cas12a(6.7 倍)和 Cas13(7.1 倍)等家族,扩展更为显著。这一海量操作子库不仅极大丰富了数据集,也为随后 AI 设计打下了坚实基础。
图 1:多样化 Cas 蛋白质家族的生成。
团队在「Atlas」基础上,基于 ProGen2-base 模型进行家族特异性微调(fine-tuning),平衡了蛋白质家族的代表性与序列簇的大小,并生成了 400 万条候选序列。
经过多重过滤后,生成的序列相比 CRISPR–Cas Atlas 中的天然蛋白质,多样性扩增 4.8 倍,在引导生成特定家族的序列中,通常在提供 50 个残基或更少的情况下,可以观察到对目标家族近乎完美的符合,展现了AI在蛋白设计领域的无与伦比能力。
与自然 CRISPR–Cas 蛋白相比,生成序列显示出相似程度的嵌合性,表明 LMs 生成的序列新颖性类似于进化,且生成的蛋白质仍被 AlphaFold2 可靠地预测,其中有 81.65% 的结构够到了 80 的平均预测局部距离差异测试(pLDDT)得分门槛。
OpenCRISPR-1
研究团队着重描写了他们在专注于生成 SpCas9 进化邻域中的 II 型效应子,最终产生的 OpenCRISPR-1 编辑系统。
这是一种原名为 PF-CAS-182 的最佳候选物,从 209 种经过微调的 SpCas9 样蛋白中脱颖而出。其在目标位点的活性与 SpCas9 相当,同时在已知的 SpCas9 脱靶位点的编辑效率降低了 95%。
OpenCRISPR-1 没有与之前工程化高保真 Cas9 变体中的任何一种共享突变,这表明它通过一组独特的分子相互作用实现了超低脱靶率。
图 2:OpenCRISPR-1 在 PAM、引导序列和碱基编辑中的特性表征。
与 SpCas9 相比,人类血清中针对 OpenCRISPR-1 的抗体结合量显著更低,降低临床应用的排斥风险。并且,OpenCRISPR-1 的兼容性强到可直接改造为碱基编辑器(如 ABE),在所有三个靶点上都表现出高效的 A 到 G 转换(编辑率 35-60%),并且没有 indel 副产物。
OpenCRISPR-1 在之前的实验中一直表现出高度的编辑效率,既可以作为完整生成的基因编辑器的一部分,也可以作为 SpCas9 在现有编辑系统中的即插即用替代品。
不止步于改造
大型蛋白质语言模型不仅能生成结构可信的新序列,还能产出真正可用的基因编辑器。作为工作的一部分,研究团队整理了 CRISPR–Cas Atlas——一个大型的 CRISPR 系统资源,用于训练蛋白质 LMs。
这项研究主要集中在 II 类效应蛋白上,不过团队的探索性结果表明,相同的方法可能也适用于其他 II 类系统的效应蛋白。为确保 AI 设计工具的安全与有效,后续需在动物模型中验证体内编辑效率与安全性,并与监管机构协作完善审批流程。
随着 CRISPR–Cas Atlas 持续扩容与模型迭代,加速构建低免疫原性、多目标定制化编辑工具箱的前景已然可期。