编辑丨&
蛋白质维持生命,在全身发挥着许多重要的结构和功能作用。而与此同时,这些大分子给称为微蛋白(MicroProteins)的较小蛋白质亚类投下了长长的阴影。
这些微蛋白可能与疾病机制、细胞调节密不可分,但是传统注释方法常忽略这些小的开放阅读框(smORFs),难以全面挖掘其生物学价值。最近,美国索尔克生物研究所的团队开发了一个机器学习框架——ShortStop,旨在探测基因数据库并识别基因组中可能编码微蛋白的 DNA 片段。
该研究成果以「ShortStop: a machine learning framework for microprotein discovery」为题,于 2025 年 8 月 1 日刊登在《BMC Methods》。
论文链接:https://bmcmethods.biomedcentral.com/articles/10.1186/s44330-025-00037-4
暗区选择策略
微蛋白——小于 150 个氨基酸的蛋白质,只占人类的 UniProt/Swiss-Prot 数据库内超过 20,000 个特征明确的蛋白质的约 10%,但尚不清楚这个比例是因为真正的生物学限制还是由于它们处在大蛋白投射下的阴影中。
近年来,基因组学的进展使得研究者们发现了数千个新型 smORFs,通过核糖体测序法对 smORFs 进行解释,却发现了一个问题:哪些 smORFs 产生功能性微蛋白,哪些具有非编码作用?
所以,ShortStop 诞生了。过生成一致且现实的负训练数据集,为机器学习工具提供了急需的基础,使其能够更好地区分那些与已知微蛋白相似的 smORF 和那些不相似的 smORF。
具体来说,ShortStop 根据 smORF 翻译后的特征将其分类为两类:一类是与 Swiss-Prot 中已充分表征的微蛋白(称为 SAMs)具有共享蛋白质特征的 smORF;另一类是与人工生成的非典型微蛋白(称为 PRISMs)具有物理化学相似性的 smORF。
图 1:ShortStop 分类框架。
ShortStop 的训练依赖于计算机生成的随机 smORF 的阴性对照数据集。它无法明确地证明 smORF 是否会编码生物学相关的微蛋白,但这个两类系统极大地缩小了实验池的范围。现在,研究人员可以花更少的时间手动对数据集进行排序。
当研究人员将 ShortStop 应用于先前发布的 smORF 数据集时,他们确定了 8% 可能是功能性微蛋白,对于这些可以优先考虑进行有针对性的随访。
补充微蛋白的发现
研发团队表示,ShortStop 并不是一个翻译起始预测工具,像 TIS Transformer 这样的工具才算真正专业对口,并且有非常不错的表现。为了探索这些工具如何互补,团队将 ShortStop 与 TIS Transformer 结合以识别 SAMs。
对 300 万个潜在的 smORFs,ShortStop 将其中大约 16 万个分类为 SAMs,并检查了这些分类与 TIS Transformer 预测之间的重叠情况。TIS Transformer 报告的 21,197 个 smORF 预测中,有 11,848 个(55.9%)被 ShortStop 分类为 SAMs。
图 2:部分翻译工具中 smORFs 与 MS 证据的重叠。
有一个非常引人注意的 SAM,在 K562 细胞中高度表达,而在 HEK293T 细胞中几乎不表达,团队称之为 StARump,因其难以被现有方法检测与合适的对照数据而被选中。
这个由 StAR 基因上游重叠 smORF 编码的微蛋白,未被核糖体图谱(Mudge-2022)或翻译起始预测工具(TIS Transformer)发现,但被 ShortStop 归类为 SAMs。后续实验证实其在睾丸、卵巢等类固醇分泌组织中含量较高(250-500 pg/mg),脑脊液中达 1102 pg/mg,可能参与类固醇代谢调控。
分析肺癌患者 RNA-seq 数据,ShortStop 发现多个差异表达的 SAMs,其中一个由 COL1A1 基因可变剪接产生的微蛋白,不仅在肿瘤中高表达,还能被肿瘤免疫肽组学检测到,有望成为新的诊疗靶点。
让微蛋白研究少走弯路
作者坦承目前框架仍面临诸如验证数据稀缺、翻译证据难以获取、存在潜在的假阳性等挑战。
ShortStop 的一个关键特性是生成 PRISMs。作为近似的负控制数据集,虽然 PRISMs 不是完美的「真正非编码」数据集,但它们代表了最接近可用的 smORFs 的替代品。
归根结底来说,ShortStop 仍然是一个突破了现有局限的高效率标准化工具,它不依赖进化保守性,为微蛋白研究提供统一标准。未来,它可用于疾病标志物发现、细胞代谢调控机制研究等领域,助力揭开微蛋白的神秘面纱。