极低内存消耗首次实现了在 12GB 内存的消费级 GPU 上成功预训练 LLaMA 7B模型,为大模型训练在低资源环境下提供了新的可能性。APOLLO 不仅在理论上打破了优化器内存瓶颈,更在实践中展现出预…