对于一个 LLM 来讲,大家现在最经常干的事就是 Prompt 优化、然后是 RAG、如果这两个都不成,会考虑用一些 FineTune 来搞一下,大部分人的工作也就止步于此了。是大家不想继续深入下去吗?是大家不想做完整的 From Scratch Training 吗?其实是因为大部分团队没有这样的技术框架基础与数据基础。
现在 Olmo 给了所有人一个一窥全貌的机会
OLMo - Open Language Model by AI2
看一下 Olmo 提供了什么:
OLMo 及其相关框架包含以下组成部分:
完整的预训练数据集:基于 AI2 的 Dolma 数据集构建,它是一个开放的语料库,包含了 3 万亿个令牌,专门用于语言模型的预训练。此外,还提供了生成这些训练数据的代码。
训练代码与模型权重:OLMo 框架提供了四种模型变体,每种规模达到 7B,且每个模型都至少训练了 2 万亿个令牌。我们还提供了进行推理的代码、训练过程中使用的指标以及训练日志。
评估工具:我们公布了用于开发过程中的评估套件,包括每个模型的 500 多个检查点,这些检查点是从训练过程中每隔 1000 步获取的,以及属于 Catwalk 项目的评估代码。
此外还有FineTune 代码与对应的调整的模型。
这些都是在 Apache2.0 这个许可证下发布的,可以说对于商业友好至极。