最新的推理模型进展可以看作是更重视强化学习阶段,这样我们不仅仅是提取信息,还让模型能够找到自己的思维方式。预训练模型学到了世界的一些知识,但它并不真正理解自己是如何学到这些的,也没有时间顺序感。我们在这些…