详细阐述了Transformer架构的创新点,如自注意力机制、多头注意力等,并展示了从2017年Transformer出现到2025年DeepSeek-R1的大型语言模型发展简史。报告重点介绍了DeepSee…