李飞飞的高徒karpathy, 前OpenAI创始成员自己手写的C/CUDA的GPT-2你想不想自己动手从头到尾训练一个?
1000行多的代码,就能彻底了解GPT-2你真的不动心吗?
我带你从头到尾分析一下,然后动作干一遍,还不简单?
GPT-2基本信息
先看一下GPT-2的模型结构相关的数据吧:
训练数据是8百万的web页面;
15亿参数;
是对GPT-1的直接的Scaling Law,差不多直接10倍了参数与训练数据;
放出来的参数版本有117M, 355M, 774M与1.5B,
也就是下面这个规模的
另外就是不同规模的参数对应的EmbeddingSize也是不一样的