教学项目:How to Train Your GPT地址:github.com/raiyanyahya/how-to-train-your-gpt
一份从零开始构建世界级语言模型的指南。作者做这个项目,是为了真正学懂一些自己还没有完全理解的东西,尤其是 attention 部分。我经常用 AI 来理解关键概念,并验证自己的理解。
这是一本包含 12 章、7,500 多行代码的交互式教材,教你如何从零开始构建、训练并运行一个现代语言模型。它使用的架构家族,正是 ChatGPT、Claude、LLaMA 和 Mistral 背后的同类架构。
除了章节内容外,还有 18 个独立专题讲解,深入覆盖每一项技术:RoPE、attention、RMSNorm、SwiGLU、KV cache、AdamW、mixed precision 等。另有两篇叙事式 walkthrough,会带你跟踪一个句子如何一步步穿过整个模型。每个文件都遵循同一种风格:儿童式语言、没有术语堆砌、附带可运行的代码示例。
你不会只是阅读 Transformer 的概念。你会亲手写出每一行代码:tokenizer、embeddings、attention、training loop、inference engine。每一行代码都会有注释,解释它在做什么,以及为什么需要它。
AI创造营


