大模型架构设计与超参数优化¶ 概览¶ 回顾 Transformer 架构 现阶段语言模型的共同点 现今架构和训练过程的不同种类 Transformer¶ 最初的 Transformer 现代的 Transformer