大模型基础
理解 Agent,先理解承载它的大模型。本章覆盖从底层架构到推理调优的全部内容。
本章内容
- Transformer 架构 — Attention 机制、位置编码、Decoder-only vs Encoder-Decoder
- Tokenization — BPE、SentencePiece、Tiktoken 与中文分词
- Embedding — 词向量、句向量、主流 Embedding 模型
- 预训练 / SFT / RLHF / DPO — 大模型四阶段训练范式
- 推理参数详解 — temperature、top_p、top_k、penalty 调优
- 推理优化 — KV Cache、量化、FlashAttention、Speculative Decoding
- 主流模型对比 — GPT、Claude、Gemini、Llama、Qwen、DeepSeek 横向评测
- 开源 vs 闭源选型 — 业务场景下的选型矩阵
学习路径
- 先掌握 Transformer + Tokenization + Embedding 这三个基石概念
- 理解 训练范式,知道 Base Model / Instruct Model / Reasoning Model 的差别
- 实战时重点掌握 推理参数 与 推理优化
- 选型阶段对照 主流模型对比 与 开源 vs 闭源 决策