更新时间:2024-12-18 17:07:10
封面
版权信息
内容简介
前言
第1章 语言模型简介
1.1 传统语言模型
1.1.1 n-gram语言模型
1.1.2 神经网络语言模型
1.1.3 传统语言模型的应用
1.2 大语言模型
1.2.1 大模型的发展历程
1.2.2 训练大模型的挑战
1.2.3 大模型的应用
1.3 大模型实例
1.3.1 基座模型实例
1.3.2 对齐模型实例
1.4 小结
第2章 大模型网络结构
2.1 Seq2Seq结构
2.2 注意力机制
2.3 Transformer架构
2.3.1 Transformer模型结构
2.3.2 编码器单元
2.3.3 解码器单元
2.3.4 位置编码
2.4 词元化
2.4.1 BPE
2.4.2 字节级BPE
2.4.3 WordPiece
2.4.4 Unigram语言模型
2.4.5 SentencePiece
2.5 解码策略
2.5.1 贪心搜索
2.5.2 集束搜索
2.5.3 Top-k采样
2.5.4 核采样
2.5.5 温度采样
2.6 小结
第3章 大模型学习范式的演进
3.1 预训练与微调的原理和典型模型
3.1.1 预训练与微调
3.1.2 三个典型模型
3.2 多任务学习的原理和典型模型
3.2.1 多任务学习
3.2.2 两个典型模型
3.3 大规模模型的能力
3.3.1 少样本学习
3.3.2 提示学习
3.3.3 上下文学习
3.4 小结
第4章 大模型对齐训练
4.1 对齐
4.1.1 对齐的定义
4.1.2 对齐的衡量指标
4.2 基于人类反馈的强化学习
4.2.1 监督微调的原理
4.2.2 训练奖励模型的原理
4.2.3 强化学习的原理
4.3 基于AI反馈的强化学习
4.4 直接偏好优化
4.5 超级对齐
4.6 小结
第5章 大模型评测与数据集
5.1 大模型评测方法
5.1.1 人工评测
5.1.2 自动评测
5.2 大模型评测指标
5.2.1 准确率、精确率、召回率与F1分数
5.2.2 困惑度
5.2.3 BLEU与ROUGE
5.2.4 pass@k
5.3 大模型能力评测基准
5.3.1 MMLU
5.3.2 GSM8K
5.3.3 C-Eval
5.3.4 HumanEval
5.4 数据集及预处理方法
5.4.1 预训练数据集
5.4.2 指令微调数据集
5.4.3 人工反馈数据集
5.4.4 数据预处理方法
5.5 小结
第6章 分布式训练与内存优化
6.1 大模型扩展法则
6.2 分布式训练策略
6.2.1 数据并行
6.2.2 张量并行
6.2.3 流水线并行
6.2.4 混合并行
6.3 大模型训练中的不稳定现象
6.4 分布式训练集群架构
6.4.1 中心化架构:参数服务器
6.4.2 去中心化架构:集合通信
6.5 内存优化策略
6.5.1 混合精度训练
6.5.2 梯度检查点
6.5.3 梯度累积
6.5.4 FlashAttention
6.6 分布式训练框架
6.7 小结