更新时间:2024-09-23 17:54:56
封面
版权信息
版权
内容提要
致谢
前言
资源与支持
资源获取
提交错误信息
主要符号表
第1章 机器学习基础
1.1 案例学习
1.2 线性模型
1.2.1 分段线性曲线
1.2.2 模型变形
1.2.3 机器学习框架
第2章 实践方法论
2.1 模型偏差
2.2 优化问题
2.3 过拟合
2.4 交叉验证
2.5 不匹配
参考资料
第3章 深度学习基础
3.1 局部最小值与鞍点
3.1.1 临界点及其种类
3.1.2 判断临界值种类的方法
3.1.3 逃离鞍点的方法
3.2 批量和动量
3.2.1 批量大小对梯度下降法的影响
3.2.2 动量法
3.3 自适应学习率
3.3.1 AdaGrad
3.3.2 RMSProp
3.3.3 Adam
3.4 学习率调度
3.5 优化总结
3.6 分类
3.6.1 分类与回归的关系
3.6.2 带有 softmax 函数的分类
3.6.3 分类损失
3.7 批量归一化
3.7.1 放入深度神经网络
3.7.2 测试时的批量归一化
3.7.3 内部协变量偏移
第4章 卷积神经网络
4.1 观察1:检测模式不需要整幅图像
4.2 简化1:感受野
4.3 观察2:同样的模式可能出现在图像的不同区域
4.4 简化2:共享参数
4.5 简化1和简化2的总结
4.6 观察3:下采样不影响模式检测
4.7 简化3:汇聚
4.8 卷积神经网络的应用:下围棋
第5章 循环神经网络
5.1 独热编码
5.2 什么是RNN
5.3 RNN架构
5.4 其他RNN
5.4.1 Elman 网络 和 Jordan 网络
5.4.2 双向循环神经网络
5.4.3 LSTM
5.4.4 LSTM举例
5.4.5 LSTM运算示例
5.5 LSTM网络原理
5.6 RNN的学习方式
5.7 如何解决RNN的梯度消失或梯度爆炸问题
5.8 RNN的其他应用
5.8.1 多对一序列
5.8.2 多对多序列
5.8.3 序列到序列
第6章 自注意力机制
6.1 输入是向量序列的情况
6.1.1 类型1:输入与输出数量相同
6.1.2 类型2:输入是一个序列,输出是一个标签
6.1.3 类型3:序列到序列任务
6.2 自注意力机制的运作原理
6.3 多头自注意力
6.4 位置编码
6.5 截断自注意力
6.6 对比自注意力与卷积神经网络
6.7 对比自注意力与循环神经网络
第7章 Transformer
7.1 序列到序列模型
7.1.1 语音识别、机器翻译与语音翻译
7.1.2 语音合成
7.1.3 聊天机器人
7.1.4 问答任务
7.1.5 句法分析
7.1.6 多标签分类
7.2 Transformer结构
7.3 Transformer编码器
7.4 Transformer解码器
7.4.1 自回归解码器
7.4.2 非自回归解码器
7.5 编码器-解码器注意力