图书目录

目录

第1 章绪论/ 1

1.1 深度学习的历史/ 1

1.2 深度学习的应用/ 4

1.3 深度学习研究的前沿与趋势/ 7

1.3.1 深度学习研究的发展趋势/ 8

1.3.2 深度学习研究的挑战/ 10

第2 章基础知识/ 12

2.1 学习算法与评价方法/ 12

2.1.1 任务与机器学习算法/ 12

2.1.2 性能度量与评价指标/ 14

2.2 假设空间、过拟合和欠拟合/ 22

2.3 偏差和方差/ 23

2.3.1 偏差、方差与噪声的定义/ 23

2.3.2 泛化误差的分解/ 23

2.3.3 偏差与方差的权衡/ 24

2.4 最大似然估计/ 24

2.5 贝叶斯决策/ 27

2.5.1 贝叶斯定理/ 27

2.5.2 贝叶斯分类器/ 27

2.5.3 最小化错误率/ 28

2.5.4 贝叶斯风险/ 28

2.6 无监督、半监督和自监督学习/ 30

2.6.1 无监督学习/ 30

2.6.2 半监督学习/ 32

2.6.3 自监督学习/ 33

2.7 损失函数/ 34

2.7.1 分类任务/ 34

2.7.2 回归任务/ 35

2.7.3 密度估计任务/ 36

2.7.4 目标检测任务/ 36

2.7.5 图像分割任务/ 37

2.7.6 自然语言处理任务/ 37

2.8 习题/ 38

第3 章经典神经网络/ 39

3.1 感知机算法/ 39

3.1.1 基本模型/ 39

3.1.2 学习策略/ 40

3.1.3 感知机的特点与局限/ 40

3.2 多层感知机/ 41

3.2.1 基本结构/ 41

3.2.2 隐含层的作用/ 41

3.3 反向传播/ 42

3.3.1 链式法则/ 42

3.3.2 反向传播算法/ 42

3.3.3 反向传播示例/ 45

3.3.4 反向传播面临的挑战/ 47

3.4 典型优化算法/ 47

3.4.1 梯度下降法/ 48

3.4.2 牛顿法/ 49

3.4.3 拟牛顿法/ 50

3.4.4 高斯-牛顿法/ 52

3.4.5 L-M 方法/ 54

3.5 激活函数/ 55

3.5.1 Sigmoid 型函数/ 56

3.5.2 ReLU 型函数/ 58

3.5.3 门控型函数/ 60

3.5.4 Mish 函数/ 62

3.5.5 Maxout 单元/ 63

3.5.6 AconC 函数/ 63

3.5.7 各种激活函数的比较/ 64

3.6 习题/ 65

第4 章深度卷积网络/ 67

4.1 卷积运算及其特性/ 67

4.1.1 卷积运算/ 67

4.1.2 填充/ 68

4.1.3 步幅/ 69

4.1.4 卷积的特性/ 69

4.2 卷积函数的变体/ 72

4.2.1 空洞卷积/ 72

4.2.2 分组卷积/ 72

4.2.3 深度可分离卷积/ 74

4.2.4 可形变卷积/ 75

4.3 池化/ 75

4.3.1 池化的概念/ 75

4.3.2 池化的意义/ 76

4.3.3 池化层反向传播/ 77

4.4 归一化技术/ 77

4.4.1 批量归一化/ 78

4.4.2 其他归一化技术/ 78

4.5 卷积网络架构设计/ 79

4.5.1 LeNet-5 / 79

4.5.2 AlexNet / 80

4.5.3 VGGNet / 81

4.5.4 残差网络/ 82

4.5.5 密集连接网络/ 82

4.5.6 Squeeze-and-Excitation Network / 84

4.5.7 MobileNet / 84

4.5.8 EfficientNet / 85

4.5.9 High-Resolution Network / 86

4.5.10 ConvNeXt / 86

4.6 卷积网络的典型应用/ 87

4.6.1 图像分类/ 87

4.6.2 目标检测/ 88

4.6.3 图像分割/ 88

4.7 习题/ 89

第5 章循环神经网络/ 90

5.1 经典循环神经网络/ 91

5.1.1 循环神经网络的两种设计模式/ 91

5.1.2 前向传播和反向传播/ 93

5.1.3 深度循环网络/ 94

5.1.4 双向循环网络/ 96

5.1.5 基于编码-解码的序列到序列架构/ 97

5.2 长短时记忆网络/ 98

5.2.1 长序列的挑战/ 98

5.2.2 长短时记忆网络/ 99

5.3 门控网络/ 101

5.4 带外置记忆的循环网络/ 102

5.5 Mamba 架构/ 103

5.6 习题/ 104

第6 章Transformer / 106

6.1 自注意力机制/ 106

6.2 位置编码/ 108

6.3 Transformer 结构/ 109

6.3.1 前馈层/ 111

6.3.2 残差连接与层归一化/ 111

6.3.3 编码器和解码器结构/ 111

6.4 Transformer 与大语言模型/ 112

6.4.1 Encoder-only 架构/ 112

6.4.2 Encoder-Decoder 架构/ 113

6.4.3 Decoder-only 架构/ 114

6.5 视觉Transformer / 115

6.5.1 视觉Transformer 架构/ 116

6.5.2 典型视觉Transformer 模型/ 117

6.6 视觉Transformer 与卷积神经网络的关系/ 117

6.6.1 视觉Transformer 与卷积神经网络结构的异同/ 117

6.6.2 视觉Transformer 与卷积神经网络各自的优势/ 119

6.7 Transformer 的未来发展趋势/ 120

6.8 习题/ 120

第7 章图神经网络/ 121

7.1 图的表示/ 122

7.2 图机器学习任务/ 122

7.2.1 节点分类/ 123

7.2.2 关系预测/ 123

7.2.3 社群检测/ 123

7.2.4 图级别任务/ 123

7.3 图神经网络的基本框架/ 124

7.3.1 神经消息传递/ 124

7.3.2 节点嵌入的迭代更新过程/ 125

7.3.3 聚合函数/ 125

7.4 典型图神经网络/ 127

7.4.1 图卷积神经网络/ 127

7.4.2 图采样与聚合网络/ 128

7.4.3 图注意力网络/ 128

7.5 过度平滑问题/ 130

7.5.1 跳层连接/ 131

7.5.2 图循环神经网络/ 133

7.6 图神经网络的应用与趋势/ 133

7.6.1 图神经网络的典型应用/ 133

7.6.2 图神经网络的发展趋势/ 134

7.7 习题/ 134

第8 章深度生成模型/ 136

8.1 变分自编码器/ 136

8.1.1 自编码器/ 137

8.1.2 基本结构/ 137

8.1.3 目标函数/ 138

8.1.4 重参数化技巧/ 139

8.1.5 变分自编码器的变种/ 139

8.2 生成对抗网络/ 140

8.2.1 生成器和判别器/ 140

8.2.2 对抗训练的目标函数/ 141

8.2.3 训练过程/ 143

8.2.4 生成对抗网络的变种/ 143

8.3 扩散概率模型/ 145

8.3.1 正向扩散过程/ 145

8.3.2 逆向扩散过程/ 146

8.3.3 训练目标/ 147

8.3.4 扩散模型的改进形式/ 150

8.4 基于词元的生成模型/ 151

8.4.1 基于词元的生成方法/ 151

8.4.2 自回归生成模型/ 152

8.4.3 非自回归生成模型/ 152

8.5 生成模型的评价指标/ 153

8.5.1 Inception 分数/ 153

8.5.2 模式分数/ 154

8.5.3 核最大均值差异/ 154

8.5.4 Wasserstein 距离/ 155

8.5.5 Fréchet Inception 距离/ 155

8.5.6 峰值信噪比/ 156

8.5.7 结构相似性/ 156

8.5.8 CLIP 分数/ 156

8.6 生成模型的应用与趋势/ 157

8.6.1 生成模型的典型应用/ 157

8.6.2 生成模型的未来发展趋势/ 159

8.7 习题/ 160

第9 章深度神经网络的优化方法/ 162

9.1 深度神经网络优化的挑战/ 162

9.1.1 梯度悬崖/ 162

9.1.2 梯度消失和梯度爆炸/ 163

9.2 局部极小值与鞍点/ 163

9.2.1 局部极小值/ 164

9.2.2 鞍点/ 164

9.3 损失函数曲面分析/ 165

9.4 随机梯度方法/ 166

9.5 动量算法/ 168

9.6 自适应学习率优化算法/ 170

9.7 习题/ 173

第10 章深度学习中的正则化/ 174

10.1 参数范数惩罚/ 174

10.1.1 L2 参数正则化/ 175

10.1.2 L1 参数正则化/ 176

10.1.3 作为约束的范数惩罚/ 177

10.2 数据扩增/ 178

10.2.1 图像空间中的数据扩增/ 178

10.2.2 特征空间中的数据扩增/ 180

10.3 模型集成学习/ 180

10.3.1 多模型生成策略/ 181

10.3.2 多模型集成方法/ 182

10.4 随机失活方法/ 183

10.5 其他正则化方法/ 184

10.6 习题/ 185

第11 章自监督学习/ 186

11.1 自监督学习概述/ 186

11.1.1 监督学习范式的困难和局限/ 186

11.1.2 自监督和无监督学习/ 187

11.1.3 自监督学习与预训练-微调范式/ 187

11.2 计算机视觉中的自监督学习/ 188

11.2.1 对比学习/ 188

11.2.2 掩码学习/ 190

11.2.3 其他视觉自监督学习方法/ 191

11.3 自然语言处理中的自监督学习/ 193

11.3.1 词嵌入技术/ 194

11.3.2 掩码文本建模/ 194

11.3.3 自回归文本建模/ 195

11.4 多模态学习中的自监督学习/ 196

11.4.1 CLIP / 196

11.4.2 ALBEF / 198

11.4.3 VLMo / 199

11.4.4 BLIP / 200

11.5 自监督学习的发展趋势/ 201

11.6 习题/ 202

第12 章深度强化学习/ 203

12.1 任务与奖励/ 203

12.2 马尔可夫决策模型/ 205

12.2.1 马尔可夫决策过程/ 205

12.2.2 回报/ 207

12.2.3 价值函数与贝尔曼方程/ 208

12.3 策略迭代和价值迭代/ 209

12.3.1 价值迭代/ 210

12.3.2 策略迭代/ 210

12.3.3 广义策略迭代/ 212

12.4 策略学习/ 213

12.4.1 策略梯度定理/ 214

12.4.2 REINFORCE:蒙特卡洛策略梯度/ 215

12.5 离线强化学习/ 216

12.6 模仿学习/ 216

12.6.1 行为克隆/ 218

12.6.2 逆强化学习/ 219

12.6.3 对抗式模仿学习/ 219

12.7 强化学习与深度学习的结合/ 220

12.8 深度强化学习应用与展望/ 220

12.8.1 围棋/ 221

12.8.2 视频游戏/ 221

12.8.3 人类反馈强化学习/ 221

12.8.4 机器人控制/ 222

12.9 习题/ 222

第13 章深度神经网络的高效计算/ 223

13.1 参数量化/ 223

13.1.1 常见的量化实现方式/ 223

13.1.2 量化方法分类/ 224

13.1.3 常见的量化方法/ 225

13.2 网络剪枝/ 226

13.2.1 剪枝的基本类型/ 226

13.2.2 神经网络剪枝算法/ 227

13.3 知识蒸馏/ 231

13.3.1 神经网络中的知识/ 232

13.3.2 蒸馏方法/ 233

13.3.3 师生架构/ 234

13.4 重参数化/ 234

13.4.1 基于卷积核分解的重参数化/ 235

13.4.2 多样化分支合并的重参数化/ 235

13.5 低秩近似/ 237

13.5.1 奇异值分解/ 237

13.5.2 高维张量分解/ 238

13.5.3 低秩适应/ 239

13.6 动态计算/ 239

13.6.1 样本自适应动态网络/ 240

13.6.2 空间自适应动态网络/ 242

13.6.3 时间自适应动态网络/ 243

13.7 神经架构搜索/ 244

13.7.1 搜索空间/ 245

13.7.2 搜索策略/ 246

13.7.3 性能估计策略/ 247

13.8 习题/ 247

第14 章PyTorch 深度学习框架/ 248

14.1 PyTorch 深度学习框架简介/ 248

14.1.1 什么是PyTorch / 248

14.1.2 PyTorch 框架发展历史/ 249

14.1.3 PyTorch 的特点和优势/ 249

14.2 张量/ 250

14.2.1 张量初始化/ 250

14.2.2 张量属性/ 251

14.2.3 张量操作/ 251

14.3 自动求导机制/ 254

14.3.1 自动求导机制简介/ 254

14.3.2 PyTorch 自动求导机制介绍/ 254

14.4 常用的激活函数/ 256

14.5 常用的神经网络层/ 257

14.5.1 全连接层/ 257

14.5.2 卷积层/ 257

14.5.3 池化层/ 257

14.5.4 循环神经网络层/ 258

14.5.5 常用的预训练模型/ 258

14.6 PyTorch 训练神经网络的简单实例/ 259

14.6.1 前向传播和损失计算/ 260

14.6.2 反向传播/ 260

14.6.3 梯度下降/ 262

14.6.4 训练循环/ 264

14.7 训练一个真实数据上的图像分类器/ 265

14.7.1 数据准备/ 265

14.7.2 训练图像分类器/ 266

14.8 训练文本分类器/ 270

14.8.1 访问原始数据集迭代器/ 270

14.8.2 数据处理的流程/ 270

14.8.3 生成数据批次和迭代器/ 271

14.8.4 定义模型/ 272

14.8.5 实例化模型/ 274

14.8.6 分割数据集并运行模型/ 274

14.8.7 定义模型训练和评估函数/ 275

14.8.8 训练模型并评估结果/ 276

14.8.9 用测试数据集评估模型/ 278

14.9 习题/ 279

附录A 线性代数/ 280

A.1 标量、向量、矩阵和张量/ 280

A.2 矩阵的乘法和逆/ 281

A.3 线性相关和生成子空间/ 282

A.4 范数/ 283

A.5 特征分解/ 283

A.6 奇异值分解/ 284

附录B 微积分/ 286

B.1 导数与偏导数/ 286

B.1.1 一元函数的导数/ 286

B.1.2 多元函数的偏导数/ 286

B.2 链式法则/ 286

B.3 梯度与Hessian 矩阵/ 287

B.3.1 梯度/ 287

B.3.2 Hessian 矩阵/ 287

B.4 常见函数的求导规则/ 287

附录C 概率统计/ 289

C.1 随机变量/ 289

C.1.1 定义/ 289

C.1.2 分布函数/ 290

C.1.3 概率质量函数与概率密度函数/ 290

C.1.4 条件独立性/ 291

C.2 期望、方差和协方差/ 291

C.2.1 期望/ 291

C.2.2 方差/ 292

C.2.3 协方差/ 293

C.3 常用概率分布/ 294

C.3.1 离散型分布/ 294

C.3.2 连续型分布/ 295

C.4 贝叶斯规则/ 296

C.4.1 全概率公式与贝叶斯公式/ 296

C.4.2 连续贝叶斯准则/ 296

C.5 信息论/ 296

C.5.1 香农熵/ 297

C.5.2 互信息/ 297

C.6 结构化概率模型/ 297

C.6.1 贝叶斯网络/ 298

C.6.2 马尔可夫随机场/ 299

参考文献/ 301