图书目录

目录

第1章深度学习基础1

1.1深度学习概述1

1.2神经网络原理2

1.2.1神经网络2

1.2.2激活函数9

1.3优化算法13

1.3.1前向传播与损失函数13

1.3.2反向传播14

1.3.3梯度下降16

1.3.4学习率衰减19

1.3.5模型的训练流程22

1.4过拟合的抑制25

1.4.1过拟合25

1.4.2Dropout27

1.4.3批标准化28

1.4.4权重衰减29

1.4.5早停机制30

第2章卷积神经网络32

2.1卷积神经网络概述32

2.2卷积35

2.2.1卷积操作35

2.2.2尺寸、填充与步长41

2.2.3常见卷积42

2.3池化46

2.3.1平均池化46

2.3.2最大池化47

2.3.3自适应池化48

2.4分类器49

2.4.1全连接分类器49

2.4.2全卷积分类器49

2.5卷积神经网络设计50

2.5.1AlexNet50

2.5.2VGGNet52

2.5.3ResNet55

2.6卷积神经网络的训练与分析58

2.6.1训练流程58

2.6.2可解释性分析62

第3章循环神经网络64

3.1RNN64

3.1.1序列数据64

3.1.2递归特性65

3.2LSTM68

3.2.1记忆69

3.2.2遗忘门70

3.2.3选择记忆门70

3.2.4输出门71

3.2.5LSTM的可视化72

3.3GRU79

3.3.1重置门80

3.3.2更新门81

3.3.3GRU的代码实现82

3.4应用模式83

3.4.1双向RNN83

3.4.2多对一85

3.4.3一对多86

3.4.4多对多87

第4章Transformer88

4.1自注意力机制88

4.1.1自注意力机制88

4.1.2注意力机制中的QKV90

4.1.3多头自注意力机制92

4.1.4掩码多头自注意力机制95

4.2Transformer的基本结构95

4.2.1位置编码95

4.2.2编码器98

4.2.3解码器100

4.2.4交叉自注意力机制的应用104

4.3大模型的定义与应用104

4.3.1大模型的定义104

4.3.2大模型的应用105

4.3.3Hugging Face与大模型106

4.4机器翻译任务中Transformer的训练109

4.4.1数据集的构建109

4.4.2模型的构建112

4.4.3损失计算与优化114

4.4.4自回归预测116

第5章计算机视觉技术117

5.1视觉模型117

5.1.1CNN模型117

5.1.2ViT模型119

5.2分类任务123

5.2.1单标签分类123

5.2.2多标签分类124

5.2.3分类任务的评估指标126

5.2.4类别不均衡问题128

5.3目标检测任务129

5.3.1RCNN模型130

5.3.2YOLO模型137

5.3.3DETR模型146

5.4图像分割任务149

5.4.1语义分割149

5.4.2实例分割152

5.4.3视觉分割大模型SAM155

5.5视觉自监督预训练157

5.5.1迁移学习与有监督预训练158

5.5.2SimCLR算法159

5.5.3MAE算法161

5.6视觉实战探索: 基于辅助训练的车牌识别研究163

5.6.1引言163

5.6.2相关工作164

5.6.3研究方法166

5.6.4实验与讨论167

第6章时间序列预测技术171

6.1时间序列171

6.1.1时间序列的特性171

6.1.2时间序列特征分解173

6.1.3时间序列的降噪178

6.2时间序列预测任务182

6.2.1短期时间序列预测182

6.2.2长期时间序列预测182

6.2.3异常检测184

6.2.4时间序列分类184

6.2.5缺失值填补185

6.3时序模型186

6.3.1循环神经网络模型186

6.3.2时域卷积神经网络模型191

6.3.3Transformer模型194

6.4时间序列预测任务的评估指标201

6.5时间序列预测实战探索: 基于PCA降噪特征选择与LSTM的湖泊溶解

氧含量预测模型研究202

6.5.1引言202

6.5.2基于MIC特征选取方法202

6.5.3湖泊水质溶解氧预测模型构建203

6.5.4实验205

第7章自然语言处理技术207

7.1自然语言处理任务207

7.1.1文本分类207

7.1.2命名实体识别208

7.1.3机器翻译208

7.1.4自然语言生成208

7.2文本数据预处理209

7.2.1分词210

7.2.2去停用词212

7.2.3文本可视化展示214

7.3文本向量化217

7.3.1TFIDF217

7.3.2独热编码219

7.3.3词嵌入221

7.4自然语言处理模型225

7.4.1数据填充225

7.4.2循环神经网络226

7.4.3Transformer227

7.5BERT228

7.5.1模型结构228

7.5.2预训练微调模式228

7.5.3预训练方式230

7.5.4模型调用231

7.5.5优势与意义232

7.6GPT233

7.6.1模型结构233

7.6.2预训练方式233

7.6.3模型调用234

7.6.4优势与意义236

7.7NLP实战探索: 基于BERT的模型的酒店评论文本情感分析研究237

7.7.1引言237

7.7.2数据集237

7.7.3BERT模型的构建237

7.7.4实验239

第8章多模态技术241

8.1多模态概述241

8.2多模态特征对齐243

8.3多模态输入融合243

8.3.1拼接或相加244

8.3.2自注意力机制248

8.3.3交叉注意力机制251

8.4跨模态输出251

8.4.1Seq2Seq251

8.4.2Transformer EncoderDecoder254

8.5CLIP视觉文本多模态255

8.5.1图像文本特征255

8.5.2损失函数259

8.5.3零样本分类260

8.6多模态常见任务262

8.6.1图文检索262

8.6.2视觉问答263

8.6.3文本图像生成265

8.6.4多模态目标检测267

8.7多模态技术实战探索: 基于CLIP的文本图像检索实现269

参考文献285