目 录
第 1 章 引言 1
1.1 机器学习的目的:从数据到知识 1
1.2 机器学习的基本框架 2
1.2.1 数据集合与对象特性表示 3
1.2.2 学习判据 4
1.2.3 学习算法 5
1.2.4 评估方法 5
1.3 机器学习思想简论 5
延伸阅读 7
习题 8
参考文献 9
第 2 章 归类理论 11
2.1 类表示与类表示公理 13
2.2 归类公理 17
2.3 归类结果分类 20
2.4 归类方法设计准则 22
2.4.1 类一致性准则 23
2.4.2 类紧致性准则 24
2.4.3 类分离性准则 25
2.4.4 奥卡姆剃刀准则 26
讨论 28
延伸阅读 29
习题 30
参考文献 32
第 3 章 密度估计 33
3.1 密度估计的参数方法 33
3.1.1 最大似然估计 33
3.1.2 贝叶斯估计 35
3.2 密度估计的非参数方法 39
3.2.1 直方图 39
3.2.2 核密度估计 39
3.2.3 K 近邻密度估计法 40
延伸阅读 40
习题 41
参考文献 41
第 4 章 回归 43
4.1 线性回归 43
4.2 岭回归 47
4.3 Lasso 回归 48
讨论 51
习题 52
参考文献 52
第 5 章 单类数据降维 55
5.1 主成分分析 56
5.2 非负矩阵分解 58
5.3 字典学习与稀疏表示 59
5.4 局部线性嵌入 61
5.5 多维度尺度分析与等距映射 64
5.6 典型关联分析 66
5.7 随机邻域嵌入及其扩展 68
5.7.1 随机邻域嵌入 68
5.7.2 t-SNE 70
讨论 71
习题 71
参考文献 72
第 6 章 聚类理论 73
6.1 聚类问题表示及相关定义 73
6.2 聚类算法设计准则 74
6.2.1 类紧致性准则和聚类不等式 74
6.2.2 类分离性准则和重合类非稳定假设 76
6.2.3 类一致性准则和迭代型聚类算法 77
6.3 聚类有效性 77
6.3.1 外部方法 77
6.3.2 内蕴方法 79
延伸阅读 80
习题 81
参考文献 81
第 7 章 聚类算法 85
7.1 样例理论:图聚类算法 85
7.1.1 层次聚类算法 86
7.1.2 HB 聚类算法 88
7.1.3 SATB 聚类算法 90
7.2 原型理论:点原型聚类算法 92
7.2.1 C 均值算法 93
7.2.2 模糊 C 均值 95
7.2.3 最大熵 C 均值算法 97
7.3 基于密度估计的聚类算法 99
7.3.1 基于参数密度估计的聚类算法 99
7.3.2 基于无参数密度估计的聚类算法 107
延伸阅读 117
习题 118
参考文献 118
第 8 章 分类理论 121
8.1 分类及相关定义 121
8.2 从归类理论到经典分类理论 122
8.2.1 PAC 理论 123
8.2.2 统计学习理论 125
8.3 分类测试公理 128
8.4 分类性能评估 129
讨论 130
习题 131
参考文献 131
第 9 章 基于单类的分类算法:神经网络 133
9.1 分类问题的回归表示 133
9.2 人工神经网络 134
9.2.1 人工神经网络简介 134
9.2.2 前馈神经网络 136
9.3 从参数密度估计到受限玻耳兹曼机 141
9.4 深度学习 143
9.4.1 自编码器 144
9.4.2 卷积神经网络 145
9.4.3 Transformer 147
讨论 149
习题 150
参考文献 151
第 10 章 K 近邻分类模型 155
10.1 K 近邻算法 156
10.1.1 K 近邻算法问题表示 156
10.1.2 K 近邻分类算法 157
10.1.3 K 近邻分类算法的理论错误率 158
10.2 距离加权最近邻算法 159
10.3 K 近邻算法加速策略 160
10.4 kd 树 161
10.5 K 近邻算法中的参数问题 162
延伸阅读 163
习题 164
参考文献 164
第 11 章 线性分类模型 165
11.1 判别函数和判别模型 165
11.2 线性判别函数 166
11.3 线性感知机算法 169
11.3.1 感知机数据表示 169
11.3.2 感知机算法的归类判据 170
11.3.3 感知机分类算法 171
11.4 支持向量机 174
11.4.1 线性可分支持向量机 174
11.4.2 近似线性可分支持向量机 177
11.4.3 多类分类问题 180
讨论 182
习题 183
参考文献 184
第 12 章 对数线性分类模型 185
12.1 Softmax 回归 185
12.2 Logistic 回归 188
讨论 190
习题 191
参考文献 191
第 13 章 贝叶斯决策 193
13.1 贝叶斯分类器 193
13.2 朴素贝叶斯分类 194
13.2.1 最大似然估计 196
13.2.2 贝叶斯估计 199
13.3 最小化风险分类 201
13.4 效用最大化分类 203
讨论 203
习题 204
参考文献 204
第 14 章 决策树 205
14.1 决策树的类表示 205
14.2 信息增益与 ID3 算法 210
14.3 增益比率与 C4.5 算法 212
14.4 Gini 指数与 CART 算法 213
14.5 决策树的剪枝 214
讨论 215
习题 215
参考文献 216
第 15 章 多类数据降维 217
15.1 有监督特征选择模型 217
15.1.1 过滤式特征选择 218
15.1.2 包裹式特征选择 219
15.1.3 嵌入式特征选择 219
15.2 有监督特征提取模型 220
15.2.1 线性判别分析 220
15.2.2 二分类线性判别分析问题 220
15.2.3 二分类线性判别分析 221
15.2.4 二分类线性判别分析优化算法 223
15.2.5 多分类线性判别分析 223
延伸阅读 225
习题 225
参考文献 225
第 16 章 多类数据升维:核方法 227
16.1 核方法 227
16.2 非线性支持向量机 228
16.2.1 特征空间 228
16.2.2 核函数 228
16.2.3 常用核函数 230
16.2.4 非线性支持向量机 230
16.3 多核方法 231
讨论 233
习题 233
参考文献 234
第 17 章 多源数据学习 235
17.1 多源数据学习的分类 235
17.2 单类多源数据学习 235
17.2.1 完整视角下的单类多源数据学习 236
17.2.2 不完整视角下的单类多源数据学习 238
17.3 多类多源数据学习 239
17.4 多源数据学习中的基本假设 240
讨论 240
习题 241
参考文献 241
后记 243
写在《机器学习:从公理到算法》第 4 次印刷之后 247
写在《机器学习:从公理到算法》第 5 次印刷之后 249
索引 251