目 录
第1部分 R语言基础与数据处理
第1章 R语言简介3
1.1 R语言概述3
1.1.1 R语言的诞生3
1.1.2 R语言的特点4
1.1.3 R语言绘图系统4
1.1.4 R语言与医学数据分析5
1.1.5 R语言与医学数据可视化6
1.2 搭建R语言环境8
1.2.1 安装程序下载8
1.2.2 R语言安装与启动10
1.2.3 辅助工具RStudio11
1.2.4 包的安装与加载14
1.3 对象与变量17
1.3.1 对象18
1.3.2 变量19
1.4 获取帮助信息20
1.4.1 使用内置帮助函数20
1.4.2 获取自带数据集信息21
1.4.3 R语言相关软件和资料21
1.5 本章小结22
第2章 创建数据集23
2.1 数据集的概念23
2.1.1 认识R语言的对象24
2.1.2 认识R语言的变量25
2.2 R语言的数据结构26
2.2.1 数据类型26
2.2.2 向量28
2.2.3 矩阵31
2.2.4 数组33
2.2.5 数据框36
2.2.6 因子38
2.2.7 列表40
2.3 获取内置数据集42
2.4 基本运算符43
2.5 本章小结44
第3章 数据的输入与输出45
3.1 工作路径的设置45
3.2 数据的输入46
3.2.1 TXT文件的读入47
3.2.2 CSV文件的读入48
3.2.3 Excel文件的读入49
3.2.4 SPSS文件的读入49
3.2.5 GraphPadPrism文件的读入50
3.3 数据的输出50
3.3.1 TXT文件的输出51
3.3.2 CSV文件的输出51
3.4 本章小结52
第4章 数据的基本操作53
4.1 数据框的基本操作53
4.2 用dplyr包处理数据55
4.3 数据框的合并59
4.3.1 merge()函数的数据框合并59
4.3.2 dplyr包的数据框合并63
4.4 数据抽样65
4.4.1 简单随机抽样65
4.4.2 有放回的抽样66
4.4.3 分层抽样67
4.4.4 系统抽样68
4.4.5 Bootstrap抽样68
4.4.6 按比例抽样69
4.5 数据框的长宽格式的转换70
4.5.1 宽格式转换为长格式70
4.5.2 长格式转换为宽格式73
4.6 列的分割与合并75
4.7 缺失值与空值的处理79
4.8 本章小结80
第2部分 医学数据分析与可视化
第5章 数据可视化83
5.1 基础作图83
5.1.1 plot()函数的基本作图83
5.1.2 plot()函数添加图例、参考线以及文本注释86
5.1.3 更改图文边界以及拼图90
5.2 初识ggplot2作图93
5.3 使用ggplot2包美化图片98
5.3.1 认识ggplot不同的图形代码98
5.3.2 添加文本和直线101
5.3.3 更改颜色103
5.3.4 更改图例108
5.3.5 更改主题112
5.4 本章小结114
第6章 基本统计分析115
6.1 数值型变量的描述性统计分析和组间差异比较115
6.1.1 数值型变量的描述性统计分析115
6.1.2 判断数据的正态分布和方差齐性121
6.1.3 两组样本检验123
6.1.4 多组样本检验125
6.2 分类型变量描述性统计分析和独立性检验126
6.2.1 分类型变量的描述性统计分析126
6.2.2 分类型变量的独立性检验128
6.3 变量间的相关性131
6.4 使用tableone包快速统计数据134
6.5 本章小结137
第7章 回归分析138
7.1 简单线性回归138
7.2 分层线性回归141
7.3 多重线性回归145
7.4 二分类逻辑回归146
7.5 Poisson回归150
7.6 本章小结152
第 8 章 聚类分析153
8.1 样品的距离153
8.2 层次聚类157
8.3 均值聚类160
8.4 本章小结164
第9章 判别分析165
9.1 K最邻近判别165
9.2 距离判别167
9.3 Fisher判别170
9.4 贝叶斯判别172
9.5 本章小结174
第3部分 高级应用与医学科研工具
第10章 基因测序数据处理177
10.1 基因表达谱微阵列芯片介绍177
10.1.1 实验步骤178
10.1.2 基因表达谱芯片的应用178
10.1.3 基因表达谱芯片的优缺点179
10.1.4 认识GEO数据库页面180
10.1.5 使用R语言代码整理GEO数据库的array数据183
10.2 RNA-seq数据介绍186
10.2.1 RNA-seq数据生成的流程186
10.2.2 RNA-seq的应用场景188
10.2.3 RNA-seq的挑战189
10.2.4 TCGA数据库肿瘤数据下载流程190
10.2.5 使用R语言代码整理TCGA数据193
10.3 主成分分析196
10.4 使用limma包进行差异分析199
10.4.1 差异分析及其可视化流程199
10.4.2 差异分析的计算200
10.4.3 使用 ggplot2程序包可视化差异分析结果202
10.5 使用DESeq2包进行差异分析和火山图的绘制204
10.5.1 差异分析及其可视化流程204
10.5.2 差异分析的计算205
10.5.3 使用ggplot2程序包可视化差异分析结果206
10.6 差异基因热图可视化208
10.7 差异基因的KEGG与GO富集分析211
10.7.1 R语言KEGG富集分析及可视化211
10.7.2 R语言GO富集分析及可视化215
10.8 本章小结219
第11章 生存分析220
11.1 认识生存数据220
11.2 Cox回归224
11.3 森林图228
11.4 Kaplan-Meier生存分析231
11.5 本章小结236
第12章 临床诊断试验评价237
12.1 ROC简介237
12.2 基于二分类变量的ROC239
12.2.1 单一模型绘制ROC曲线239
12.2.2 多模型绘制ROC曲线241
12.3 基于生存资料的ROC243
12.3.1 单模型单时间点ROC曲线243
12.3.2 单模型多时间点ROC曲线246
12.3.3 多模型单时间点ROC曲线247
12.4 本章小结248
第13章 自变量的筛选249
13.1 逐步法249
13.2 Lasso回归法254
13.3 随机森林258
13.4 本章小结264
第14章 列线图265
14.1 列线图简介265
14.2 连续变量构建列线图267
14.3 二分类变量构建列线图272
14.4 生存变量构建列线图276
14.5 本章小结280
第15章 C指数的计算281
15.1 C指数简介281
15.2 二分类变量计算C指数284
15.3 对生存变量计算C指数286
15.4 本章小结289
第16章 Calibration校准曲线290
16.1 Calibration校准曲线简介290
16.2 二分类变量计算校准曲线293
16.3 对生存变量计算校准曲线296
16.4 本章小结303
第17章 DCA曲线304
17.1 DCA曲线简介304
17.2 绘制二分类变量的DCA曲线307
17.3 绘制生存变量的DCA曲线312
17.4 本章小结316
第18章 Meta分析317
18.1 Meta分析的基本步骤317
18.2 二分类变量的Meta分析320
18.3 连续型变量的Meta分析328
18.4 本章小结331
