目 录
第 1 章 引言 1
1.1 研究背景与意义 1
1.1.1 高通量测序技术 3
1.1.2 染色质开放性 5
1.1.3 基因调控机制 10
1.2 研究现状与不足 12
1.2.1 细胞群染色质开放性预测方法 12
1.2.2 单细胞染色质开放性分析方法 15
1.3 本书研究内容与贡献 18
1.4 本书内容安排 21
1.5 小结 22
第 2 章 基于序列信息的染色质开放性预测方法 23
2.1 引言 23
2.2 整合序列进化保守性的随机森林预测方法 24
2.2.1 研究背景与动机 24
2.2.2 基于随机森林的 kmerForest 模型 26
2.2.3 kmerForest 模型准确预测染色质开放性 27
2.2.4 利用 kmerForest 模型促进遗传变异数据的解释 31
2.2.5 分析与小结 33
2.3 结合 k 聚体特征的混合卷积神经网络预测方法 34
2.3.1 研究背景与动机 34
2.3.2 基于混合神经网络的 Deopen 模型 36
2.3.3 Deopen 准确预测染色质开放性二值状态 39
2.3.4 Deopen 准确恢复连续染色质开放性信号 44
2.3.5 神经网络卷积核的生物解释 48
2.3.6 分析与小结 50
2.4 小结 54
第 3 章 融合组学数据的跨细胞系染色质开放性预测方法 55
3.1 引言 55
3.2 研究背景与动机 56
3.3 基于密集连接卷积网络的 DeepCAGE 模型 58
3.3.1 模型设计架构 58
3.3.2 模型评价方法 59
3.3.3 实验数据准备和预处理 61
3.4 DeepCAGE 模型预测性能 63
3.4.1 DeepCAGE 准确预测跨细胞系染色质开放性二值状态 63
3.4.2 DeepCAGE 准确恢复跨细胞系染色质开放性连续信号 64
3.4.3 针对 DeepCAGE 模型的消融性分析 67
3.5 DeepCAGE 模型的生物学应用与解释 69
3.5.1 基于梯度的转录因子的优先排序分析 69
3.5.2 神经网络卷积核的可视化与信息熵分析 71
3.6 DeepCAGE 模型在解读全基因组测序数据上的应用 72
3.6.1 建立全基因组测序变异位点影响的评估方法 72
3.6.2 全基因组数据测序变异位点的排序分析 73
3.6.3 从全基因组突变位点到复杂表型的建模与解释 74
3.7 小结 75
第 4 章 基于深度生成式模型的单细胞染色质开放性分析方法 77
4.1 引言 77
4.2 研究背景与动机 79
4.3 基于循环对抗生成式网络的概率密度估计模型 Roundtrip 80
4.3.1 概率密度估计的建模与求解方法 81
4.3.2 概率密度估计模型的迁移 86
4.4 解析单细胞染色质开放性的 scDEC 模型 87
4.4.1 scDEC 模型设计架构 87
4.4.2 模型的对抗式训练 89
4.4.3 模型评价方法 92
4.4.4 实验数据准备与预处理 94
4.5 scDEC 模型在细胞类型发现上的性能表现 97
4.5.1 scDEC 在多个数据集上细胞聚类性能上优于已有方法 97
4.5.2 scDEC 在大规模 scATAC-seq 数据下的性能分析 109
4.5.3 scDEC 模型在单细胞多组学数据上的性能分析 109
4.6 scDEC 促进下游生物应用与发现 113
4.6.1 利用 scDEC 模型促进细胞特异性 motif 分析 113
4.6.2 利用 scDEC 模型促进细胞轨迹推断分析 118
4.6.3 利用 scDEC 模型消除单细胞数据中的实验技术噪声 119
4.7 小结 122
第 5 章 总结与展望 126
5.1 总结 126
5.2 未来展望 128
参考文献 130