导师序言
生物大数据的快速发展和积累,特别是在高通量测序技术的推动下,为我们深入理解基因调控机理和探索复杂遗传疾病的发生发展提供了前所未有的机会。然而,目前对这些生物大数据的全面解读仍面临着推理复杂、生物知识不够准确、多源异质数据协同分析不够精细等挑战。近年来,深度学习等人工智能技术在多个领域取得了突破性成果,为解决这些关键问题提供了强大的工具。
刘桥博士在其学位论文中,以染色质开放性这一表观遗传学信号的预测方法为例,系统地研究了细胞群水平及单细胞水平的染色质开放性分析系统与方法,开发了多种机器学习和深度学习方法来进行数据的解读和分析。主要研究内容及创新成果可以概括为以下三点:
(1)提出了对染色质开放区域进行预测的深度学习方法。通过整合基因组序列、基因表达数据,以及物种进化保守性信息,获得了很高的预测准确性,解释了染色质开放区域特有的基因组序列特征。进一步基于预测模型设计了个性化的遗传变异致病性识别方法,可促进精准医学中重大疾病的个性化防诊治。
(2)提出了对高维稀疏数据进行概率密度估计的神经网络理论与方法。通过构建两组循环相连的生成对抗网络,在对高维稀疏数据进行降维的同时进行概率密度估计。该理论突破了神经网络研究中理论缺乏的瓶颈,是深度学习理论研究的一项重要进展。
(3)提出了基于单细胞染色质开放性数据辨识细胞类型的神经网络模型。在上述概率密度估计的神经网络理论指导下,设计了用于非监督聚类的循环生成对抗网络模型,实现了对细胞类型的辨识,进行了后续细胞类型层次的功能建模分析。进一步拓展该模型,实现了整合单细胞基因表达与染色质开放性数据的细胞类型精确辨识。
综上所述,刘桥博士在其学位论文中展现了其在生物医学大数据分析与建模中的卓越能力和创新成果。他所提出的多种深度学习和人工智能方法,不仅显著提升了生物医学数据建模的能力,也为精准医学的个性化防诊治提供了重要的理论支持,为未来的生物信息学研究和临床应用奠定了坚实的基础。
江瑞教授
北京,2024年7月