图书前言

第5版前言

从我国第一本模式识别与机器学习的专门教材、清华大学边肇祺教授领衔编写的《模式识别》出版到现在已经将近40年了。在这期间,模式识别与机器学习,从一个很少人关注的小众学科,已经发展为一个几乎所有人都在关注的重要领域。尤其是进入21世纪的25年来,人类共同见证了模式识别、机器学习和人工智能学科的飞跃。

在1988年出版的《模式识别》、2000年出版的《模式识别》(第2版)、2010年出版的《模式识别》(第3版)基础上,为了及时更新学科最新内容,我们在2021年出版了《模式识别》(第4版)并辅以副标题“模式识别与机器学习”,大幅度增加了深度学习的相关内容,教材篇幅也从前三版的200多页增加至近400页。第4版的出版受到了学界同行和广大读者的热烈欢迎,在短短四年时间内已印刷11次,发行超过28000册。同时,我们也陆续收到一些同行教师和部分学生读者的反馈,就是教材内容已经难以在一门课的教学中覆盖。据了解,有的学校把这本教材开设为两学期的课程,而更多学校则只能从教材中选择一部分内容放在一门课程中。为适应这种多样性需求,我们特地在2022年重印时增加了一个关于如何使用第4版教材设计不同类型课程的“序”,以期减少部分教师在规划课程内容时可能会遇到的困难,但仍可感受到读者对于“浓缩版”教材的需求。

与此同时,就在这短短4年多时间里,模式识别与机器学习领域又有了更多发展,尤其是在深度学习基础上发展起来的大语言模型,为模式识别、机器学习和人工智能学科带来了翻天覆地的变化。我们这几年在清华大学的教学实践中,每年都不断更新和调整教学内容,第4版教材也已经无法完全满足教学需要。

另外,正如我们在第4版前言中已经提到的,“模式识别”或“模式识别与机器学习”课程已经从少数人学习的专业课程,变成各专业都关心和需要的专业基础课,甚至将成为人工智能基本素质课。

所有这些情况都告诉我们,试图用一本教材来适应模式识别的各种教学需求是很困难的,试图在一门模式识别课中覆盖所有重要内容也是不现实的。为此,我们从2024年开始对教材和课程内容进行了深入的再研究,认为需要保持一门可以在32~48学时内能完成的“精华版”课程,让大部分专业背景的学生都能从中掌握模式识别与机器学习核心原理与方法体系,同时也能让同学对未能完全覆盖的最新进展有所了解,尤其是它们与核心内容的关系。出于这样的考虑,我们在前四版基础上写成了《模式识别》(第5版),一方面对前四版进行了系统提炼和浓缩,保留学科发展脉络和最核心内容,另一方面也在第4版基础上更新了对近5年来最新进展和发展趋势的介绍,并把总篇幅浓缩在300页左右。希望这本新版教材能更好地适应一门一学期课程的需要,给教师深入浅出地开展教学提供更好的参考,也使自学本书的读者能更有效地掌握学科精髓内容。

我们也考虑到仍有部分院校有对模式识别与机器学习开设更深入的课程的需求,为此,我们将在原第4版基础上增加更多最新内容,尽快独立出版一本内容覆盖更全面、深度更深的《模式识别与机器学习》,作为本教材的进阶版或加强版,也为使用本教材的教师和学有余力的同学提供补充参考书。

感谢广大读者一直以来的关爱和支持,也继续欢迎读者给我们提供反馈意见和建议。

张学工汪小我

2025年2月2日

于 清华园

第5版前言

第4版前言

一转眼十年又过去了,十年前在出版本书第3版时,我曾经感慨信息时代的到来,而从那以后的这十年,我们则深刻感受到了智能时代的来临。清华大学出版社的老师告诉我,《模式识别》第2版和第3版到目前已经共印刷了38次,总发行量超过10万册。在我平时的工作中,时常收到采用本教材授课的高校教师的问题和建议,也收到一些读者反馈。我要特别感谢这些老师和读者对本教材长期的支持和关爱,也很高兴看到这本教材为这个蓬勃发展的学科贡献了一份力量。

21世纪的前20年,见证了模式识别、机器学习和人工智能学科的飞速发展。这一点从本教材各个版本使用情况的演化也可见一斑。从边肇祺先生主持编写的《模式识别》到边肇祺、张学工共同编写的《模式识别》第2版,当时的读者主要是直接从事本领域研究的教师、研究生和科技工作者,而《模式识别》第3版的读者已经扩展到各个专业对本领域感兴趣的教师、研究生、本科生和科技工作者。模式识别类的课程最开始是少数院校在自动化系、计算机系等开设的研究生专业课,现在已经成为很多院系的研究生专业基础课,很多学校和院系开始把模式识别和机器学习类课程作为本科生专业必修课和全校性选修课。在我自己这些年的本科生课堂上,选课同学不但来自计算机、自动化、电子、软件等信息类专业,还有大量同学来自数学、物理、生物、医学以及各种工程类、机械类、管理类专业,也有同学来自建筑学院、美术学院和心理学、社会学、语言学等专业。这一方面说明了各专业同学数理基础和计算机基础的普遍提高,另一方面更从一个侧面映射出了这一学科受欢迎的程度。

从学科本身看,最近十年最大的发展当属深度学习和机器学习与人工智能结合产生出的大量成功应用。在十年前编写第3版教材时刚刚显露头角的深度神经网络和在较小范围内研究的概率图模型等,已经成为最受关注的热点。同时,大量机器学习软件平台的出现和发展,也改变了人们以往学习和利用模式识别与机器学习方法的方式。这些日新月异的发展,使我强烈感受到这本教材的内容需要很多更新和补充,但因为其他各种工作太繁忙,早就答应出版社的教材编写计划几次被拖延。2019年底,在与汪小我老师共同准备“模式识别与机器学习”课程时,我邀请汪老师与我共同进行这本书的写作。

2020年初,突如其来的新冠疫情改变了所有人的生活和工作,也促使每个人更清楚地认识自己对社会和历史的责任。于是,我和汪老师商量决定,与疫情赛跑,在春季学期的远程授课中就采用新版教材的内容,迫使自己在春季学期授课的同时完成本书新版的写作,力争在年内出版。2020年7月19日,我们完成了新版的全部写作,与第3版相比,增加了5章新内容,对原有内容也进行了必要的调整和补充。

对于业内学者来说,“模式识别”与“机器学习”是非常接近和高度相关的概念,但对于尚未学习这些内容的读者,可能会对这两个名词有不同的认识。为了更全面地反映本书的内容范围,我们增加了副标题“模式识别与机器学习”,也据此对很多内容进行了补充和调整。近年来,很多人尤其是产业界和投资界把模式识别和机器学习都放在人工智能的大框架下,因此,我们也在新版第15章专门对“模式识别”“机器学习”“人工智能”三个概念的关系、演化和背后的学术思想进行了讨论。

新版内容的编写得到了很多老师和同学的帮助,尤其是2020年春季学期清华大学自动化系本科生课程“模式识别与机器学习”的助教研究生王昊晨、颜钱明、张威、乔榕,和2019年秋季学期清华大学自动化系研究生英文课程“机器学习”的助教研究生花奎、陈斯杰、马天行、孟秋辰、李嘉骐。在新版的具体内容编写中,第4章隐马尔可夫模型和贝叶斯网络、10.9节的tSNE降维可视化方法、11.8节的一致聚类方法和12.8.2节的实例主要由汪小我负责起草,其中颜钱明帮助计算了10.9节和11.8节的例子; 张威起草了第14章机器学习软件平台的介绍和计算机代码示例; 其他新增章节(第7章、第12章、第15章)和其他章节调整内容均由张学工负责起草,其中王昊晨帮助起草了12.7节生成模型的初稿,第7章采用了《模式识别》第2版中的部分原稿,第12章中采纳了胡越、罗东阳同学之前准备的部分素材。张学工负责了新版的统稿。第12章深度学习的前半部分草稿得到了清华大学自动化系黄高老师的很多建议和指正。马天行、李嘉骐、陈斯杰、孟秋辰、王昊晨、颜钱明、张威、乔榕、张嘉惠等同学帮助对部分书稿进行了文字和公式检查。厦门大学王颖教授对部分公式错误给出了更正。本次主要新增章节草稿在2020年春季清华大学自动化系本科生课程“模式识别与机器学习”中进行了试用。本书的编写也得到了清华大学自动化系古槿、闾海荣、江瑞等老师的帮助,并得到了福州数据技术研究院的大力帮助和支持。

本教材编写得到了清华大学历年来多个教学改革和学科建设项目的支持,教材中涉及的很多科学研究内容,得到了国家自然科学基金创新研究群体项目、杰出青年基金项目和优秀青年基金项目等的支持。

张学工

2020年7月20日