图书前言

序言

本书旨在全面而深入地介绍机器学习的核心技术,全书共分为 4册(或 4篇),对应监督学习、无监督学习、深度学习和强化学习 4个主要分支。以方法为切入点,对机器学习技术加以梳理与总结,是本书的一大特点。在内容上,本书覆盖了传统机器学习(即统计机器学习)、深度学习以及强化学习领域中最为基础且最为广泛使用的方法,力求为读者呈现一幅完整且清晰的机器学习技术画卷。

近年来,机器学习领域取得了极大的发展,在人工智能的诸多领域应用中实现了重大突破。然而最基本、最常用的机器学习技术还是集中在一小部分核心内容上,例如, GBDT、EM算法、 Transformer、扩散模型、 PPO算法等。也正因如此,作者得以将这些关键技术梳理并总结,呈献给读者。

在每一篇的开头,先对本篇内容做一简单概述;然后在后面的章节中,详细讲解 8~10个具体的方法,每章介绍一两个方法。在行文上力求严谨精练,尽量使用数学语言进行描述;同时也尽量给出直观的解释,并提供一些例子,帮助读者理解。每篇和每章都相对独立,读者可以全书阅读,也可以根据自己的情况选择性阅读。

本书主要定位为大学教材或辅助读物,以及专业人员的参考书。假设读者已具备一定的微积分、线性代数、概率统计和计算机科学知识。本书并不试图涵盖所有内容,而是希望对最基本、最常用的技术进行透彻的讲解和分析,帮助读者学习和掌握。希望本书不仅方便初学者了解与学习,而且也能供精通者复习总结并融会贯通。

自 2012年《统计学习方法》(第 1版)出版以来,受到广大读者的广泛好评。截至 2024年 12月 1日,已发行 35万册。不少大学将此书作为机器学习课程的教材。在 B站等网站,有多位讲者对本书内容进行了详细讲解。在 GitHub上,有多位开发者实现了本书介绍的机器学习算法,并且为书中的习题提供了解答。这些都为大家进一步学习提供了便利,也使笔者受到很大鼓舞和激励,持续利用业余时间写作,修改、完善、提高本书的内容。

在之前的三个版本(《统计学习方法》《统计学习方法(第 2版)》《机器学习方法》)的基础之上,这一版本主要增加了第 4篇强化学习;还增加了若干监督学习和深度学习方法,如线性回归、扩散模型;基于读者的反馈对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改;删除了一部分目前已不常用的技术,如部分机器学习优化算法;整本书中尽量统一了符号用法;增加了习题;修改了大大小小几十处错误;重新绘制了几乎所有的插图。

本书初稿完成之后,徐佳锋、周奕、袁璟、张晓颖、郑在翔对部分章节提出了宝贵的修改意见。责任编辑孙亚楠为本书的出版做了大量的工作。在此对他们表示衷心的感谢。

本书这一版的质量相比前三个版本应该又有了大幅提升。由于笔者水平有限,虽然尽了

4序言

很大努力,在写作过程中力求准确和严谨,但仍然不能保证内容上完全无误。希望读者见谅并批评指正。

笔者有幸在 20世纪 90年代进入自然语言处理和机器学习领域,从事科学研究与技术开发。得益于导师和前辈的指导和帮助,以及合作者的支持和协作,在研究上取得了一些成果,并对该领域的技术有了一定的理解和掌握。也希望将自己学到的知识贡献给国家和全人类,为整个领域的未来发展尽一份绵薄之力。

李航 

2024年 12月