通往智能体时代的实战指南
如果说过去两年是大语言模型(LLM)狂飙突进的“觉醒时代”,那么当下,我们正全面迈入由AI智能体(Agent)主导的“行动时代”。在审阅本书的过程中,我最大的感受是它的“务实”与“全面”。作者与译者没有在空洞的理论上过多停留,而是以贴近开发实践的视角,兼顾了前沿技术与普适场景,向读者展开了一张清晰的智能体构建路线图。对于每一位立志于从事智能系统构建的从业者而言,这都是一本不可多得的案头必读书。
刘 勇
亚信科技数据智能中心总经理
译 者 序
大家好,我是本书的译者之一。
近期,一个名为OpenClaw的开源智能体项目引发了广泛关注。它能直接在个人设备上运行,帮用户自动处理邮件、管理本地文件甚至回复消息。这让很多人切实感受到,AI 智能体不再是停留在前沿论文里的概念,而是正在实实在在地走进我们的工作,接管烦琐日常,成为得力助手。
这种技术带来的冲击感,也正是我们在翻译本书时的最大感触。虽然可以借助AI翻译,但图书的翻译与出版涉及很多环节,包括大量复杂的文档解析(图上还很多文本需要提取)、专业术语核对、编辑审校和反复修订等,我的脑海里一直有个想法:如果能有一套系统来协助我们翻译,该有多好。
巧的是,这本书本身就是把这个构想变成现实的最佳教程。
本书非常注重动手实践,特别是对CrewAI等前沿多智能体框架的介绍,深入浅出。CrewAI的核心魅力在于“角色扮演”和“团队协作”,这给了我很大启发,也让我清晰地看到了未来学以致用、真正落地图书翻译系统的路径。
借助书里讲授的CrewAI知识,我们可以搭建一个自动化的“翻译工作流”:我们可以指派一个智能体作为“文档解析员”,专门负责处理复杂的PDF文件和OCR识别,把原文准确提取出来(包括文本、图片、公式、代码,以及脚注、参考文献等);指派另一个智能体作为“资深译者”,结合上下文确保中文表达的信达雅,先提取术语,确定翻译风格,再拆分章节进行翻译;还可以有个“审校编辑”智能体,负责检查全书的风格、比对原文、校准术语等;最后安排一个“排版编辑”智能体,负责处理版本控制,并将最终译文无缝对接到Adobe InDesign等软件中。这种将复杂任务拆解,交由多个专业智能体协同完成的模式,正是这本书要教会我们的核心技能。
作者迈克尔·兰汉用非常朴实的语言,带我们从最基础的提示词工程,一步步走到构建能够自主协作的多智能体系统。无论你之前有没有深厚的AI开发背景,只要跟着书中的指引去实践,都能打造出解决实际问题的超级助手。
智能体不仅是一个技术风口,更是未来工作中的标准配置。希望这本书能成为你踏入智能体世界的敲门砖,把你脑海中的各种奇思妙想,都变成触手可及的现实。
最后,感谢清华大学出版社的编辑团队,特别是王军,也感谢与我一同完成翻译工作的茹炳晟和殷海英老师。由于译者水平有限,书中难免有疏漏之处,恳请各位读者批评指正。
柳 飞
2026年3月
我将本书献给所有与我一同踏上这段旅程的读者。
书籍是作者与读者建立深度链接的有力媒介,这种链接会随着每一章、每一页的翻阅逐渐加深。在共同学习、共同探索、共同成长的过程中,我找到了真正的意义。愿本书能给你带来启发、向你提出挑战,并帮助你认识到AI智能体所蕴含的巨大潜力——这种潜力不仅关乎未来,更在于当下。
自 序
我涉足智能系统领域的旅程始于20世纪80年代初。和当时许多人一样,我相信人工智能(artificial intelligence,AI)已近在咫尺,似乎只要再多一点创新和技术飞跃,就能实现我们想象中的智能。但当时那样的飞跃并未到来。
或许是受斯坦利·库布里克(Stanley Kubrick)执导的《2001:太空漫游》(2001: A Space Odyssey)中 HAL 的影响,这个角色所展现的一个真正智能的计算机伙伴的构想吸引了我。经过多年的努力、尝试和无数次错误,我逐渐明白创造AI远比人类想象的复杂。20世纪90年代初,我调整了研究方向,将我的技能应用于其他行业中更切实的目标上。
直到20世纪90年代末,经历了一系列充满挑战的变革性事件后,我才意识到自己对构建智能系统的热忱。我深知这些系统或许永远无法达到HAL那样的超级智能,但我对此并不在意。在与机器学习和数据科学共舞,在创造能够自主学习、动态适应的模型的过程中,我体会到了成就感。二十余年来,我在这个领域持续深耕,以创造力为刃,以精确性为尺,以探索未知的可能为罗盘,不断攻克难题。
在此期间,我从事过各种工作,从用于预测未知输入的遗传算法到为石油和天然气行业的水平钻井技术开发生成式学习模型。这些经历促使我开始写作,通过书籍分享知识,涵盖各种主题——Pokémon Go逆向工程、构建增强现实和虚拟现实体验、为游戏设计音频,以及应用强化学习、创建智能体。我花费数年时间深入研究代码,在Unity ML-Agents和深度强化学习框架中开发智能体。
即便如此,我从未想过有一天,我只需要简单地向一个AI模型描述我想要什么,它就能将其实现。我从未想过,在有生之年,我能像今天这样自然地与AI协作。我当然也从未想过这段旅程会既迅疾又漫长。
2022年11月,ChatGPT的发布改变了一切。它改变了世界对AI的看法,也改变了智能系统的构建方式。对我来说,它也重塑了我对这些系统能力的看法。突然之间,能够自主执行复杂任务的智能体不再是遥远的梦想,而是触手可及、切实可行的现实。在我早年的著作中,曾描述过能够承担特定任务的智能体系统,如今这些曾经停留在理论层面的构想终于成为可能。
这本书是我几十年来构建智能系统经验的结晶,也是我曾经对AI可能成为什么的梦想的实现。AI智能体已经到来,它们将改变我们与技术互动的方式、工作的方式,并最终改变我们的生活方式。
然而,即使是现在,我看到组织在采用智能体系统时仍持犹豫态度。我相信这种犹豫并非源于对AI的恐惧,而是因为缺乏对构建这些系统的理解和专业知识。我希望这本书能帮助解决这一问题。我想让所有人都了解,AI智能体是每个人都可以使用的工具——我们不应恐惧,而应尊重、负责任地管理并学会与之和谐共处。
致 谢
我要向辛勤工作在机器学习和深度学习领域的人们致以最诚挚的感谢,感谢他们不懈的投入和卓越的工作。就在短短几年前,许多人还在质疑该领域是否会陷入又一个“AI寒冬”——一段停滞不前且充满疑虑的时期。但凭借无数人的坚持、才华和热情,这个领域不仅挺过了困境,而且迎来了蓬勃发展。我们正站在AI驱动未来的门槛上,我对这个才华横溢的社群所做的贡献充满无尽感激。
写书,即使有AI的帮助,也绝非易事。这需要奉献、协作以及巨大的支持。我非常感谢使本书成为可能的编辑和审稿团队,以及所有抽出时间审阅并提供反馈的人。特别地,我要感谢我的内容编辑Becky Whitney,以及我的技术编辑兼OpenSC首席生产与技术官Ross Turner,感谢他们的奉献;也感谢Manning出版社整个制作团队,感谢他们在成书过程中提供的见解和坚定支持。
致我的伴侣Rhonda——你的爱、耐心和鼓励对我意义非凡。你不仅是本书的坚强后盾,更是此前所有著作的基石。没有你,我无法完成这一切。谢谢你成为我的依靠、我的伴侣、我的灵感源泉。
本书的许多早期构想源于我在Symend的工作经历。正是在那里,我开始着手研究智能体系统的概念和设计方案,为本书奠定基础。我深深感谢Symend的同事们的协作和贡献,包括Peh Teh、Andrew Wright、Ziko Rajabali、Chris Garrett、Kouros、Fatemeh Torabi Asr、Sukh Singh和Hanif Joshaghani。你们的见解和辛勤工作帮助这些构想变为现实,我很荣幸能与这样一群杰出的人共事。
最后,我要感谢所有审稿人:Anandaganesh Balakrishnan、Aryan Jadon、Chau Giang、Dan Sheikh、David Curran、Dibyendu Roy Chowdhury、Divya Bhargavi、Felipe Provezano Coutinho、Gary Pass、John Williams、Jose San Leandro、Laurence Giglio、Manish Jain、Maxim Volgin、Michael Wang、Mike Metzger、Piti Champeethong、Prashant Dwivedi、Radhika Kanubaddhi、Rajat Kant Goel、Ramaa Vissa、Richard Vaughan、Satej Kumar Sahu、Sergio Gtz、Siva Dhandapani、Annamaneni Sriharsha、Sri Ram Macharla、Sumit Bhattacharyya、Tony Holdroyd、Vidal Graupera、Vidhya Vinay和Vinoth Nageshwaran。你们的建议让本书更加完善。
前 言
本书聚焦智能体系统的构建与实践——不仅构建自主智能体,更致力于开发能高效应对和解决现实问题的智能体。本书从基础内容切入,首先讲解如何利用大语言模型(large language model,LLM)构建智能助手、多智能体系统及行为智能体,进而深入探讨智能体系统的核心组件:用于知识与记忆增强的检索系统、行动与工具调用、推理与规划、评估与反馈。通过丰富案例,本书展示了这些组件如何赋能智能体,使其完成各类复杂任务。
这段探索之旅不仅关乎技术革新,更在于重新构想我们解决问题的方式。希望本书能启发诸位将智能体视为协创伙伴——它们能以曾以为不可企及的方式,将思想转化为行动。让我们共同探索人工智能如何释放人类潜能,助力达成个体无法企及的成就。
本书读者对象
本书适合所有对智能体开发感兴趣的人,无论你是初次尝试构建实用助手,还是希望深入探索复杂的多智能体系统,都能从中受益。阅读本书不需要事先掌握智能体开发经验、智能体系统知识、提示工程技能或使用LLM的相关经验,只需要对Python有基本的了解并熟悉GitHub代码库操作。本书旨在让这些概念变得通俗易懂、引人入胜,让每位渴望探索 AI 智能体世界的读者都能自信启程。
无论你是开发者、研究人员、业余爱好者,还是仅仅对AI的潜力感到好奇,这本书都适合你。希望本书能为你点燃灵感火花,提供实践指导,重塑你对智能体非凡潜力的认知。让本书引导你理解、创造并释放AI智能体的能量。
本书组织结构
本书共有11章。
第1章“欢迎来到智能体的世界”首先给出了大语言模型、聊天系统、助手和自主智能体的基础定义。随后,本书将逐步深入讨论构成智能体的关键组成部分以及这些组成部分如何协同工作以创建真正有效的系统。
第2章“掌控大语言模型的强大力量”,首先探讨如何使用商业LLM,例如OpenAI,然后考查LM Studio之类的工具,它们为运行各种开源LLM提供了基础设施和支持,使任何人都能进行实验和创新。
第3章“掌握GPT助手”,深入探讨了OpenAI GPT Assistants平台的能力。助手是基础的智能体类型,我们将探索如何创建实用且多样化的助手,从烹饪助手到实习数据科学家,甚至书籍学习助手。
第4章“探索多智能体系统”,智能体工具发展迅速,本章将探讨两个复杂的多智能体系统:CrewAI和AutoGen。我们将展示AutoGen自主开发代码的能力,并讲解CrewAI如何将一组笑话研究人员聚集起来,协作创作笑话。
第5章“赋能智能体行动力”,行动对于任何智能体系统都是基础。本章讨论智能体如何使用工具和函数来执行行动,范围涵盖数据库和应用程序编程接口(application programming interface,API)查询,以及生成图像等。我们专注于使智能体能够自主采取有意义的行动。
第6章“构建自主智能体”,将探索行为树——机器人和游戏系统中的常用机制——作为协调多个智能体的机制。本章将使用行为树来解决代码竞赛和社交媒体内容创建等挑战。
第7章“搭建和使用智能体平台”,介绍了Nexus,一个用于协调多个智能体和LLM的复杂平台。本章讨论Nexus如何促进智能体工作流并实现智能体之间的复杂交互,提供了一个功能齐全的多智能体环境示例。
第8章“理解智能体记忆和知识”,检索增强生成已成为扩展LLM智能体能力的重要工具。本章探讨检索机制如何通过处理输入的文件作为知识来源,同时将其作为记忆来源,允许智能体回忆之前的交互或事件。
第9章“精通智能体提示词与Prompt Flow”,提示工程是智能体成功的核心。本章介绍了Prompt Flow,这是一个来自Microsoft的工具,有助于自动化提示的测试和评估,从而实现更健壮和有效的智能体行为。
第10章“智能体推理与评估”,推理对于智能体解决问题至关重要。在本章中,我们将探讨各种推理技术,如思维链,并展示智能体如何在推理过程中评估推理策略,提高其自主解决问题的能力。
第11章“智能体规划与反馈”,规划或许是智能体实现其目标的最关键技能。本章讨论智能体如何结合规划来处理复杂任务,以及如何使用反馈循环来改进这些规划。本章最后将所有关键组成部分——行动、记忆和知识、推理、评估、规划和反馈——整合到解决实际问题的智能体系统的例子中。
关于代码
本书的代码分布在几个开源项目中,其中许多项目被托管在我本人或其他组织在 GitHub上的仓库中。在本书中,我努力使内容尽可能易于访问,采取低代码方法,帮助你专注于核心概念。许多章节都演示了如何使用简单的提示词生成有意义的代码,展示了人工智能辅助开发的强大功能。
此外,你还将找到各种助手配置文件和多智能体系统,它们展示了如何使用生成的代码解决实际问题。这些示例旨在激发、指导和赋能你探索AI智能体的可能性。我非常感谢许多贡献者和社区成员在这些项目上的协作,他们鼓励你探索这些仓库,尝试代码,并根据自己的需求进行调整。本书是协作力量的生动体现,也是我们携手实现不可思议事情的见证。
本书包含许多源代码示例,既有代码清单的形式,也有内嵌在普通文本中的形式。在这两种情况下,源代码都以固定宽度字体格式呈现,以区别于普通文本。有时,部分代码会以粗体排版,以突出显示相对于章节前一步骤发生变化的代码,例如向现有代码行添加功能时。在许多情况下,原始源代码已重新格式化;我们添加了换行符并重新调整了缩进来适应书中可用的页面空间。在某些情况下,即使这样做也不够,代码清单中包含行继续标记(➥)。此外,当文本中对代码进行描述时,源代码中的注释通常会从代码清单中删除。许多代码清单都附有代码注解,突出显示重要概念。
本书免费提供以下资源,可以扫描二维码下载。
示例的完整代码。
GPT-Agents(https://github.com/cxbxmxcx/GPT-Agents):包含书中几个示例的代码。
GPT Assistants Playground(https://github.com/cxbxmxcx/GPTAssistantsPlayground):一个完整的平台和工具,专门用于构建OpenAI GPT助手,具有友好的Web用户界面和大量开发自主智能体系统的工具。
Nexus(https://github.com/cxbxmxcx/Nexus):一个基于Web的智能体工具示例,可以帮助你创建智能体系统并演示各种代码挑战。
关于封面插图
本书封面上的插图人物是Clémentinien,选自Balthasar Hacquet于1815年出版的著作Illustrations de L’Illyrie et la Dalmatie。
在那个时代,人们很容易通过穿着辨认出他们的居住地、职业或社会地位。Manning出版社通过这种封面设计展示了几个世纪前丰富多样的地域文化,旨在颂扬计算机行业的创造力和开拓精神,让历史的多元风采在今日的书封上重焕生机。
关 于 作 者
Micheal Lanham是一位杰出的软件和技术创新者,拥有超过二十年的行业经验。他在多个领域的各类软件应用开发方面拥有深厚的背景,包括游戏、图形学、Web开发、桌面工程、人工智能、地理信息系统、石油和天然气地球科学、地质力学及机器学习等方向。千禧年前后,Micheal开创性地将神经网络和进化算法集成到游戏开发中。他著有多本颇具影响力的书籍,深入探讨了深度学习、游戏开发和增强现实,其中包括Evolutionary Deep Learning (Manning出版社,2023年)和Augmented Reality Game Development (Packt出版社,2017年)。他与许多重要的科技出版商(包括Manning出版社)合作出版相关内容的图书,为开发者社区做出了贡献。Micheal现与家人居住在加拿大艾伯塔省的卡尔加里,他喜欢为家人烹饪。
