


作者:[美] 施雷亚斯·苏布拉曼尼安(Shreyas Subramanian)著 陈堰平、杨荟、袁铭 译
定价:68元
印次:1-1
ISBN:9787302707226
出版日期:2026.02.01
印刷日期:2026.02.06
图书责编:王军
图书分类:零售
"平衡好性能与成本,深度挖掘AI潜能 随着人工智能和机器学习的发展,大语言模型(LLM)日益普及,但其高昂的计算成本成为许多企业入局的障碍。本书提供了构建和部署大语言模型的高***方 案,从模型选择、提示工程到微调和部署的每个环节,指导读者在不过度牺牲性能的前提下有效控制成本。 《精益大模型:成本优化与工程实践》专为开发者和数据科学家而写,提供了实施搜索系统、智能助手和自主智能体等有价值的生成式AI应用所需的实用技术知 识。本书深入探讨了优化推理的技术,如模型量化和剪枝,并分析了在基础设施层面降低成本的机会。此外,本书展望了大语言模型成本优化的未来趋势,助你在生 成式AI的下一阶段保持竞争力。 本书由亚马逊**数据科学家Shreyas Subramanian撰写,将带你攻克与大语言模型相关的挑战,并成功落地生成式AI解决方案。"
"ShreyasSubramanian博士是亚马逊云服务公司(AWS)的首席数据科学家。AWS是自前**的企业级大语言模型构建者和提供商之一。Shreyas目前为亚马逊内部团队以及大型企业客户提供咨询服务,协助他们规模化构建、调优和部署生成式Ai应用。Shrevas开设了以机器学习为核心的成本优化研讨会,助力企业降低云端机器学习应用的成本。此外,他积极投身前沿技术研发,专注于基础模型的高级训练、调优和部署等工作。"
推荐序 作为Shreyas的同事,我很高兴为各位读者推荐这本书。Shreyas是我司的首席数据科学家,他深入钻研人工智能领域,同时致力于将前沿人工智能技术应用于行业实践,帮助客户在真实业务场景中实现人工智能的价值。特别是在生成式人工智能(Generative Artificial Intelligence, GenAI)和大语言模型(large Language Model, LLM)等新兴领域,Shreyas能融汇其深厚的理论知识与工程实践经验,为企业提供切实可行的落地指导。更加难能可贵的是,Shreyas将他的思考和经验倾注于本书,为读者深入了解生成式人工智能和大语言模型的产业实践提供了绝佳途径。本书以大语言模型应用的成本优化为出发点,进而引出了对大语言模型基本原理和生成式人工智能相关实现的探讨,因而适合不同层次的读者。正如作者所言,本书适合初学者、普通数据科学家、研究人员、工程师、企业决策者等各类读者。 在生成式人工智能的学习过程中,很多人的苦恼在于,他们既要学习基本原理,又要理解复杂的工程实践。面对飞速发展的生成式人工智能应用,人们一方面深感焦虑而希望快速掌握相关知识,提升AI使用或应用构建的能力;另一方面,又因算法与工程紧密交织的复杂体系而感到困惑,难以分清底层模型能力与周边工程实现的边界。本书着眼点就在二者之间,比如第1章“引言”中就概述了大语言模型的发展历史和基本概念,随后以聊天机器人为例讲解了生成式AI的三层架构。又比如第2章提到的大模型微调技术,一方面讲解了缩放定律(scaling law)和各种微调方式的原理,另一方面又在参考代码、显存消耗、成本估算...
第1章 引言 1
1.1 GenAI应用和大语言模型概述 1
1.1.1 大语言模型的崛起 1
1.1.2 神经网络、Transformer及其未来发展 2
1.1.3 GenAI与LLM的区别 6
1.1.4 GenAI应用的三层架构 8
1.2 将GenAI应用投入生产的途径 11
1.3 成本优化的重要性 15
1.3.1 模型推理组件的成本评估 16
1.3.2 向量数据库组件的成本评估 24
1.3.3 大语言模型组件的成本评估 31
1.4 本章小结 35
第2章 微调技术与成本优化 37
2.1 微调和可定制性 37
2.2 参数高效微调方法 41
2.2.1 适配器的内在机制 42
2.2.2 低秩适配 54
2.3 PEFT方法的成本和性能影响 57
2.4 本章小结 60
第3章 推理成本的优化技巧 61
3.1 推理技术简介 61
3.2 提示工程 62
3.2.1 提示工程对成本的影响 62
3.2.2 清晰直接的提示词 66
3.2.3 提供上下文 75
3.2.4 明确所需的回答格式 80
3.3 使用向量存储进行缓存 84
3.3.1 向量存储的概念 84
3.3.2 使用向量存储实现缓存 85
3.3.3 结论 87
3.4 长文档的链式处理 88
3.4.1 链的概念 88 ... 查看详情
在生成式人工智能的学习过程中,很多人的苦恼在于,他们既要学习基本原理,又要理解复杂的工程实践。面对飞速发展的生成式人工智能应用,人们一方面深感焦虑而希望快速掌握相关知识,提升 AI 使用或应用构建的能力;另一方面,又因算法与工程紧密交织的复杂体系而感到困惑,难以分清底层模型能力与周边工程实现的边界。本书着眼点就在二者之间,比如第 1 章“引言”中就概述了大语言模型的发展历史和基本概念,随后以聊天机器人为例讲解了生成式 AI 的三层架构。又比如第 2 章提到的大模型微调技术,一方面讲解了缩放定律(scaling law)和各种微调方式的原理,另一方面又在参考代码、显存消耗、成本估算等诸多细节层面展开讨论。本书的这种行文方式,为读者提供了一条快速掌握大语言模型实践的清晰路径。

