清华大学出版社--图书前言

图书前言

推荐序

作为Shreyas的同事，我很高兴为各位读者推荐这本书。Shreyas是我司的首席数据科学家，他深入钻研人工智能领域，同时致力于将前沿人工智能技术应用于行业实践，帮助客户在真实业务场景中实现人工智能的价值。特别是在生成式人工智能(Generative Artificial Intelligence, GenAI)和大语言模型(large Language Model, LLM)等新兴领域，Shreyas能融汇其深厚的理论知识与工程实践经验，为企业提供切实可行的落地指导。更加难能可贵的是，Shreyas将他的思考和经验倾注于本书，为读者深入了解生成式人工智能和大语言模型的产业实践提供了绝佳途径。本书以大语言模型应用的成本优化为出发点，进而引出了对大语言模型基本原理和生成式人工智能相关实现的探讨，因而适合不同层次的读者。正如作者所言，本书适合初学者、普通数据科学家、研究人员、工程师、企业决策者等各类读者。

在生成式人工智能的学习过程中，很多人的苦恼在于，他们既要学习基本原理，又要理解复杂的工程实践。面对飞速发展的生成式人工智能应用，人们一方面深感焦虑而希望快速掌握相关知识，提升AI使用或应用构建的能力；另一方面，又因算法与工程紧密交织的复杂体系而感到困惑，难以分清底层模型能力与周边工程实现的边界。本书着眼点就在二者之间，比如第1章“引言”中就概述了大语言模型的发展历史和基本概念，随后以聊天机器人为例讲解了生成式AI的三层架构。又比如第2章提到的大模型微调技术，一方面讲解了缩放定律(scaling law)和各种微调方式的原理，另一方面又在参考代码、显存消耗、成本估算等诸多细节层面展开讨论。本书的这种行文方式，为读者提供了一条快速掌握大语言模型实践的清晰路径。

本书中文版的译者陈堰平是我机缘巧合认识的，他本身也是生成式人工智能的从业者，有着丰富的实战经验。这些优势有助于他准确地传递技术信息，从而帮助中文读者无障碍地掌握这一前沿领域的关键知识。由于我自己有过类似的职业经历，这让我对堰平的翻译工作尤为钦佩。翻译工作本身就枯燥且耗费心力，在信息快速更新迭代的当下，其难度更是与日俱增。当我和堰平谈及本书的相关情况时，他说翻译这本书的过程，实际上也是他自己学习与提升的过程。刚开始我以为他只是谦虚而已，后来通过对一些翻译细节的探讨，我发现他在翻译过程中遇到疑惑时，确实需要去翻找原始论文认真学习，然后再回过头来认真推敲，力求准确表达作者的原意。相信翻译完这本书后，堰平在人工智能领域的造诣也必定大有精进，由衷为他感到高兴。

读完原稿和译稿后，我有个小小的遗憾，就是这本书无法涵盖最新的模型发展趋势，比如，DeepSeek和其他的一些推理模型(Reasoning Model)，以及DeepSeek使用的混合专家模型(Mixture of Experts, MoE)、多头潜在注意力(Multi-Head Latent Attention, MLA)等技术。其根本原因是生成式人工智能领域发展太快，而纸质书籍的编辑出版、翻译校对都需要花费很长的时间，确实无法及时跟进最前沿的技术。不过这一小小的遗憾并不影响读者的学习体验，书中对大语言模型底层原理和工程实践的深入探讨，足以帮助读者构建系统的知识体系。

最后，我希望读者可以在生成式人工智能的浪潮中找到属于自己的浪尖，充分享受这场千年难遇的科技冲浪之旅。

亚马逊云科技大中华区首席人工智能专家

邓明轩

于2025年国庆

译者序

过去一年，生成式人工智能(GenAI)完成了从“技术狂欢”到“产业落地”的关键跨越，成为行业发展的分水岭。若将大模型发展的上半场定义为一场围绕Scaling Laws(缩放定律)展开的参数竞赛，追求的是“更强、更大、更全”的极致目标，那么下半场的竞争主题无疑已转变为“高性价比”(Cost-Effectiveness)与“工程化落地”(Productization)。

2025年年初，以DeepSeek-R1为代表的新一代推理模型异军突起，在极低的训练与推理成本下实现了惊人的性能突破。这一标志性事件不仅打破了“高性能等于高昂算力堆砌”的固有认知，更深刻地揭示了AI行业的竞争焦点已悄然转移——从单纯追求模型能力的上限，转向了对推理效率、单位算力投入产出比以及落地成本可控性的深度探索。

在此背景下，翻译Large Language Model-Based Solutions：How to Deliver Value with Cost-Effective Generative AI Application一书显得尤为迫切。这既是一本讲解“如何构建LLM应用”的技术手册，更是一部指导企业“如何算好经济账”的工程指南。作者Shreyas Subramanian博士凭借在亚马逊的丰富实战经验，精准地捕捉到了当前GenAI企业级落地的核心痛点：企业不再仅需一个“聪明”的模型，更迫切需要一个“用得起”且“跑得快”的系统。

在翻译过程中，我们深刻体会到本书与同类书籍的最大区别——它构建了一套系统性的“性能与成本平衡”方法论。这一框架不仅具备极强的实操性，更蕴含了对AI基础设施未来的深刻洞察：

为模型选择“祛魅”，拥抱“小而美”的崛起。

长期以来，业界存在“参数即正义”的迷思。本书第4章通过Mistral 7B、Phi系列及Orca 2等案例证明：在高质量数据清洗和知识蒸馏技术的加持下，中小规模模型(SLM)完全可以在特定领域媲美甚至超越巨型模型。书中关于“领域专用分词器”的讨论，更是点出了垂直行业落地的关键——通用大炮未必适合打蚊子，精密的专用工具往往更具性价比。

重新定义“微调”与“提示工程”的边界与价值。

在成本敏感的当下，何时选择微调？何时使用RAG？何时仅靠提示工程？本书第2、3章给出了辩证的解答。作者深入剖析了PEFT(参数高效微调)技术(如LoRA、QLoRA)如何以极小的参数增量撬动模型适配；同时通过Medprompt等案例指出，优秀的提示策略(如CoT、少样本学习)往往能以零成本替代昂贵的微调。这种“能用软技巧解决就不动硬算力”的实用主义思维贯穿全书。

深入底层基础设施，揭示了“吞吐量”与“显存管理”的硬核优化路径。

大模型的部署远非加载权重那么简单。本书第5章不仅探讨了批处理(Batching)的艺术，更深入到了GPU显存管理的微观世界。特别是对PagedAttention(分页注意力)和vLLM技术的剖析，以及对StreamingLLM处理无限长度上下文流的解读，直击当前长文本推理显存爆炸的痛点。这些内容旨在帮助读者理解如何榨干硬件性能，是系统架构师的珍贵参考资料。

对未来趋势的预判极具前瞻性。

在第6章中，作者并未止步于现状，而是展望了混合专家模型(MoE)、多模态模型以及能够自主规划任务的智能体(Agents)等前沿方向。这些曾在写作时被视为“未来趋势”的技术，如今正逐步成为现实。此外，书中关于“组建GenAI团队”的讨论，也从组织架构层面为企业决策者提供了宝贵建议。

翻译本书的过程，也是我们对GenAI落地逻辑的一次重新梳理。我们希望向读者传达的核心观点是：AI战略的成功，不在于部署模型的规模，而在于构建一个在性能、成本、安全与可扩展性之间完美平衡的系统。

本书由陈堰平、杨荟、袁铭共同翻译，陈堰平负责统稿。在翻译与校对过程中，我们力求在保持技术严谨性的同时，最大程度地还原作者务实的工程思维。在此，特别感谢亚马逊云科技大中华区首席人工智能专家邓明轩老师为本书撰写推荐序，并对译文提出中肯的修改意见；感谢亚马逊云科技的黄俊杰、肖培庆两位老师在翻译初期提供的帮助；感谢前蚂蚁集团算法专家肖凯老师对第3章的推理优化部分的细致修订；感谢北京理工大学逄金辉教授及其团队——杨佳车、王浩恩、庞项祯、代芷鸣、任天泽、刘子凡——在审阅校对中的悉心贡献。

作为译者，我们希望本书能成为连接“算法理论”与“商业落地”的桥梁。本书适合那些不仅关注“AI能做什么”，更关注“AI应当如何被构建”的开发者、架构师和技术决策者。在生成式AI进入深水区的今天，谁能率先掌握“精益大模型”的工程化能力，谁就能在激烈的市场竞争中筑起真正的护城河。

愿本书能成为架构师手中的“优化指南”，开发者案头的“实战手册”，管理者制定AI战略时的“决策罗盘”。愿我们都能在生成式AI的浪潮中，找到那条既仰望星空又脚踏实地的高性价比之路。

译者简介

陈堰平，现任华为公司大模型解决方案架构师，曾任微软AI解决方案架构师，并于2017—2018年入选微软最有价值专家(Most Valuable Professional, MVP)。此外，他还是中国人民大学校外硕士生导师及中国青年统计学家协会常务理事。在数据挖掘、机器学习、云计算、人工智能等领域拥有二十余年的深厚经验，长期为金融、互联网、医疗等行业客户提供架构设计、技术咨询、培训和测试开发支持等服务。

杨荟，博士，Istari企业智能创始人。他是一位专注于商业、技术与产品创新的专家，曾开发月活用户达1500万的消费者健康移动应用，并在两家财富500强公司从零组建了数据和人工智能团队。杨博士毕业于中国科学院/德国马普学会计算生物学研究所，曾任联合利华北亚区数据/分析和AI负责人，埃森哲中国AI数据团队创始人，记健康/Temple Health联合创始人兼首席技术/数据官，药明康德基因组云计算平台和消费者基因检测产品研发负责人。他在研发、供应链、生产制造、销售和市场营销等企业全价值链领域，主导设计、开发和运营了多款企业级数据 AI 产品，用于辅助战略决策与精益运营，最终服务并赋能于年营收数百亿、覆盖全球超 15 亿消费者的业务体系。

袁铭，天津财经大学数据工程系教师，副教授，硕士生导师，学术委员。主持或参与过多项省部级、国家级科研项目，在国内外重要学术期刊发表论文二十余篇。主要研究方向为人工智能与大数据技术、统计建模等。

关于作者

Shreyas Subramanian博士在机器学习和人工智能领域既是革命性进步的推动者，又是前沿探索的引领者，其成果对产业界和学术界均产生了积极影响。Subramanian博士获得了普渡大学航空航天工程专业的博士学位，目前在亚马逊公司担任首席数据科学家，而全球目前具备该职位任职资格的专业人士极少。他在该领域取得了丰硕的研究成果，包括26篇学术论文和6项专利，相关研究迄今已获得广泛引用。他此前撰写的两本有关人工智能领域的著作已售出数千册，其最新著作Applied Machine Learning and High-Performance Computing不仅跻身于亚马逊AI类图书销售榜单前50名，更是为数不多能贯通高性能计算与人工智能两大领域的专业书籍。他之前编写的AWS AI认证指南曾位列全球AI类畅销书排行榜第9名。

凭借其丰富的职业经历所积累的资源优势，Subramanian博士不仅积极推动AI/ML模型的研发与应用，还在亚马逊公司内部开辟了一条独特的引领之路。他在人工智能领域的成就卓著，既包括为制造业、航空航天、汽车、金融服务和医疗保健等关键行业的应用场景部署AI/ML解决方案，又包括进行基础性的人工智能研究。尤其值得一提的是，他创建了开源机器学习包ezsmdeploy。该工具包将云端模型部署简化为单行API调用，其下载量迄今已超过5万次。近期，Subramanian博士正在深度参与客户基于亚马逊云服务构建的开发项目，帮助客户以高性价比的方式训练类似ChatGPT的生成式大型语言模型。这充分体现了他在推动机器学习技术落地以及组建跨领域协作团队方面所具有的影响力。

Subramanian的博士学位论文专注于开发用于解决复杂航空航天系统设计问题的算法。同时他在进化算法、代理建模、分布式优化、深度学习和语言建模等领域发表了数篇具有重要影响的论文。Subramanian博士的专业知识既有学术价值，又能解决工程应用难题。他曾担任多个知名期刊和会议的审稿人，为学术界的发展作出了贡献。在2023年举办的模式识别与机器学习会议(Pattern Recognition and Machine Learning 2023)上，Subramanian博士凭借其针对加速语言模型训练的新型调度器这一研究成果，荣获了最佳报告奖。他还曾受邀担任IEEE、INFORMS及AIAA等顶级会议的评委和分会主席。

Subramanian博士的研究引起了政府资助机构的高度关注。他曾五次受邀担任NSF的人工智能项目评审专家，负责评估总价值高达200万美元的小企业创新研究(Small Business Innovation Research)资助项目提案，这些资助面向初创企业和小型企业。Subramanian博士的一项重要贡献，在于他为应用机器学习相关领域的开创性项目争取到了研究经费。在担任一家 NASA 分包商的研究总监期间，Subramanian博士凭借其出色的项目提案撰写能力，成功从NASA争取到超过460万美元的研究经费。在此期间，他利用云端的AI/ML工具，帮助识别并解决与航空安全相关的问题。凭借其顶尖的学术背景和富有影响力的实际贡献，Subramanian博士充分展现了他在人工智能研究领域的领导力。最近，他获得提名并成功当选为 IEEE 高级会员(Senior Member)，在全球超过40万的IEEE会员中，仅有 8%的人能获此殊荣。

目前，作为亚马逊的首席数据科学家，Subramanian博士已帮助众多企业实现了大幅的成本削减。他在架构、构建和扩展大型机器学习模型方面所做的努力，每年为客户节省高达数十万美元的费用。此外，在他的指导下，端到端的高级驾驶辅助系统(Advanced Driver Assistance System，ADAS)和自动驾驶汽车项目均取得了成功。这些成功奠定了机器学习与汽车技术融合的关键基础，已被视为当前人工智能领域发展过程中的一个重要里程碑。在亚马逊，Subramanian博士领导着一支由机器学习领域的解决方案架构师和研究员组成的团队，负责推进多个项目。在亚马逊内部，他的多个创新想法已被整合进亚马逊机器学习服务的新产品特性之中。通过识别机器学习运维中存在的成本优化机会，Subramanian博士已累计为客户节省了数百万美元的成本。例如，他使一家全球最大的代工制造商每季度降低了8%的生产成本，从而节省了数百万美元的开支。在另一个案例中，Subramanian博士帮助客户将调优大量模型的成本降低了99%以上，使花费从每年数十万美元降至仅几十美元。

在大语言模型时代，人们对“降本增效”成本优化原则的极大兴趣，催生了这本聚焦于大语言模型时代如何在控制成本的同时实现性能最优化的著作。

Subramanian博士持续在人工智能领域发表前沿论文，申请高价值专利，撰写观点独特的书籍，并受邀在重要的人工智能会议上发表演讲。

关于技术编辑

Rabi Jay是一位在数字化转型和企业人工智能领域享有盛誉的专家，拥有超过15年的丰富经验，致力于帮助企业应对技术驱动变革中的复杂性挑战。他的专长横跨多个领域，包括人工智能驱动的营销技术创新、平台现代化、企业资产整合以及通过自动化工作流程提高效率。Jay的专业能力还体现在他拥有多项权威认证，包括AWS、Azure、SAP、ITIL、TOGAF和SAFe Agile，这表明他对数字化转型中的技术层面和战略层面均有全面的理解。

除了具备深厚的技术功底，Jay在担任德勤公司全球联盟经理期间，还展现了卓越的领导才能和全球战略洞察力。他尤为擅长领导零售、食品、消费品、航空航天和软件技术等多个行业的大型跨国项目。作为数字化转型副总裁，他主导推行了一套整合实践方案，该方案以设计思维和流程再造为核心理念，融合了以人为本的设计方法、人工智能平台以及变革管理三大要素。作为一位成就卓著的作家和演讲者，Jay在人工智能和云计算技术领域的思想领导力方面作出了重要贡献，其知名著作包括 SAP NetWeaver Portal Technology: The Complete Reference (McGraw-Hill, 2008)和Enterprise AI in the Cloud: A Practical Guide to Deploying End-to-End Machine Learning and ChatGPT Solutions (Wiley, 2024)。他在 LinkedIn 上发布的专栏“Enterprise AI Transformation: Playbook for Professionals and Businesses to Implement AI”，充分体现了他对生成式AI技术传播、云采用策略和AI落地实践进行经验分享的热情。在职业追求之外，Jay 还是一位狂热的旅行者、高尔夫球手和乒乓球爱好者，同时也是一位专注于自我提升的教练，对瑜伽和冥想有着浓厚的兴趣。

前言

主要内容

➤ 生成式人工智能应用和大语言模型

➤ 成本优化的重要性

➤ 微型案例研究

➤ 本书目标读者

0.1 生成式人工智能应用和大语言模型

大语言模型(Large Language Model，LLM)已经成为文本内容生成领域的基石。LLM可以为多种应用生成连贯且贴合语境的文本，使其在当今的数字环境中成为不可或缺的资产。一个著名的例子是OpenAI研发的GPT-4模型。据报道，在统一律师资格考试(Uniform BAR Examination)中，GPT-4超过了90%的人类考生，展现了其先进的语言理解和生成能力。像ChatGPT这样的生成式人工智能工具，不仅可能会使用大语言模型，还可能采用其他类型的大模型(例如，基础视觉模型)。这些模型构成了众多现代应用的骨干，驱动着大量任务的自动化运行，而这些任务原本需要耗费大量人力来构建定制的、针对特定应用的模型。这些模型具备的理解语义、解释逻辑和生成接近人类水平文本的能力，不仅拓展了人工智能的技术上限，还为不同领域的应用提供了新范式。为了再次强调一个显而易见的事实，图0-1(来自Google Trends网站)展示了全球范围内对“Generative AI”这一术语的搜索热度随时间变化的趋势。

图0-1 全球范围内“Generative AI”这一术语的谷歌搜索热度随时间变化的趋势图

生成式人工智能(Generative AI，GenAI)和LLM代表了人工智能中的两个相互关联的领域，二者都专注于内容生成，但角度略有不同。GenAI包含了更广泛的人工智能技术，旨在产出原创性的内容。LLM擅长文本处理和文本生成，而GenAI更侧重于在多种媒介上实现创意并进行内容创作。理解这两个领域之间的区别和潜在协同效应，对于充分发挥人工智能在各种应用中的优势至关重要。这些应用覆盖场景广泛，涵盖自动化客户服务和内容创作，甚至如代码生成和调试等更复杂的任务。该领域取得了快速的发展，使企业能够跨多个领域实现智能自动化，并显著加速人工智能开发，推动其创新应用。另一方面，LLM作为GenAI的一个子集，专注于文本处理和生成。在大量的相关研究成果的推动下，这些模型在自然语言处理任务及其他关联领域中均表现出色。

LLM和GenAI应用的迅速普及，得益于人工智能社区内的竞争性进步和协作努力，以科技巨头、学术机构和个人研究人员为代表的各方共同推动了该领域近几年的快速发展。接下来将讨论在LLM时代成本优化的重要性，分析一些企业在该方面取得成功的案例，并介绍本书其余章节的内容。

0.2 成本优化的重要性

在生成式人工智能应用和大语言模型的开发与运营中，成本优化的重要性不容低估。企业能否成功落地GenAI，成本因素起着决定性的作用。这种决定性源于这些技术先进的模型在各个方面的特性。GenAI和LLM天生就是高资源消耗的技术，需要用到大量的计算资源来执行复杂任务。训练像OpenAI研发的GPT-3这样最先进的LLM，可能需要高性能计算集群运行数周甚至数月。这种庞大的计算需求会显著增加企业采用云基础设施和运营模式的成本。

开发GenAI模型的财务负担相当沉重。例如，麦肯锡估算，单是开发一个生成式人工智能模型，成本就高达2亿美元，而使用内部数据对现有模型进行定制需要高达1,000万美元，部署成本则可能达到200万美元。此外，像GPT-4这样的新型模型在推理过程中生成的每个token的成本估计是GPT-3.5的30倍。这表明随着模型能力的提升，成本也在不断攀升。运行像ChatGPT这样的大模型，其日常运营成本也十分高昂，据报道，OpenAI每天需要花费70万美元来维持模型的运营。

GenAI模型需要高度依赖于专用硬件来加速模型的训练和推理过程。这些专用硬件包括图形处理单元(Graphics Processing Unit，GPU)和张量处理单元(Tensor Processing Unit，TPU)。它们部署在云基础设施中的成本非常高昂，进一步抬高了费用。如果企业试图在本地完成训练和推理，而不借助云提供商的服务，可能需要在前期投入巨额的资金。

除了计算需求，大规模、高性能的数据存储对于训练和微调GenAI模型是至关重要的，而存储和管理庞大的数据集会增加额外的云存储成本。人工智能模型在算法迭代过程中产生的海量训练数据(如互联网数据)，导致存储基础设施需求呈指数级增长，从而显著推高了整体运维成本。这就是可扩展性在成本优化中成为一个重大挑战的原因。如果管理不当，为了满足GenAI应用的资源需求而快速扩展，可能会导致成本效率低下。过度扩展会导致资源利用不足并产生不必要的支出，而扩展不足则可能影响模型性能和生产力。

在大型组织中推广GenAI时，优化成本的策略包括：优先推动全员培训，打造创新空间，以及审视并优化内部流程，以适应更快的创新步伐。

通过预训练大语言模型来执行基础任务，可为人工智能系统奠定基础，随后只需以较低成本进行微调，即可适应多种特定任务的需求。这一策略不仅优化了成本，还确保了模型在执行特定任务时的有效性。

对GenAI实施方案进行全面的成本效益评估，根据潜在影响、成本和复杂性进行排序和优先级划分，可以实现财务流程的精细化管理，并确保GenAI项目具有一定的投资回报率。最后，目前最常见的模式是，“模型提供商”投入成本，并通过向“模型消费者”供应API来收回成本，而“模型消费者”通过调用GenAI模型的API来大幅优化成本，从而避免了前期投资和数据投入。

挑战和机遇

利用大语言模型开发GenAI应用，其成本优化之路既充满挑战，又蕴藏机遇。这些挑战和机遇源于模型固有的复杂性以及人工智能技术的不断演进。以下是该领域面临的核心技术瓶颈与潜在突破方向。

算力需求：像GPT-3或BERT这样的LLM在训练和推理过程中需要用到大量的算力资源。高昂的算力需求导致运营成本和能源消耗增加，这可能不利于资源有限的中小型企业的发展。

机遇：算力需求的挑战为开发更高效的算法、硬件加速器和基于云的解决方案提供了创新机会，这些创新可以降低LLM的运营成本和能源消耗。

模型的复杂性：LLM的复杂性，无论是在架构方面，还是在所需的训练数据量方面，都为实现成本优化带来了挑战。模型的参数规模通常与其性能相关，通常情况下，更大的模型能带来更好的结果，但代价是成本的增加。

机遇：这一挑战推动了诸如模型剪枝、量化和知识蒸馏等技术的探索与应用，这些技术旨在减少模型规模，同时保持甚至提升性能。

数据隐私与安全：安全地处理敏感数据是一个至关重要的问题，尤其是在医疗和金融等领域。在训练和部署大型语言模型时，确保数据隐私与安全所需花费的成本可能非常高昂。

机遇：对稳健的数据隐私与安全解决方案的需求，推动了隐私保护技术的创新，如联邦学习、差分隐私和加密计算。

可扩展性(Scalability)：在不按比例增加成本的情况下，扩展GenAI应用以适应不断增长的数据和用户需求，是一项艰巨的挑战。

机遇：这一挑战推动了可扩展架构和技术的进步，如微服务、容器编排和无服务器计算等，这些技术能够实现高效扩展。

模型泛化能力与领域适配：针对特定领域任务实现高性能通常需要使用额外的数据对大语言模型进行微调，而这可能会带来高昂的成本。

机遇：这一挑战创造了新的机会——开发高效领域适配和迁移学习的技术与框架，这些技术和框架能够以经济高效的方式为各种特定领域应用定制大语言模型。

监管环境的演变：围绕人工智能和数据使用的监管环境正在不断演变，这可能会带来合规成本。

机遇：这种动态变化的监管环境，推动了适应性AI系统及合规监测工具的研发，以有效降低合规风险和成本。

每一项挑战虽然带来了障碍，但同时也为创新和进步奠定了基础，这些创新和进步能够显著促进基于大型基础模型构建的GenAI应用的成本优化。这些挑战的汇聚是推动GenAI领域发展的重要因素，促进了高性价比、高效且稳健的GenAI软件包、工具和解决方案的开发。GenAI和大语言模型在开发、部署和运营中的高成本由多种因素造成，因此需要使用一种结构化的成本优化方法，以确保这些变革性技术能够得到可持续采用并具有可扩展性。本书深入探讨了GenAI应用强大但成本高昂的原因，并重点分析了平衡性能与成本需要考虑的几个方面，以确保使用大型基础模型的组织取得成功。接下来，我们将通过几个案例研究，引导读者进入本书后续的探讨。

0.3 微型案例研究

本部分重点介绍三家真正实现大模型生产化落地的公司。需要注意的是，“生产化”的具体内涵因企业而异，后续案例研究将予以阐明。通过这些案例分析，读者可初步了解：要将LLM等基础模型作为GenAI应用投入实际生产部署中，所需付出的开发努力与资金投入规模。

0.3.1 OpenAI：引领方向

OpenAI成立于2015年，其使命是确保通用人工智能(artificial general intelligence，AGI)惠及全人类。最初，OpenAI以非营利组织的形式运作，承诺与其他机构和研究人员自由合作，并公开其专利和研究成果。在早期，OpenAI发布了OpenAI Gym和Universe，这些平台致力于强化学习研究，以及衡量AI在跨领域任务场景下的通用智能水平。

随着AI技术的进步，OpenAI在2018年推出了GPT-1，标志着它正式进军大语言模型研发领域。GPT-1拥有1.17亿个参数，展示了其基于提示词生成连贯文本的潜力，尽管它存在生成重复文本等局限性。为了解决这些挑战，OpenAI在2019年推出了拥有15亿个参数的GPT-2，改进了文本生成能力。2020年，OpenAI发布了拥有1,750亿个参数的巨无霸模型GPT-3，为自然语言处理领域树立了新标杆。GPT-3能够在各种任务中生成复杂的响应，还能创建计算机代码和艺术作品等新颖内容，使人工智能的性能水平实现了重大飞跃。

到2022年底，OpenAI将ChatGPT升级至GPT-3.5，并最终于2023年3月推出了GPT-4，进一步增强了系统的多模态能力和用户参与度，同时推出了订阅模式ChatGPT Plus。OpenAI的快速发展得益于强大的资金支持，截至2023年8月，其在10轮融资中累计筹集了113亿美元。值得注意的是，微软的130亿美元投资不仅为其提供了充足的资金支持，还与其在多个领域建立了战略合作伙伴关系。

OpenAI采用基于每次请求成本和月度配额的定价模式，为用户提供了简单灵活的定价结构。其定价因模型类型而异，例如，OpenAI Ada和OpenAI Babbage等不同模型针对不同用例有不同的定价。OpenAI的收入前景呈上升趋势，预计将从2022年的1,000万美元激增至2023年的2亿美元，并在2024年达到惊人的10亿美元。

OpenAI的首席执行官Sam Altman透露，公司年化收入已突破13亿美元，这表明随着用户规模和订阅服务的增长，OpenAI具有巨大的收入潜力。ChatGPT的发布迅速扩大了用户基础，上线仅两个月，月活跃用户数便达到了1亿。此外，付费订阅服务ChatGPT Plus的推出并未妨碍用户数量的增长，这表明用户愿意为增强的服务付费。尤其是来自大型企业的用户参与度极高，这与OpenAI收入增长的轨迹直接相关。

OpenAI的发展历程，展示了其对技术进步、财务强化和以用户为中心的运营模式等方面的精准把控。对尖端AI模型的持续投资，加上不断增长的用户基础和战略资金支持，彰显了OpenAI在AI领域所产生的深远影响，并展现出收入增长和技术创新的持续动能。

0.3.2 Hugging Face：开源社区建设

Hugging Face成立于2016年，开创了基于预训练模型共享的自然语言处理(Natural Language Processing，NLP)开放生态系统。到2022年，其网站每天有超过10万名活跃用户，在线访问各种人工智能功能。然而，拥有数十亿参数的大模型的出现，对Hugging Face以经济高效的方式支持用户增长的能力构成了威胁。本案例研究剖析Hugging Face平台为应对模型规模激增所采取的架构革新与运营策略，以实现系统性扩展来满足海量用户的需求，同时在模型规模日益增长的情况下控制成本。

近年来，人工智能模型的规模呈指数级增长。例如，OpenAI在2020年发布的GPT-3拥有1,750亿个参数。这一趋势在2021年和2022年显著加速，模型参数规模甚至达到了数万亿。实际上，这种向越来越大的模型垂直扩展的方式可能并不可持续，因此一些公司正在考虑托管一系列大模型(而非一个超大模型)。这些大模型展示了其具有新的NLP能力，但也需要使用大量的算力资源进行训练和推理。对Hugging Face来说，LLM带来了一个两难问题。用户期望能够访问像GPT-3这样的尖端模型，但运行这些模型需要用到昂贵的云计算资源。作为一家小型初创公司，Hugging Face难以承受这些成本，尤其是在用户数量接近六位数的情况下。通过其现有基础设施提供LLM，将迫使Hugging Face要么限制访问次数，要么将成本转嫁给用户，要么以亏损的状态运营。因此，他们需要使用一种新的方法来以更低的边际成本扩展人工智能服务，即优化模型托管。Hugging Face的首个举措是优化其模型托管架构。在最初的设置中，模型与代码一起存储在单一的GitHub仓库中。这种做法在初期可能可行，但无法实现存储与推理的计算分离。工程师们后来重新设计了架构，将其改为微服务架构，从而使存储和计算分离。模型被转移到可扩展的云对象存储(如S3)中，而计算则在按需分配的隔离容器中进行。这使得存储和计算能够独立扩展，以满足用户需求。这样一来，大模型能够以更低成本实现存储，而算力资源则能够根据使用情况弹性扩展。

接下来，Hugging Face对推理本身进行优化。原生的PyTorch和TensorFlow虽然灵活，但速度较慢。因此，工程师们创建了优化的模型服务器，以减少开销。例如，请求批处理可将成本分摊到多次推理中。通过消除多余的框架代码，执行过程也得到了简化。这些优化措施共同将计算需求降低了高达1/3。通过积极地调整实例大小，进一步降低了成本。工程师们通过分析使用模式和模型，选择了理想的CPU/GPU配置。结果表明，与现成的解决方案相比，推理成本降低了近80%。

尽管通过缓存等优化手段降低了访问门槛，但大模型的计算成本仍然很高。为了进一步降低成本，Hugging Face部署了激进的缓存策略：一旦模型为给定输入生成了输出，结果就会被缓存。后续的相同请求会复用缓存的输出，而不是重新进行推理。热门模型的缓存命中率超过了90%，显著减少了计算需求。这得益于Hugging Face的规模优势——在庞大的用户群体中，类似的输入经常重复出现。缓存策略使得原本只有少数用户才能使用的昂贵LLM得以普及。此外，缓存层还增加了监控功能，用于获取数据的使用情况并生成业务洞察。

随着使用量的增长，Hugging Face需要进一步提升可扩展性。其最终策略是通过联邦计算网络汇集社区资源。用户可以自愿贡献闲置的计算能力，以换取平台积分。请求会根据负载、地理距离和成本动态路由到志愿者资源。这种联邦架构通过利用未充分利用的计算能力，实现了高性价比的弹性扩展。志愿者们也受益，他们通过利用贡献资源所赚取的积分，可兑换平台服务供自己使用。该网络通过基于区块链的协调层实现统一，以确保进行安全的去中心化任务调度。Hugging Face的架构优化和联邦模型使其能够以每次请求仅需花费0.001美元的推理成本，为每天超过10万的活跃用户提供服务。尽管LLM规模呈指数级增长，但通过提升效率，成本得到了有效控制。随着越来越多志愿者共享资源以换取积分，平台贡献也随之增加。

这种以开源为导向的可扩展方法为整个社区解锁了AI能力。通过创新的方式汇集集体计算能力，Hugging Face使原本仅科技巨头才能使用的功能得以普及。在模型规模和复杂性不断增长的背景下，这一案例为如何可持续地扩展AI提供了宝贵的经验。

0.3.3 BloombergGPT：大型商业机构推出的大模型

Bloomberg是一家全球知名的金融数据和分析服务提供商，近期它迈出了一大步，开发了名为BloombergGPT的大语言模型。这一举措源于金融领域对更强的自然语言处理能力日益增长的需求，以支持决策制定和客户互动。

Bloomberg进军大语言模型领域，展现了其在金融分析和服务层面利用人工智能潜力所做出的前瞻性努力。Bloomberg设定了雄心勃勃的目标，旨在开发一个能够理解并生成接近人类水平文本的模型，以满足金融行业复杂精细的需求。该项目不仅是一项技术尝试，也是在竞争激烈的金融信息服务领域中保持领先地位的战略举措。

该模型拥有500亿参数，充分展现了Bloomberg以实际行动践行对前沿创新的承诺。如此庞大的模型体量需要投入大量的算力资源。其训练阶段消耗了高达130万小时的GPU时间，充分展示了大语言模型对算力资源的巨大需求。然而，为了开发出对金融术语和概念有深刻理解的模型，这是一项必要的投入。

Bloomberg采用的方法独具特色。该公司采用了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback，RLHF)，这是一种利用人类反馈来迭代微调模型的方法。这种方法使模型能够更好地理解和生成金融文本，经过多次迭代，其性能得到了显著提升。内部开发的模式提供了可定制性，确保模型符合Bloomberg在金融分析和报告层面的具体需求。

该项目的资金投入巨大，这反映了Bloomberg将AI领域的战略投资视为长期资产。尽管具体数字未公开，但业内估计此类模型的开发成本在数千万到数亿美元之间。这些投资不仅限于模型本身，还包括为满足模型计算需求而构建的强大基础设施，以及开发和维护如此复杂的AI系统所需的人才。

提供有洞察力的金融分析和生成接近人类水平文本的能力，被证明是一项宝贵的资产，为瞬息万变的金融服务领域提供了竞争优势。在模型发布后的几个月里，没有其他同等规模的机构公开宣布推出能与之竞争的金融领域基础模型。该模型的成功也证明了大语言模型在专业领域具有巨大的潜力和价值。

截至本书撰写之时，Bloomberg计划将该技术商业化，将其整合到现有的金融分析工具套件中。该模型将为新功能提供支持，为客户提供更深入的洞察和分析。此外，该模型还为未来面向内部和外部实施的AI项目奠定了基础，展示了该公司利用AI技术进行更好的金融分析和决策的能力和承诺。

BloombergGPT项目表明，开发专业大语言模型需要投入大量资金和算力资源。它还表明了AI在金融领域的战略重要性，AI不仅是实现多维数据分析的技术载体，更是在信息时效性攸关的市场环境中，重构企业竞争维度的技术护城河。

0.4 本书目标读者

本书面向的读者群体十分广泛，涵盖了对GenAI充满憧憬或积极探索和应用该技术的各种人群。无论你是初出茅庐的爱好者、大众数据科学家(citizen data scientist)、经验丰富的研究人员、顶尖工程师，还是富有远见的决策者，本书都能为你提供帮助，指引你走向更具成本效益的GenAI应用之路。

AI从业者：对于日常从事构建、调整和部署AI模型的从业者，本书提供了一系列成本优化的策略和技巧，帮助你在最大化工作价值和影响力的同时，最大限度地减少支出。

研究人员：对于深入探索GenAI和大语言模型前沿的学者和研究人员，本书系统论述了支撑研究成果实际应用需要考虑的经济因素。它旨在弥合学术探索与现实应用之间的鸿沟，揭示成本效益作为关键维度的重要性。

工程师：处于软件、硬件和人工智能交汇点的工程师，将会从本书中获得丰富的知识，了解如何设计、实施和优化系统，以实现成本效益，同时充分利用大语言模型的潜力。

教育工作者和学生：致力于帮助学生建立对GenAI全面理解的教育工作者，会发现本书是一份宝贵的资源。同样，那些渴望深入探索这个激动人心领域的学生，也能从本书中获得关于成本变化机制的实用理解。

技术爱好者：如果你对人工智能的发展及其塑造未来的潜力充满兴趣，本书为你提供了一个视角，帮助你理解实现这一愿景所不可或缺的经济维度。

政策制定者：对于制定AI和数据使用政策的人士，本书提供了有关成本考量的深入讨论，这些讨论对于培育可持续且包容的AI生态系统至关重要。

决策者：对于那些引领组织战略方向的决策者来说，本书清晰阐释了GenAI应用的经济图景。它阐明了在利用GenAI获取商业优势的过程中伴随出现的成本影响、风险要素和机遇空间。

总而言之，本书面向广泛而多元的读者群体，旨在帮助读者深入理解GenAI和大语言模型领域采用的成本优化技术。通过技术阐述、真实案例研究和战略洞察的有机结合，本书力求提供从技术选型到伦理风险管控的全链路解决方案，驱动AI部署的商业价值与社会效益的双提升。

0.5 小结

本前言探索了GenAI和LLM的世界，并强调了成本优化的重要性。通过三个微型案例研究，具体展现了资金实力雄厚的大型组织在规模扩张与成本控制双重目标下所需具备的核心能力要素。

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

图书前言