内容简介
本书是学习与实践AI工程的权威指南,由业内知名AI专家、畅销书作者Chip Huyen撰写。 全书系统阐述了“AI工程”的核心方法——如何基于现成的基础模型(LLM、LMM)构建高效、实用的AI应用。书中提供了完整的AI工程框架,涵盖模型选择与评估、提示工程、RAG与智能体、微调策略、数据集工程、推理优化及AI工程架构等关键环节,帮助开发者在复杂的AI生态中做出科学的技术决策。作者结合丰富的业界经验,通过大量真实案例与可操作的方法,展示了如何让AI应用更快、更可靠、更具扩展性。
本书适合AI应用开发者、机器学习工程师、技术经理,以及希望系统掌握AI应用开发方法的从业者阅读,也是企业构建AI能力的重要参考指南。
精彩书评
“这本书结构清晰、内容详尽,全面涵盖了构建生成式AI系统的核心要素。对于致力于在企业内部实现AI规模化落地的专业人士而言,这是一本必读之作。”
—— Vittorio Cretella,宝洁(P&G)与玛氏(Mars)前全球首席信息官
“Chip Huyen深谙生成式AI的精髓,更是一位杰出的教师与作家,她的工作切实帮助了无数团队将AI成功投入生产环境。基于其深厚的实战经验,Chip打造了一部全景式指南,对在生产环境中设计与部署AI应用所需的一切,进行了精辟入里的阐述。”
—— Luke Metz,ChatGPT共同创造者,OpenAI前研究经理
目录
目录
译者序
前言
第 1章 使用基础模型构建AI应用入门
1.1 AI工程的兴起
1.1.1 从语言模型到大型语言模型
1.1.2 从大型语言模型到基础模型
1.1.3 从基础模型到AI工程
1.2 基础模型的应用场景
1.2.1 编程
1.2.2 图像和视频制作
1.2.3 写作
1.2.4 教育
1.2.5 对话机器人
1.2.6 信息聚合
1.2.7 数据组织
1.2.8 工作流自动化
1.3 规划AI应用
1.3.1 用例评估
1.3.2 设定目标
1.3.3 里程碑规划
1.3.4 维护
1.4 AI工程技术栈
1.4.1 AI技术栈的三个层次
1.4.2 AI工程与ML工程
1.4.3 AI工程与全栈工程
1.5 小结
第 2章 理解基础模型
2.1 训练数据
2.1.1 多语言模型
2.1.2 特定领域模型
2.2 建模
2.2.1 模型架构
2.2.2 模型规模
2.3 后训练
2.3.1 监督微调
2.3.2 偏好微调
2.4 采样
2.4.1 采样基础知识
2.4.2 采样策略
2.4.3 测试时计算
2.4.4 结构化输出
2.4.5 AI的概率特性
2.5 小结
第3章 评估方法论
3.1 评估基础模型的挑战
3.2 理解语言建模指标
3.2.1 熵
3.2.2 交叉熵
3.2.3 BPC与BPB
3.2.4 困惑度
3.2.5 困惑度的解释与应用场景
3.3 精确评估
3.3.1 功能正确性
3.3.2 与参考数据的相似度测量
3.3.3 嵌入简介
3.4 AI当裁判
3.4.1 为什么用AI当裁判
3.4.2 如何用AI当裁判
3.4.3 以AI为裁判的局限性
3.4.4 哪些模型可以作为裁判
3.5 使用比较评估对模型进行排名
3.5.1 比较评估面临的挑战
3.5.3 比较评估的未来
3.6 小结
第4章 评估AI系统
4.1 评估标准
4.1.1 领域特定能力
4.1.2 生成能力
4.1.3 指令遵循能力
4.1.4 成本和延迟
4.2 模型选择
4.2.1 模型选择工作流
4.2.2 模型的自建与购买
4.2.3 利用公开基准测试
4.3 设计你的评估流程
4.3.1 第 一步:评估系统中的所有组件
4.3.2 步骤2:创建评估指南
4.3.3 步骤3:定义评估方法和数据
4.4 小结
第5章 提示工程
5.1 提示词简介
5.1.1 上下文学习:零样本和少样本
5.1.2 系统提示词和用户提示词
5.1.3 上下文长度与上下文效率
5.2 提示工程最佳实践
5.2.1 撰写清晰明确的指令
5.2.2 提供充足的上下文
5.2.3 将复杂任务拆分为更简单的子任务
5.2.4 给模型更多思考时间
5.2.5 对提示词进行迭代优化
5.2.6 评估提示工程工具
5.2.7 提示词的组织与版本管理
5.3 防御性提示工程
5.3.1 专有提示词与反向提示工程
5.3.2 越狱与提示词注入
5.3.3 信息提取
5.3.4 针对提示词攻击的防御措施
5.4 小结
第6章 RAG与智能体
6.1 RAG
6.1.1 RAG架构
6.1.2 检索算法
6.1.3 检索优化
6.1.4 超越文本的RAG
6.2 智能体
6.2.1 智能体概述
6.2.2 工具
6.2.3 规划
6.2.4 智能体的故障模式与评估
6.3 记忆
6.4 小结
第7章 微调
7.1 微调概述
7.2 何时进行微调
7.2.1 进行微调的原因
7.2.2 不进行微调的原因
7.2.3 微调与RAG
7.3 内存瓶颈
7.3.1 反向传播与可训练参数
7.3.2 内存计算
7.3.3 数值表示
7.3.4 量化
7.4 微调技术
7.4.1 PEFT
7.4.2 模型合并与多任务微调
7.4.3 微调策略
7.5 小结
第8章 数据集工程
8.1 数据策展
8.1.1 数据质量
8.1.2 数据覆盖度
8.1.3 数据量
8.1.4 数据获取与数据标注
8.2 数据增强与数据合成
8.2.1 为什么要进行数据合成
8.2.2 传统的数据合成方法
8.2.3 AI驱动的数据合成方法
8.2.4 模型蒸馏
8.3 数据处理
8.3.1 数据检查
8.3.2 数据去重
8.3.3 数据清理与过滤
8.3.4 数据格式化
8.4 小结
第9章 推理优化
9.1 理解推理优化
9.1.1 推理概述
9.1.2 推理性能指标
9.1.3 AI加速器
9.2 推理优化的实现
9.2.1 模型优化
9.2.2 推理服务优化
9.3 小结
第 10章 AI工程架构与用户反馈
10.1 AI工程架构
10.1.1 增强上下文
10.1.2 设置防护措施
10.1.3 添加路由器和网关
10.1.4 通过缓存技术降低延迟
10.1.5 添加智能体模式
10.1.6 监控与可观测性
10.1.7 AI流水线编排
10.2 用户反馈
10.2.1 提取对话反馈
10.2.2 反馈设计
10.2.3 反馈的局限性
10.3 小结




















