📚 课程概览

📖

50

章节内容

📝

250+

知识点

💻

6

实战项目

🏗️

8-12月

学习周期

🎯 课程结构

第一篇:基础认知 (第1-4章)

  • AI基础设施概述
  • AI硬件基础
  • AI软件栈概览
  • 开发环境搭建

第二篇:算力基础设施 (第5-8章)

  • GPU计算原理
  • 集群架构设计
  • 资源调度系统
  • GPU虚拟化与池化

第三篇:存储基础设施 (第9-12章)

  • 数据存储架构
  • 数据流水线
  • 模型存储管理
  • 向量数据库

第四篇:网络基础设施 (第13-15章)

  • 高速互联技术
  • 集群网络设计
  • 分布式通信优化

第五篇:分布式训练 (第16-20章)

  • 分布式训练基础
  • PyTorch分布式训练
  • DeepSpeed实践
  • Megatron-LM
  • 大模型训练实战

第六篇:推理优化 (第21-25章)

  • 模型推理基础
  • 模型压缩技术
  • 推理加速框架
  • 大模型推理优化
  • 推理服务部署

第七篇:云原生AI (第26-30章)

  • Kubernetes基础
  • Kubernetes AI扩展
  • AI容器化
  • MLOps实践
  • AI流水线

第八篇:大模型基础设施 (第31-35章)

  • LLM训练基础设施
  • LLM推理基础设施
  • RAG架构设计
  • Agent基础设施
  • 多模态基础设施

第九篇:可观测性与运维 (第36-39章)

  • 监控体系
  • 告警与事件管理
  • 性能调优
  • 故障诊断与恢复

第十篇:安全与治理 (第40-43章)

  • AI系统安全
  • 访问控制与认证
  • 成本治理
  • 可信AI

第十一篇:前沿技术 (第44-46章)

  • 新兴硬件架构
  • 绿色AI
  • AI基础设施趋势

第十二篇:实战案例 (第47-50章)

  • 搭建小规模训练集群
  • 构建企业级AI平台
  • 大模型训练实战
  • AI基础设施最佳实践

🚀 快速开始

🎓

初学者路径

从第1章开始,按顺序学习基础内容

🏗️

基础设施路径

重点学习集群、存储、网络等基础设施章节

实战路径

直接跳转实战案例章节,动手完成项目

💡
学习建议
  • 理论与实践结合,边学边动手
  • 完成每章的练习和思考题
  • 至少完成2个实战项目
  • 关注AI基础设施领域最新发展
  • 深入理解分布式训练和推理优化核心技术

📖 开始学习

开始第一章 →