AI Fundamentals

本仓库是一个全面的人工智能基础设施（AI Infrastructure）学习资源集合，涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域，旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

适用人群：AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。

技术栈：CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。

Star History:

1. 硬件架构

本章节主要构建 AI 系统的物理底座，深入探讨从单机计算芯片（GPU/TPU）到大规模集群互联的核心技术。

详细内容请访问：硬件与架构 - 核心文档门户，涵盖硬件基础知识与关键技术概览。

核心模块导航：

GPU 与 AI 加速器架构：涵盖 NVIDIA GPU 架构、Google TPU 设计哲学、GPUDirect 核心技术及 GPGPU vs NPU 对比分析。
AI 集群运维与通信：包含 GPU 基础运维、InfiniBand 高性能网络及 NCCL 分布式通信实战。
性能分析与调优：AI 系统全栈性能分析与瓶颈诊断。

2. 云原生 AI 基础设施

本章聚焦于云原生技术在 AI 领域的应用，探讨如何利用 Kubernetes 等云原生技术栈构建高效、可扩展的 AI 基础设施。

2.1 Kubernetes AI 生态

Kubernetes 已成为云原生 AI 基础设施的事实标准，特别是在推理场景中，它提供了不可替代的弹性调度与资源管理能力。通过 K8s，企业可以构建跨混合云的统一推理平台，实现从 GPU 资源池化到 Serverless 推理的完整闭环，从容应对大模型时代高并发、波动剧烈的流量挑战。

Kubernetes AI 平台实战 - 云原生 AI 基础设施建设指南
Kueue + HAMi 集成方案 - GPU 资源调度与管理的云原生解决方案
NVIDIA Container Toolkit 原理分析 - 容器化 GPU 支持的底层机制
NVIDIA K8s Device Plugin 分析 - GPU 设备插件的架构与实现

2.2 AI 推理系统与服务

本节整合了从云原生推理框架到企业级推理系统优化的完整解决方案，涵盖理论基础、技术选型及实战部署。

2.2.1 核心框架与平台

推理优化技术方案 - 企业级推理优化全景指南，涵盖集群规模分析、核心优化技术及实施路径
云原生高性能分布式 LLM 推理框架 llm-d 介绍 - 基于 Kubernetes 的大模型推理框架
vLLM + LWS ： Kubernetes 上的多机多卡推理方案 - LWS 分布式控制器在推理部署中的应用

2.2.2 推理系统架构

Mooncake 架构详解 - 以 KV 缓存为中心的高效 LLM 推理系统设计

2.2.3 KV Cache 之 LMCache

技术特色：LMCache 是专为 LLM 推理引擎设计的分布式 KV Cache 管理系统，通过四层存储架构 (L1-L4) 实现跨实例的高效缓存复用。支持前缀缓存、任意文本片段复用、P2P 去中心化共享、预填充-解码分离等多种模式，在长上下文和 RAG 场景下可带来 3-10 倍性能提升。

2.2.3.1 核心概览与对比

LMCache 源码分析指南 - 完整学习路径与文档索引
LMCache 架构概览 - 四层存储架构 (L1-L4)、核心组件交互与典型工作流
vLLM KV Offloading 与 LMCache 深度对比 - vLLM 原生 KV Offloading 与 LMCacheConnector 在架构设计、存储层级及跨实例共享能力上的核心差异与性能权衡

2.2.3.2 推理引擎集成与核心链路

LMCacheConnector 源码分析 - vLLM 集成适配器、视图转换与流水线加载
LMCacheEngine 源码分析 - 核心调度中枢、异步事件管理与层级流水线

2.2.3.3 分层存储后端实现

分层存储架构与调度机制 - StorageManager 调度器、Write-All 策略与 Waterfall 检索
L1 极速内存层:
- LocalCPUBackend 源码分析 - 本地 CPU 内存后端与并发控制
- PDBackend 源码分析 - 预填充-解码分离、Push-based 主动推送机制
L2 弹性互联层:
- P2PBackend 源码分析 - RDMA 零拷贝与去中心化传输
L3 本地持久层:
- LocalDiskBackend 源码分析 - O_DIRECT 直通 I/O 与异步优化
- GdsBackend 源码分析 - GPUDirect Storage 零拷贝
- NixlStorageBackend 源码分析 - 高性能网络存储、S3 对象存储对接
L4 远程共享层:
- Remote Connector 源码分析 - Redis/S3/Mooncake 多后端适配

2.2.3.4 集群控制面与数据面

LMCache Controller (控制平面) - 集群元数据管理、ZMQ 三通道通信与节点协调
LMCache Server 源码分析 - 轻量级中心化存储服务、自定义 TCP 协议

2.2.3.5 高级技术

CacheBlend 技术详解 - RAG 场景下的动态融合机制、选择性重算与精度保持
CacheGen 技术详解 - KV Cache 压缩与流式传输、自适应量化与算术编码

2.2.4 KV Cache 之阿里云 Tair KVCache

Tair KVCache 架构与设计深度分析 - 阿里云企业级 KVCache 管理系统架构详解，包含与 LMCache 的全面对比分析、中心化管理模式及大规模部署最佳实践

2.2.5 部署实战

DeepSeek-V3 MoE 模型 vLLM 部署 - H20 硬件上的部署方案与 SLO 验证
Qwen2-VL-7B 华为昇腾部署 - 国产硬件平台的部署优化

2.3 存储加速与数据管理

在大模型时代，存储系统面临着前所未有的挑战：海量数据的吞吐、低延迟的访问需求以及跨节点的共享能力。本节探讨了专为 AI 负载设计的存储解决方案。

NVIDIA ICMS (Inference Context Memory Storage) - NVIDIA Rubin 平台引入的 G3.5 上下文存储层，利用 BlueField-4 和 Spectrum-X 实现 Pod 级 KV Cache 共享。
DeepSeek 3FS 分布式文件系统 - DeepSeek 自研的高性能分布式文件系统，专为大规模 AI 训练与推理设计。
JuiceFS 云原生分布式文件系统 - 数据与元数据分离的架构设计，兼容 POSIX 接口，适配多种对象存储后端
- JuiceFS 后端存储变更手册 - 存储后端迁移与配置变更指南
- JuiceFS 文件修改机制分析 - 文件系统内部修改机制深度解析

2.4 GPU 管理与虚拟化

本节深入探讨 GPU 资源管理、虚拟化技术及切分方案，为构建高效的 GPU 资源池提供技术指导。

GPU 管理技术深度解析 - GPU 虚拟化、切分及远程调用技术全景
GPU 虚拟化与切分技术原理 - MIG、vGPU、时分复用等技术原理解析

系列文档：

第一部分：基础理论篇 - GPU 架构基础与虚拟化概念
第二部分：虚拟化技术篇 - 主流虚拟化技术详解
第三部分：资源管理与优化篇 - 资源调度与优化策略
第四部分：实践应用篇 - 企业级落地实践

HAMi 专题：

KAI vs HAMi 对比分析 - 两种 GPU 共享方案的技术对比
Flex AI 介绍 - Flex AI GPU 虚拟化技术
HAMi Prometheus 监控指标 - HAMi 可观测性指标详解
HAMi GPU 资源指南 - HAMi 资源配置与使用指南

3. 开发与编程

本部分专注于 AI 开发相关的编程技术、工具和实践，涵盖从基础编程到高性能计算的完整技术栈。

3.1 GPU 与 CUDA 编程

本节整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源，为开发者提供从入门到进阶的完整技术路径。

3.1.1 核心概念

GPU 编程入门指南 - GPU 并行计算基础、CUDA 编程模型与入门实践
CUDA 核心概念详解 - CUDA 核心、线程块、网格等基础概念的深度解析
CUDA 流详解 - CUDA 流的原理、应用场景与性能优化
SIMT vs Tile-Based 编程模型对比 - 两种编程范式的架构差异与适用场景分析

技术特色：

CUDA 核心架构： SIMT 线程模型、分层内存模型、流式执行模型
性能调优实践：内存访问模式优化、线程同步策略、算法并行化重构
高级编程特性： Unified Memory 统一内存、Multi-GPU 多卡编程、CUDA Streams 异步执行

3.1.2 GPU 编程基础

GPU 编程基础 - GPU 编程入门到进阶的完整技术路径，涵盖 GPU 架构、编程模型和性能优化

核心内容：

GPU 架构理解：GPU 与 CPU 的架构差异、并行计算原理、内存层次结构
CUDA 编程实践：线程模型、内存管理、核函数编写、性能优化技巧
调试与性能分析：CUDA 调试工具、性能分析方法、瓶颈识别与优化
高级特性应用：流处理、多 GPU 编程、与深度学习框架的集成

3.1.3 Tile-Based 编程

随着 Tensor Core 等专用加速单元的引入，传统的 SIMT 编程模型在某些场景下面临挑战。Tile-Based 编程引入了数据块 (Tile) 的视角，简化了高性能算子的开发。

TileLang 快速入门 - TileLang 的基本概念与使用方法，助力开发者掌握新一代算子开发范式
TileLang 详细教程 - TileLang 语法详解、算子开发实战与性能优化技巧

3.1.4 性能分析与调优

nvbandwidth 最佳实践 - GPU 内存带宽测试工具使用指南与性能分析方法

3.1.5 开发环境配置

CUDA 镜像构建分析 - CUDA Docker 镜像构建的最佳实践与优化策略
NVIDIA 容器环境配置 - NVIDIA Container Toolkit 环境搭建与配置指南

3.2 DPU 编程

本节介绍 NVIDIA BlueField DPU 及其 DOCA 软件框架的编程指南。

DPU 编程与 DOCA 框架 - DPU 编程入门与 DOCA 核心组件解析

3.3 Java AI 开发

这里的 Java AI 开发主要用于开发 LLM 应用。

Java AI 开发指南 - Java 生态系统中的 AI 开发技术
使用 Spring AI 构建高效 LLM 代理 - 基于 Spring AI 框架的企业级 AI 应用开发

3.4 AI 编程范式

本节探讨在 AI 时代下新兴的编程范式与工作流，重点关注如何利用 AI 提升开发效率与代码质量。

OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践，演示了 "意图 -> Spec -> AI -> 代码 & 验证" 的新一代开发工作流。

3.5 LangGraph 开发

LangGraph 是一个用于构建有状态、多智能体应用程序的库，特别适合构建复杂的 Agent 工作流。

LangGraph 简介 - LangGraph 的核心概念与入门指南
AI 客服系统实战 - 基于 LangGraph 构建的 AI 客服系统 Notebook 实战

4. 机器学习基础

本部分基于 动手学机器学习 项目，提供系统化的机器学习学习路径。该项目整合了 NJU 软件学院课程、上海交大《动手学机器学习》、《精通特征工程》以及极客时间等优质资源，为学习大模型打下基础。

4.1 动手学机器学习

动手学机器学习 - 全面的机器学习学习资源库，包含理论讲解、代码实现和实战案例。

核心特色：

理论与实践结合：以 NJU 课程为主线，辅以 SJTU 配套资源，从数学原理到代码实现的完整学习路径
算法全覆盖：涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习
项目驱动学习：提供心脏病预测、鸢尾花分类、房价预测等实战案例
工程化实践：深入特征工程、模型评估、超参数调优及特征选择

4.2 参考资料

我们精选了数学基础、经典教材与实战平台资源，构建完整的知识图谱。

数学基础：

线性代数的本质 - 3Blue1Brown 可视化教程，直观理解线性变换与矩阵运算
MIT 18.06 线性代数 - Gilbert Strang 经典课程，深入矩阵分解与子空间理论
概率论与统计学基础 - 掌握贝叶斯定理、最大似然估计与概率分布

经典教材：

《统计学习方法》 - 李航著，系统阐述感知机、SVM、HMM 等核心算法的数学原理
《机器学习》 - 周志华著（西瓜书），全面覆盖机器学习基础理论与范式
《模式识别与机器学习》 - Bishop 著（PRML），贝叶斯视角的机器学习圣经

在线课程与实战：

Andrew Ng 机器学习课程 - Coursera 经典入门，强调直觉理解
CS229 机器学习 - 斯坦福进阶课程，深入数学推导
Kaggle - 全球最大的数据科学竞赛平台，提供真实数据集与 Notebook 环境

5. 大语言模型基础

本章旨在为读者构建扎实的大语言模型（LLM）理论基础，涵盖从词向量嵌入到模型架构设计的核心知识。我们将深入解析 Token 机制、Transformer 架构、混合专家模型（MoE）等关键技术，并探讨量化、思维链（CoT）等前沿优化方向，帮助开发者建立对 LLM 内部机制的直观理解。

5.1 基础理论与概念

大语言模型的基础理论涵盖了从文本处理到模型架构的核心概念。理解这些基础概念是深入学习 LLM 技术的前提，包括 Token 化机制、文本编码、模型结构等关键技术。这些基础知识为后续的模型训练、优化和应用奠定了坚实的理论基础。

Andrej Karpathy ： Deep Dive into LLMs like ChatGPT （B 站视频） - 深度学习领域权威专家的 LLM 技术解析
大模型基础组件 - Tokenizer - 文本分词与编码的核心技术
解密大语言模型中的 Tokens - Token 机制的深度解析与实践应用
- Tiktokenizer 在线版 - 交互式 Token 分析工具

5.2 嵌入技术与表示学习

嵌入技术是大语言模型的核心组件之一，负责将离散的文本符号转换为连续的向量表示。这一技术不仅影响模型的理解能力，还直接关系到模型的性能和效率。本节深入探讨文本嵌入的原理、实现方式以及在不同场景下的应用策略。

文本嵌入（Text-Embedding）技术快速入门 - 文本向量化的理论基础与实践
LLM 嵌入技术详解：图文指南 - 可视化理解嵌入技术
大模型 Embedding 层与独立 Embedding 模型：区别与联系 - 嵌入层架构设计与选型策略

5.3 高级架构与优化技术

现代大语言模型采用了多种先进的架构设计和优化技术，以提升模型性能、降低计算成本并解决特定问题。本节涵盖混合专家系统、量化技术、思维链推理等前沿技术，这些技术代表了当前 LLM 领域的最新发展方向。

大模型可视化指南 - 大模型内部机制的可视化分析
一文读懂思维链（Chain-of-Thought, CoT） - 推理能力增强的核心技术
大模型的幻觉及其应对措施 - 幻觉问题的成因分析与解决方案
大模型文件格式完整指南 - 模型存储与部署的技术规范
量化技术可视化指南 - 模型压缩与加速的核心技术
混合专家模型 (MoE) 可视化指南 - 深入解析 MoE 架构原理
基于大型语言模型的意图检测 - 自然语言理解的实际应用

5.4 参考书籍

大模型技术 30 讲 - 大模型时代，智能体崛起：从技术解构到工程落地的全栈指南
- 第三方：大模型技术 30 讲（英文&中文批注）
大模型基础
Hands-On Large Language Models
从零构建大模型 - 从理论到实践，手把手教你打造自己的大语言模型
百面大模型 - 打通大模型求职与实战的关键一书
图解大模型：生成式 AI 原理与实践 - 超过 300 幅全彩图示 × 实战级项目代码 × 中文独家 DeepSeek-R1 彩蛋内容，入门、进阶、实操、求职一步到位！

5.5 Deep Research 深度研究

本节深入探讨利用 AI 进行深度研究的技术与应用，包括 Research Agent 的设计与实现。

DeepWiki 深度研究报告 - DeepWiki 的研究成果与深度分析报告
DeepWiki 使用方法与技术原理 - 技术实现细节与使用指南
通义 DeepResearch 深度分析 - 对通义 DeepResearch 的技术剖析
Cursor DeepSearch 解析 - Cursor AI 深度搜索功能技术分析
Databricks Data Agent - Databricks 数据 Agent 技术架构与实现
《Building Research Agents for Tech Insights》深度解读 - 技术洞察研究 Agent 构建指南
科研助手 Agent 设计 - 面向研究者全生命周期的智能助手设计方案
订单履约 Agent 系统设计 - 复杂业务场景下的 Agent 系统架构与实现

5.6 AI 工作流与编排

本节介绍如何使用 Coze、n8n 等工具进行 AI 应用的编排与落地。

Coze 部署和配置手册 - Coze 平台的私有化部署与配置指南
n8n 多智能体编排指南 - 基于 n8n 构建 Multi-Agent 系统
开源大模型应用编排平台对比 - 主流应用编排平台的深度横评

6. 大模型训练

大模型的训练是一个复杂且系统的工程，涉及数据处理、分布式训练、指令微调等多个关键环节。本章将详细介绍从指令微调（SFT）到大规模模型预训练的完整技术路径，结合 70B 参数模型的实战案例，深入探讨训练基础设施的搭建、超参数优化及模型后训练（Post-Training）策略，助力开发者掌握模型训练的核心技能。

6.1 指令微调与监督学习

指令微调（Instruction Tuning）和监督微调（Supervised Fine-Tuning, SFT）是大语言模型训练的关键技术，通过在预训练模型基础上使用高质量的指令-响应数据对进行进一步训练，使模型能够更好地理解和执行人类指令。这一技术对于提升模型的实用性和安全性具有重要意义。

SFT 微调实战与指南 - 包含基于 Qwen2 的微调代码实战及垂域模型微调理论指南
Qwen 2 大模型指令微调实战 - 基于 Qwen 2 的指令微调 Notebook 实践
Qwen 2 指令微调教程 - 详细的图文教程
一文入门垂域模型 SFT 微调 - 垂直领域模型的监督微调技术与应用实践

6.2 大规模模型训练实践

大规模模型训练是一个复杂的系统工程，涉及数据处理、基础设施搭建、分布式训练、超参数优化等多个方面。本节通过实际的 70B 参数模型训练案例，深入探讨从硬件配置到模型评估的完整训练流程，为大规模模型训练提供实践指导。

Training a 70B model from scratch: open-source tools, evaluation datasets, and learnings - 70B 参数模型从零训练的完整技术路径与经验总结
Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model - 大规模训练数据集的清洗、评估与质量控制方法
From bare metal to a 70B model: infrastructure set-up and scripts - 大模型训练基础设施的搭建、配置与自动化脚本
Open-sourcing CARBS: how we used our hyperparameter optimizer to scale up to a 70B-parameter language model - 超参数优化器在大规模模型训练中的应用与调优策略

6.3 模型后训练与评估

模型后训练（Post-Training）和评估是确保模型在实际应用中表现稳定、可靠的关键步骤。本节涵盖 AIOps 场景下的后训练技术、基于 Kubernetes 的评估框架以及基准测试生成方法。

AIOps 后训练技术 - 面向智能运维场景的模型后训练技术与实践
Kubernetes 模型评估框架 - 基于 K8s 的大模型评估框架设计与实现
Kubernetes AIOps 基准测试生成框架 - 自动化生成 AIOps 基准测试数据集的框架设计

7. 大模型推理

推理是大模型从实验室走向生产环境的“最后一公里”。本章聚焦于构建高性能、低延迟的推理系统，涵盖推理服务架构设计、KV Cache 优化、模型量化压缩等核心技术。通过深入分析 Mooncake 等先进架构及不同规模集群的部署策略，为企业级大模型服务的落地提供全面的技术指导。

7.1 推理系统架构设计

推理系统架构是大模型服务化的核心基础，直接决定了系统的性能、可扩展性和资源利用效率。现代推理系统需要在低延迟、高吞吐量和成本效益之间找到最佳平衡点，同时支持动态批处理、内存优化和多模型并发等高级特性。

Mooncake 架构详解：以 KV 缓存为中心的高效 LLM 推理系统设计 - 新一代推理系统的架构创新与性能优化策略

7.2 模型部署与运维实践

模型部署与运维是将训练好的大模型转化为可用服务的关键环节，涉及模型格式转换、环境配置、服务监控和故障处理等多个方面。有效的部署策略能够显著降低运维成本，提高服务稳定性和用户体验。

动手部署 ollama - 轻量级本地大模型部署的完整实践指南
Ollama 推理框架详解 - Ollama 的架构原理与进阶配置

7.3 推理优化技术体系

推理优化技术体系是提升大模型推理性能的核心技术集合，包括算法优化、硬件加速、系统调优和架构设计等多个维度。

AI 推理优化技术文档导航 - 涵盖基础理论、技术选型、专业领域优化和实施运维的系统性指南
LLM 显存占用分析与计算 - 模型参数、KV Cache 与中间激活值的显存估算方法
KV Block Manager 分析 - KV Cache 内存管理机制深度解析
分层流水线技术 - Layer-wise Pipeline 技术原理与性能优化
NIXL 网络存储介绍 - 高性能网络存储架构与应用
NVIDIA 模型优化器 - NVIDIA 模型优化工具链详解

7.4 推理优化参考设计

本系列文档提供了企业级 LLM 推理系统的完整参考设计，涵盖从规模分析到实施落地的全流程指南。

背景与目标 - 推理优化的背景分析与核心目标
集群规模分类与特征分析 - 不同规模集群的特点与需求
核心推理优化技术深度解析 - KV Cache、批处理、量化等核心技术
不同集群规模的技术选型策略 - 针对性的技术方案选择
性能评估指标体系 - 推理性能评估指标与方法
推理服务架构设计 - 企业级推理服务架构设计方案
实施建议与最佳实践 - 落地实施的指导建议
参考资料与延伸阅读 - 推荐阅读与延伸资料
安全性与合规性 - 推理服务的安全与合规要求
多模态推理优化 - 多模态模型推理优化策略
边缘推理优化 - 边缘设备上的推理优化方案
场景问题解答 - 常见问题与解决方案
实施检查清单 - 推理系统上线检查清单
总结与展望 - 推理优化技术发展趋势

7.5 DeepSeek 专题

DeepSeek 是当前开源大模型领域的重要力量，其创新的架构设计和高性能表现备受关注。本节汇总了关于 DeepSeek 模型的部署、对比分析和存储系统设计等核心资料。

DeepSeek 3FS 存储系统 - DeepSeek 自研的高性能分布式文件系统设计笔记
DeepSeek R1 对比分析 - DeepSeek R1 与主流模型的详细对比

8. 企业级 AI Agent 开发

本章深入探讨企业级 AI Agent 开发的完整技术体系。详细内容请访问：

AI Agent 开发与实践 - 核心文档门户，涵盖理论、架构与实战。

8.1 核心模块导航

多智能体系统：BDI 架构、多 Agent 协作机制与企业级落地
- 企业级多智能体系统实现 - 企业级多 Agent 系统架构与实现
记忆系统：MemoryOS 架构、Mem0 实战与 LangChain 记忆集成
- 大模型 Agent 记忆综述 - Agent 记忆系统的理论基础与研究进展
- Mem0 快速入门 - Mem0 记忆系统的安装与使用指南
- MemoryOS 智能记忆系统架构设计 - MemoryOS 系统架构与开发指南
- MemMachine 深度解析 - MemMachine 记忆系统技术原理
- LangChain 记忆集成 - LangChain 记忆模块的使用与最佳实践
上下文工程：动态组装、自适应压缩与 Anthropic 最佳实践
- 上下文工程原理简介 - 上下文工程核心概念快速入门
- Anthropic 上下文工程指南 - Anthropic 官方上下文工程最佳实践
- LangChain 上下文工程实践 - 基于 LangChain 的上下文管理实现
工具与 MCP：Model Context Protocol (MCP) 原理与实战
基础设施：Agent 基础设施技术栈
- AI Agent 基础设施的崛起 - Agent 基础设施发展趋势与技术栈分析
- 12-Factor Agents 设计原则 - 构建可靠 Agent 的 12 条设计原则

8.2 设计模式与技能

Agent 设计模式：ReAct 范式、写作 Agent 与指代消解
Agent Skills：Claude Skills 开发指南与 PDF Translator 实战
世界模型：World Model 核心概念与应用

8.3 深度报告与论文

Agent Workflow Survey：Agent 工作流综述
Deep Research Agent：深度研究 Agent 的设计与实现
LangChain State of Agent Engineering：LangChain 发布的 Agent 工程化现状报告

8.4 其他资料

OpenVikin 深度解析：OpenVikin Agent 框架深度剖析

9. RAG 与文档智能

本章聚焦于检索增强生成（RAG）与文档智能化处理技术，提供从非结构化数据解析到知识库构建的完整解决方案。详细内容请访问：

RAG 与工具生态 - 核心文档门户，涵盖 RAG、GraphRAG 与文档智能工具。

9.1 核心模块导航

RAG 基础与进阶：RAG 技术全景、Chunking 策略与 Embedding 选型
- Chunking 策略评估总结 - 不同分块策略的效果对比
- RAG 技术方案对比 - 主流 RAG 技术方案的深度对比
- 中文 RAG 系统 Embedding 选型指南 - 中文场景下的 Embedding 模型选型
GraphRAG 与知识图谱：GraphRAG 原理、Neo4j 实战与 KAG 框架
- Neo4j Cypher 教程 - Neo4j 查询语言 Cypher 完整教程
LLM + KG 协同应用：金融反欺诈系统设计与 Demo 源码
文档智能解析：MinerU、Marker 与 Markitdown 等高精度解析工具

9.2 深度研究与工具

DeepWiki 技术原理 - DeepWiki 使用方法与技术原理深度分析

9.3 特定领域应用

ChatBox 意图识别 - 意图识别与语义理解机制解析

10. 开源模型与框架生态

本章汇聚了 AI 领域前沿的开源模型与计算框架，聚焦于大模型训练、微调和推理的核心技术，涵盖高性能中文大模型、高效微调工具和推理优化框架，为开发者提供高性能的技术选型参考。

DeepSeek - 基于 Transformer 的高性能中文大模型，具备强大的推理能力与多语言支持
unsloth - 高效大模型微调框架，支持 Llama 3.3、DeepSeek-R1 等模型 2 倍速度提升与 70% 内存节省
ktransformers - 灵活的大模型推理优化框架，提供前沿的推理加速技术

11. 课程体系与学习路径

本章汇总了 AI 基础、系统开发、编程实战等全方位的课程体系，为学习者提供清晰的学习路径和进阶指南。

11.1 AI System 全栈课程（ZOMI 酱）

AISystem - ZOMI 酱的 AI 系统全栈课程，涵盖从硬件基础到框架设计的全技术栈内容：

系统介绍 - AI 系统概述、发展历程与技术演进路径
硬件基础 - AI 芯片架构、硬件加速器与计算平台深度解析
编译器技术 - AI 编译器原理、优化技术与工程实践
推理优化 - 模型推理加速技术、性能调优与部署策略
框架设计 - AI 框架架构设计、分布式计算与并行优化

11.2 AI Infra 基础课程（入门）

大模型原理与最新进展 - 交互式在线课程平台
AI Infra 课程演讲稿 - 完整的课程演讲内容、技术要点与实践案例
学习目标：深入理解大模型工作原理、最新技术进展与企业级应用实践
核心内容：
- Transformer 架构深度解析：编码器-解码器结构、多头注意力机制、文本生成过程
- 训练规模与成本分析： GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求
- DeepSeek 技术突破： V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化
- 能力涌现现象研究：规模效应、临界点突破、多模态融合发展趋势
- AI 编程工具生态： GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践
- GPU 架构与 CUDA 编程：硬件基础、并行计算原理、性能优化策略
- 云原生 AI 基础设施：现代化 AI 基础设施设计、容器化部署与运维实践

11.3 Trae 编程实战课程

系统化的 Trae 编程学习体系：

Trae 编程实战教程 - 从基础入门到高级应用的完整 Trae 编程学习路径

课程结构：

第一部分：Trae 基础入门：环境配置、交互模式、HelloWorld 项目实战
第二部分：常见编程场景实战：前端开发、Web 开发、后端 API、数据库设计、安全认证
第三部分：高级应用场景：AI 模型集成、实时通信、数据分析、微服务架构
第四部分：团队协作与最佳实践：代码质量管理、项目管理、性能优化、DevOps 实践
第五部分：综合项目实战：企业级应用开发、核心功能实现、部署运维实战

11.4 多智能体 AI 系统培训

本课程面向企业技术团队，提供从理论基础到实战应用的完整多智能体系统（Multi-Agent System）构建指南。

多智能体 AI 系统培训材料 - 涵盖 LangGraph 框架深度解析、LangSmith 监控集成及企业级架构设计。

Buy Me a Coffee

如果您觉得本项目对您有帮助，欢迎购买我一杯咖啡，支持我继续创作和维护。

微信	支付宝

Name		Name	Last commit message	Last commit date
Latest commit History 312 Commits
01_hardware_architecture		01_hardware_architecture
02_dpu_programming		02_dpu_programming
02_gpu_programming		02_gpu_programming
03_ai_cluster_ops		03_ai_cluster_ops
04_cloud_native_ai_platform		04_cloud_native_ai_platform
05_model_training_and_fine_tuning		05_model_training_and_fine_tuning
06_llm_theory_and_fundamentals		06_llm_theory_and_fundamentals
07_rag_and_tools		07_rag_and_tools
08_agentic_system		08_agentic_system
09_inference_system		09_inference_system
10_ai_related_course		10_ai_related_course
98_llm_programming		98_llm_programming
99_misc		99_misc
img		img
tools		tools
.gitignore		.gitignore
.gitmodules		.gitmodules
LICENSE		LICENSE
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

AI Fundamentals

1. 硬件架构

2. 云原生 AI 基础设施

2.1 Kubernetes AI 生态

2.2 AI 推理系统与服务

2.2.1 核心框架与平台

2.2.2 推理系统架构

2.2.3 KV Cache 之 LMCache

2.2.3.1 核心概览与对比

2.2.3.2 推理引擎集成与核心链路

2.2.3.3 分层存储后端实现

2.2.3.4 集群控制面与数据面

2.2.3.5 高级技术

2.2.4 KV Cache 之 阿里云 Tair KVCache

2.2.5 部署实战

2.3 存储加速与数据管理

2.4 GPU 管理与虚拟化

3. 开发与编程

3.1 GPU 与 CUDA 编程

3.1.1 核心概念

3.1.2 GPU 编程基础

3.1.3 Tile-Based 编程

3.1.4 性能分析与调优

3.1.5 开发环境配置

3.2 DPU 编程

3.3 Java AI 开发

3.4 AI 编程范式

3.5 LangGraph 开发

4. 机器学习基础

4.1 动手学机器学习

4.2 参考资料

5. 大语言模型基础

5.1 基础理论与概念

5.2 嵌入技术与表示学习

5.3 高级架构与优化技术

5.4 参考书籍

5.5 Deep Research 深度研究

5.6 AI 工作流与编排

6. 大模型训练

6.1 指令微调与监督学习

6.2 大规模模型训练实践

6.3 模型后训练与评估

7. 大模型推理

7.1 推理系统架构设计

7.2 模型部署与运维实践

7.3 推理优化技术体系

7.4 推理优化参考设计

7.5 DeepSeek 专题

8. 企业级 AI Agent 开发

8.1 核心模块导航

8.2 设计模式与技能

8.3 深度报告与论文

8.4 其他资料

9. RAG 与文档智能

9.1 核心模块导航

9.2 深度研究与工具

9.3 特定领域应用

10. 开源模型与框架生态

11. 课程体系与学习路径

11.1 AI System 全栈课程（ZOMI 酱）

11.2 AI Infra 基础课程（入门）

11.3 Trae 编程实战课程

11.4 多智能体 AI 系统培训

Buy Me a Coffee

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 2

Packages 0

Uh oh!

Uh oh!

2.2.4 KV Cache 之阿里云 Tair KVCache

Packages