LLM Knowledge Base

中文内容在规划中了，请加星关注（便于收到更新通知）

A professional, four-track curriculum covering the full lifecycle of Large Language Models — from linguistic foundations to production deployment.

Track 1                Track 2                Track 3                  Track 4
Fundamentals           Scientist              Engineering              Solutions
(NLP → Transformer)    (Research & Training)  (Build & Operate)        (Architect & Ship)
       │                      │                      │                        │
       ▼                      ▼                      ▼                        ▼
  Prerequisite ──────→ Deep Theory ──────→ Industrial Practice ──────→ Business Delivery

Track 1: Fundamentals

From Classical NLP to the Attention Revolution.

Module	Core Topics	Entry Point
01 Linguistics	NLP hierarchy, morphology, syntax, semantics	Linguistic Foundations
02 Classical NLP	Preprocessing, BoW/TF-IDF, HMM/CRF	Text Preprocessing
03 Deep Learning	Word2Vec/GloVe, RNN/LSTM/GRU, Seq2Seq	Word Embeddings, Word2Vec Demo
04 Transformer Era	Attention mechanism, Transformer architecture, Pre-train paradigms	Attention, Attention Viz
05 Applications	Classification, NER, MT, Summarization, Dialogue, Search	LLM Disruption Map

Track 2: Scientist

State-of-the-art model architecture, training, alignment, and frontier research.

Module	Core Topics	Entry Point
01 Architecture (12)	Transformer, MHA/MQA/GQA/MLA, Efficient Attention, Tokenizer, Embedding, RoPE, Dense vs MoE, Decoding, Interpretability, Long Context	Transformer
02 Dataset (5)	Pre-training data at scale, Instruction data, Preference data, Synthetic data, PII management	Data at Scale
03 Pre-Training (11)	GPT evolution, Scaling Laws, Attention optimizations, Data pipelines, Distributed training, Stability, Continual pre-training	Scaling Laws
04 Post-Training	FT: PEFT/LoRA/QLoRA, Domain adaptation	PEFT Strategies
	Alignment: PPO, DPO, KTO, RLAIF, Constitutional AI, RLVR, GRPO	Alignment Overview
	Advanced: Rejection Sampling, Iterative Training, Inference-Time Compute, Model Merging	Inference-Time Compute
	Distillation	Distillation Overview
05 Evaluation (5)	Benchmarks taxonomy, Methodology, LLM-as-Judge, Safety eval, Contamination detection	Benchmarks
06 Multimodal (4)	Vision-Language, Audio/Speech, Video understanding, Multimodal eval	VLM
07 Paper Tracking (5)	Tracking methodology, Architecture/Training/Alignment/Multimodal frontiers	Methodology

Track 3: Engineering

Building, deploying, and operating production-grade LLM applications.

Every module follows a strict 3-layer structure: Theory → Practical (.py) → Best Practice (.md).

Module	Theory	Practical	Best Practice
01 LLMs	Intelligence landscape, Tokenization & cost, API mechanics, Engineering paradigm	Async Gateway, Batch API, Guardrails	Architecture Matrix, Model Routing
02 Prompt Engineering	Foundations, Programmatic prompting, Reasoning strategies, Structured Output & Function Calling, Prompt Template Architecture, Data-Driven Prompt Design	DSPy, Self-Correction, Structured Output	Prompt CI/CD, Defensive Design
03 Context Engineering	Context window mechanics, Context composition & priority, Token budget & cost, Long context techniques, Dynamic context management, Advanced paradigms, CE Evaluation	Shared: Composer, Budget Controller, Compressor, Observability · Cases: Customer Support, Document Analysis	Architecture Patterns, Quality & Eval, Production Optimization, Vendor Practices
04 Memory	Memory systems, Cross-session persistence	Sliding Window, Vector Memory	Architecture Patterns
05 RAG	Architecture, Advanced RAG, Data ingestion, GraphRAG	Query Routing, Hybrid Indexing, Reranking	RAG Eval Framework, Embedding Selection
06 Agent	Theory, Architecture, Workflow patterns, Multi-agent, MCP Protocol	ReAct Agent, Multi-Agent, MCP Server	Agent Eval, Production Guardrails
	Frameworks (9): ADK, CrewAI, CamelAI, Agno, LangGraph, AutoGPT, BabyAGI, Semantic Kernel, OpenAI Swarm	ADK Agent, Agno Agent
07 Deployment	Optimization, Architecture, Quantization, Cloud comparison	vLLM, Continuous Batching	Production Checklist, SLOs & Monitoring
08 Security	LLM threats, Advanced threat modeling, Privacy/Compliance, Secure architecture	Injection Detection, PII Redaction, Agent Sandbox	Compliance Checklist, Incident Response
09 LLMOps	Maintenance, Observability, CI/CD for LLMs	Eval Runner, Observability Collector	Production Checklist, On-Call Runbook

Track 4: Solutions

Architectural decision frameworks and implementation roadmaps for domain LLM applications.

Four-phase progression: Strategy → Infrastructure → Build → Ship.

Phase	Document	Key Question
Strategy	01 Technology Selection	Prompt Eng vs RAG vs Fine-tuning?
	02 Cost & ROI Analysis	Is it worth building?
Infrastructure	03 Domain Data Strategy	Where does the data come from?
	04 Evaluation Loop	How do we measure success?
Build	05 RAG Architecture	Multi-source, Agentic RAG patterns.
	06 Finetuning Playbook	CPT → SFT → DPO execution guide.
	07 Knowledge Graph Integration	Hybrid structured + unstructured.
	08 Agent Workflow Design	Business process orchestration.
Ship	09 Vertical Scenario Templates	Legal, Finance, Manufacturing, Medical blueprints.
	10 Implementation Roadmap	PoC → MVP → Production → Scale.

Reading Paths

Goal	Recommended Path
"I'm new to NLP/LLM"	Track 1 (all) → Track 3 (01-02) → Track 4 (01)
"I want to build LLM apps"	Track 3 (01→09) → Track 4 (01→10)
"I want to train/align models"	Track 1 (04) → Track 2 (01→05)
"I need to deploy to production"	Track 3 (07→09) → Track 4 (02, 10)
"I'm evaluating LLM for my business"	Track 4 (01→02) → Track 3 (01) → Track 4 (10)

Reference Materials

Type	Title	Tracks
Book	Build a Large Language Model — Raschka (2025) (`materials/books/`)	Track 1–2: end-to-end guide from architecture → pre-training → fine-tuning → alignment

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
01_Fundamentals		01_Fundamentals
02_Scientist		02_Scientist
03_Engineering		03_Engineering
04_Solutions		04_Solutions
assets/images		assets/images
.gitignore		.gitignore
README.md		README.md
llm-config.example.yaml		llm-config.example.yaml
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM Knowledge Base

Track 1: Fundamentals

Track 2: Scientist

Track 3: Engineering

Track 4: Solutions

Reading Paths

Reference Materials

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

LLM Knowledge Base

Track 1: Fundamentals

Track 2: Scientist

Track 3: Engineering

Track 4: Solutions

Reading Paths

Reference Materials

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages