Skip to content

dextermayhewjd/nano_vllm_v2

About

项目描述:从零实现一个面向 Qwen3-8B(8B 参数,GQA 架构)的高性能 LLM 推理引擎,聚焦 vLLM 核心优化技术的原理复现,在单张 RTX 3090 上实现 1100+ tok/s 的总吞吐

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors