Skip to content

v2.4.0

Latest

Choose a tag to compare

@Jiang-Jia-Jun Jiang-Jia-Jun released this 23 Jan 02:20
· 502 commits to develop since this release
bbe9731

核心推理能力与模型支持增强

  • 支持文本 prompt_logprob 及全量 logprob 能力 #4769
  • 支持离线推理中基于 ZMQ 的 logprobs / prompt_logprobs,并引入 max_logprobs 参数 #4897
  • 支持在线推理中基于 ZMQ 的 logprobs / prompt_logprobs,并优化通信方式 #5089
  • 新增 logprobs / prompt_logprobstoken_id 解码控制开关 #5463
  • 受限解码新增 llguidance 后端 #5124
  • CUDAGraph 支持投机解码 Draft Model 加速(默认关闭)
  • [Speculative Decoding] 解耦 draft_tokens 后处理流程 #5205
  • 支持 Pooling 模型 Runner
  • 支持 Reward 模型
  • Pooling 模型通用 embedding 接口 #4344
  • Pooling 模型定制 reward 接口 #4518
  • 新增开源模型 Ernie-4.5-VL-28B-A3B-Thinkingreasoning_parser,兼容 - / _ 命名规则 #4571 #4668
  • 支持通过 chat_template_kwargs.options.thinking_mode 控制思考开关
  • 支持多模模型传入 prompt_token_ids 请求,并通过 messages 输入多模数据,实现 tokens-in / tokens-out 能力

并行架构、调度与 MoE 能力演进

  • GLM / Qwen 模型消除 EP 空跑时的通信开销 #5254
  • 支持 MoE 分 chunk 执行 #4575
  • 支持 EPLB(Expert Load Balancing)#4782
  • 支持 EPLB 重排与冗余专家策略 #5142 #5143 #5178 #5239 #5918
  • 支持路由重放机制
  • PD 分离支持 Deepseek V3 模型 EP 并行部署 #5251
  • PD 分离支持 Qwen3-MoE 模型 EP 并行部署 #4691
  • PD 分离支持 Prefill 与 Decode 使用不同 TP Size #5296
  • 新增 Python 版本 Router,支持集中式与分离式部署调度 #4709
  • 支持多步 MTP + CUDAGraph + PD 分离
  • 支持 MTP 无损验证
  • 支持 MTP 分 chunk #5343

多模态、缓存与量化能力增强

  • 支持多模单 batch、纯文本多 batch 混合 Prefill 调度 #4611
  • 支持多模 Prefix Cache #4803
  • 动态量化支持 Prefix Cache #5125
  • 修复并支持多模 Prefix Cache 与 CUDAGraph 同时开启 #4679
  • 支持 W4AFP8 动态量化 #5282
  • 支持静态 C8 scale 单独加载 #4624
  • 完善 Machete 对不同量化 group size 的支持 #4911
  • 支持 Flash Mask Attention Backend 接入 #5104 #5134 #5387
  • v1 Loader 加载性能优化 #4532
  • 支持预编译包功能 #4729

多硬件平台支持扩展

P800

  • 支持多模 Prefix Cache #5356
  • 支持 PD 分离 #5179
  • 支持思考模型思考强度限制 #4761
  • 支持 TP + EP 并行 #4688 #4836

Intel HPU

  • 新增 Prefix Caching 支持 #4971
  • 新增 Chunked Prefill 支持 #5289

Iluvatar GPU

MetaX

  • 支持 ERNIE-4.5-VL-28B #4820
  • 新增 Cutlass MoE #4602 #4685 #5128
  • 支持 default_v1 loader #4956 #5001
  • 优化 Flash MLA 性能 #4915
  • 新增 Triton MoE 的 default_v1 loader 与 quant_config #5030
  • 支持 ENABLE_V1_KVCACHE_SCHEDULER #5163

性能优化、可观测性与稳定性修复

性能与通信优化

  • AppendAttn 算子支持 CUDA-PDL #5072
  • DeepGemm H2D 消除 #5262
  • 优化集中式 EP 通信逻辑 #5145
  • 移除 CUDA Graph 下 Append Attention 的 DtoH 同步开销
  • 支持两阶段低时延通信 #4162
  • 支持 TP + EP 混合并行 #4615 #5315 #5353
  • 默认编译 RDMA,降低多模 CUDAGraph 开销

可观测性与安全

  • 支持基于请求级别的细粒度链路追踪 #5458
  • 添加 trace_id / span_id 自动注入与开关 #4692 #5765
  • 新增 --api-key 权限校验参数 #4806

稳定性与 Bug 修复

  • 修复 logprob / prompt_logprob 计算、序列化及通信相关问题 #4681 #4884 #5237 #5335
  • 修复 EP、PD 分离、MTP、Prefix Cache、量化、多模态等多类推理场景下的稳定性问题
  • 修复多硬件(XPU / MetaX / Luvatar / P800)算子与参数校验问题

What's Changed

New Contributors

Full Changelog: v2.3.3...v2.4.0