Merge pull request #373 from cen121212/2-11-main

iforgetmyname · web-flow · commit c726cd83f1e5 · 2026-02-11T22:55:58.000+08:00
diff --git a/python/sgl_kernel_npu/sgl_kernel_npu/norm/fused_rope_qk_mqa.py b/python/sgl_kernel_npu/sgl_kernel_npu/norm/fused_rope_qk_mqa.py
@@ -0,0 +1,124 @@
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def fused_rope_qk_mqa_kernel(
+    query_ptr,      # [T, Hq, D]
+    key_ptr,        # [T, Hk, D]
+    cos_sin_ptr,    # [max_pos, 2*D_ROPE]
+    out_q_ptr,
+    out_k_ptr,
+    stride_qt, stride_qh, stride_qd,
+    stride_kt, stride_kh, stride_kd,
+    stride_ct, stride_cd,
+    stride_oqt, stride_oqh, stride_oqd,
+    stride_okt, stride_okh, stride_okd,
+    Hk: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    D_ROPE: tl.constexpr,
+    IS_NEOX_STYLE: tl.constexpr,
+):
+    pid_t = tl.program_id(0)
+    pid_h = tl.program_id(1)
+
+    # MQA: key head broadcast
+    kh = pid_h % Hk
+
+    # -------- rotary indices 
+    d = tl.arange(0, D_ROPE // 2)
+    if IS_NEOX_STYLE:
+        idx_even = d
+        idx_odd  = d + D_ROPE//2
+    else:
+        idx_even = d * 2
+        idx_odd  = d * 2 + 1
+
+    # cos / sin
+    cos = tl.load(cos_sin_ptr +  pid_t* stride_ct + d * stride_cd)
+    sin = tl.load(
+        cos_sin_ptr +  pid_t* stride_ct + (d + D_ROPE // 2) * stride_cd
+    )
+
+
+    # ================= Q =================
+    q_base = query_ptr + pid_t * stride_qt + pid_h * stride_qh
+    
+    q1 = tl.load(q_base + idx_even * stride_qd)
+    q2 = tl.load(q_base + idx_odd * stride_qd)
+
+    q_out1 = (q1 * cos) - (q2 * sin)
+    q_out2 = (q1 * sin) + (q2 * cos)
+
+    oq_base = out_q_ptr + pid_t * stride_oqt + pid_h * stride_oqh
+    tl.store(oq_base + idx_even * stride_oqd, q_out1)
+    tl.store(oq_base + idx_odd * stride_oqd, q_out2)
+
+    # ================= K =================
+    k_base = key_ptr + pid_t * stride_kt + kh * stride_kh
+    k1 = tl.load(k_base + idx_even * stride_kd)
+    k2 = tl.load(k_base + idx_odd * stride_kd)
+
+    k_out1 = (k1 * cos) - (k2 * sin)
+    k_out2 = (k1 * sin) + (k2 * cos)
+
+    ok_base = out_k_ptr + pid_t * stride_okt + kh * stride_okh
+    tl.store(ok_base + idx_even * stride_okd, k_out1)
+    tl.store(ok_base + idx_odd * stride_okd, k_out2)
+
+    # ================= pass-through（编译期裁剪） =================
+    if D_HEAD > D_ROPE:
+        dp = tl.arange(0, D_HEAD - D_ROPE)
+        tl.store(
+            oq_base + (dp + D_ROPE) * stride_oqd,
+            tl.load(q_base + (dp + D_ROPE) * stride_qd),
+        )
+        tl.store(
+            ok_base + (dp + D_ROPE) * stride_okd,
+            tl.load(k_base + (dp + D_ROPE) * stride_kd),
+        )
+
+
+def fused_rope_qk_mqa(
+    query,          # [T, Hq, D]
+    key,            # [T, Hk, D]
+    cos_sin,        # [T, D]
+    rotary_dim,
+    is_neox_style
+):
+    T, Hq, D = query.shape
+    _, Hk, _ = key.shape
+
+    out_q = torch.empty_like(query)
+    out_k = torch.empty_like(key)
+    
+    grid = (T, Hq)
+
+    fused_rope_qk_mqa_kernel[grid](
+        query,
+        key,
+        cos_sin,
+        out_q,
+        out_k,
+        query.stride(0),
+        query.stride(1),
+        query.stride(2),
+        key.stride(0),
+        key.stride(1),
+        key.stride(2),
+        cos_sin.stride(0),
+        cos_sin.stride(1),
+        out_q.stride(0),
+        out_q.stride(1),
+        out_q.stride(2),
+        out_k.stride(0),
+        out_k.stride(1),
+        out_k.stride(2),
+        Hk=Hk,
+        D_HEAD=D,
+        D_ROPE=rotary_dim,
+        IS_NEOX_STYLE=is_neox_style
+    )
+
+    return out_q, out_k
diff --git a/python/sgl_kernel_npu/sgl_kernel_npu/norm/fused_split_qk_norm.py b/python/sgl_kernel_npu/sgl_kernel_npu/norm/fused_split_qk_norm.py
@@ -0,0 +1,136 @@
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def fused_split_qk_norm_kernel(
+    fused_ptr,          # [B, total_hidden]
+    q_lora_ptr,         # [B, q_lora]
+    k_nope_ptr,         # [B, kv_lora]
+    k_pe_ptr,           # [B, qk_rope]
+    q_rms_w_ptr,
+    q_rms_b_ptr,
+    k_rms_w_ptr,
+    k_rms_b_ptr,
+    total_hidden: tl.constexpr,
+    q_lora_rank: tl.constexpr,
+    kv_lora_rank: tl.constexpr,
+    qk_rope_dim: tl.constexpr,
+    eps: tl.constexpr,
+    Q_HAS_BIAS: tl.constexpr,
+    K_HAS_BIAS: tl.constexpr,
+):
+    pid = tl.program_id(0)
+
+    base = pid * total_hidden
+
+    # =====================================================
+    # Q LORA  (RMSNorm)
+    # =====================================================
+    q_offs = tl.arange(0, q_lora_rank)
+    q = tl.load(
+        fused_ptr + base + q_offs,
+        mask=q_offs < q_lora_rank,
+        other=0.0,
+    ).to(tl.float32)
+
+    q_var = tl.sum(q * q, axis=0) / q_lora_rank
+    q_rstd = tl.rsqrt(q_var + eps)
+
+    qw = tl.load(q_rms_w_ptr + q_offs, mask=q_offs < q_lora_rank)
+    q = q * q_rstd * qw
+
+    if Q_HAS_BIAS:
+        qb = tl.load(q_rms_b_ptr + q_offs, mask=q_offs < q_lora_rank)
+        q += qb
+
+    tl.store(q_lora_ptr + pid * q_lora_rank + q_offs, q, mask=q_offs < q_lora_rank)
+
+    # =====================================================
+    # K NOPE  (RMSNorm)
+    # =====================================================
+    k_base = base + q_lora_rank
+    k_offs = tl.arange(0, kv_lora_rank)
+
+    k = tl.load(
+        fused_ptr + k_base + k_offs,
+        mask=k_offs < kv_lora_rank,
+        other=0.0,
+    ).to(tl.float32)
+
+    k_var = tl.sum(k * k, axis=0) / kv_lora_rank
+    k_rstd = tl.rsqrt(k_var + eps)
+
+    kw = tl.load(k_rms_w_ptr + k_offs, mask=k_offs < kv_lora_rank)
+    k = k * k_rstd * kw
+
+    if K_HAS_BIAS:
+        kb = tl.load(k_rms_b_ptr + k_offs, mask=k_offs < kv_lora_rank)
+        k += kb
+
+    tl.store(k_nope_ptr + pid * kv_lora_rank + k_offs, k, mask=k_offs < kv_lora_rank)
+
+    # =====================================================
+    # K PE  (no norm, direct copy)
+    # =====================================================
+    pe_offs = tl.arange(0, qk_rope_dim)
+    pe_base = k_base + kv_lora_rank
+
+    k_pe = tl.load(
+        fused_ptr + pe_base + pe_offs,
+        mask=pe_offs < qk_rope_dim,
+    )
+
+    tl.store(
+        k_pe_ptr + pid * qk_rope_dim + pe_offs,
+        k_pe,
+        mask=pe_offs < qk_rope_dim,
+    )
+
+def fused_split_qk_norm(
+    fused_qkv_a_proj_out,
+    q_a_layernorm,
+    kv_a_layernorm,
+    q_lora_rank,
+    kv_lora_rank,
+    qk_rope_dim,
+    eps=1e-6,
+):
+    B, total_hidden = fused_qkv_a_proj_out.shape
+    device = fused_qkv_a_proj_out.device
+    dtype = fused_qkv_a_proj_out.dtype
+
+    q_lora = torch.empty(
+        (B, q_lora_rank), device=device, dtype=dtype
+    )
+    k_nope = torch.empty(
+        (B, kv_lora_rank), device=device, dtype=dtype
+    )
+    k_pe = torch.empty(
+        (B, qk_rope_dim), device=device, dtype=dtype
+    )
+
+    fused_split_qk_norm_kernel[(B,)](
+        fused_qkv_a_proj_out,
+        q_lora,
+        k_nope,
+        k_pe,
+        q_a_layernorm.weight,
+        q_a_layernorm.bias,
+        kv_a_layernorm.weight,
+        kv_a_layernorm.bias,
+        total_hidden,
+        q_lora_rank,
+        kv_lora_rank,
+        qk_rope_dim,
+        eps,
+        q_a_layernorm.bias is not None,
+        kv_a_layernorm.bias is not None,
+    )
+
+    # 还原原始形态（unsqueeze(1)）
+    k_nope = k_nope.unsqueeze(1)
+    k_pe = k_pe.unsqueeze(1)
+
+    return q_lora, k_nope, k_pe