fix the shape bug of hamming output

leideng · leideng · commit 7fafa2a12211 · 2025-12-29T17:49:17.000+08:00
diff --git a/ucm/sparse/kvcomp/kvcomp_hbm.py b/ucm/sparse/kvcomp/kvcomp_hbm.py
@@ -224,7 +224,7 @@ def __init__(self, vllm_config: VllmConfig, role: UcmSparseRole):
                         [self.max_batch_size], dtype=torch.int32, device=self.device
                     )
                     self.hamming_output = torch.zeros(
-                        [self.max_batch_size, self.hash_topk_tokens // self.block_size],
+                        [self.max_batch_size, self.num_key_heads, self.hash_topk_tokens // self.block_size],
                         dtype=torch.int32,
                         device=self.device,
                     )
@@ -495,9 +495,9 @@ def attention_begin(
                                 block_table_decode,
                                 self.hamming_output[: len(decode_req_ids)],
                             )
-                            topk = self.hamming_output.shape[1]
+                            topk = self.hamming_output.shape[-1]
                             attn_metadata.block_table[decode_req_ids, :topk] = (
-                                self.hamming_output[: len(decode_req_ids)]
+                                self.hamming_output[: len(decode_req_ids), 0, :]
                             )
                             attn_metadata.block_table[decode_req_ids, topk:] = 0
 

Original file line number	Diff line number	Diff line change
`@@ -224,7 +224,7 @@ def __init__(self, vllm_config: VllmConfig, role: UcmSparseRole):`
`224`	`224`	`[self.max_batch_size], dtype=torch.int32, device=self.device`
`225`	`225`	`)`
`226`	`226`	`self.hamming_output = torch.zeros(`
`227`		`- [self.max_batch_size, self.hash_topk_tokens // self.block_size],`
	`227`	`+ [self.max_batch_size, self.num_key_heads, self.hash_topk_tokens // self.block_size],`
`228`	`228`	`dtype=torch.int32,`
`229`	`229`	`device=self.device,`
`230`	`230`	`)`
`@@ -495,9 +495,9 @@ def attention_begin(`
`495`	`495`	`block_table_decode,`
`496`	`496`	`self.hamming_output[: len(decode_req_ids)],`
`497`	`497`	`)`
`498`		`- topk = self.hamming_output.shape[1]`
	`498`	`+ topk = self.hamming_output.shape[-1]`
`499`	`499`	`attn_metadata.block_table[decode_req_ids, :topk] = (`
`500`		`- self.hamming_output[: len(decode_req_ids)]`
	`500`	`+ self.hamming_output[: len(decode_req_ids), 0, :]`
`501`	`501`	`)`
`502`	`502`	`attn_metadata.block_table[decode_req_ids, topk:] = 0`
`503`	`503`