nod-ai · KyleHerndon · Oct 16, 2025 · Oct 16, 2025
diff --git a/sharktank/sharktank/examples/export_paged_llm_v1.py b/sharktank/sharktank/examples/export_paged_llm_v1.py
@@ -280,9 +280,12 @@ def main():
         llama_config.hp.rope_interleave_emb = False
 
     # Override matmul_kernel if the weights were shuffled
-    if dataset.properties.get("use_shuffled_kernel", False):
+    shuffle_version = dataset.properties.get("use_shuffled_kernel", False)
+    if shuffle_version:
         kernel_selection = f"sharktank.asm.shuffled;{llama_config.matmul_kernel}"
-        logger.debug(f"Using preshuffle kernel variant: {kernel_selection}")
+        logger.debug(
+            f"Using preshuffle kernel variant: {kernel_selection} (version={shuffle_version})"
+        )
         llama_config.matmul_kernel = kernel_selection
 
     hp = llama_config.hp

diff --git a/sharktank/sharktank/kernels/assembly_binaries.py b/sharktank/sharktank/kernels/assembly_binaries.py
diff --git a/sharktank/sharktank/kernels/gemm_fp4_asm.py b/sharktank/sharktank/kernels/gemm_fp4_asm.py
diff --git a/sharktank/sharktank/models/llama/tools/import_quark_dataset.py b/sharktank/sharktank/models/llama/tools/import_quark_dataset.py
@@ -30,7 +30,7 @@
     _optional_int_prop,
     _int_prop,
 )
-from sharktank.kernels.gemm_fp4_asm import shuffle_weight
+from sharktank.kernels.gemm_fp4_asm import shuffle_weight, shuffle_scale
 
 
 def _load_json(p: Path):
@@ -133,9 +133,10 @@ def create_fp4_block_tensor(
 
     expected_shape = list(original_shape[:-1]) + [num_blocks, packed_block_size]
 
-    # Apply weight shuffling during preprocessing to avoid runtime shuffling (if enabled)
+    # Apply weight and scale shuffling during preprocessing to avoid runtime shuffling (if enabled)
     if apply_shuffle:
         weight_tensor = shuffle_weight(weight_tensor, layout=(16, 16))
+        scale_tensor = shuffle_scale(scale_tensor)
     weight_tensor = weight_tensor.view(*expected_shape)
 
     layout = BlockScaledFp4Layout(
@@ -514,7 +515,11 @@ def main(argv):
     updated_properties = convert_hf_hparams_to_gguf(ds.properties)
 
     # Store shuffle configuration for kernel selection
-    updated_properties["use_shuffled_kernel"] = args.apply_shuffle
+    # Version tracking: True (v1, weights only), "v2" (weights + scales), False (no preshuffle)
+    if args.apply_shuffle:
+        updated_properties["use_shuffled_kernel"] = "v2"  # weights + scales preshuffled
+    else:
+        updated_properties["use_shuffled_kernel"] = False
 
     head_count = (updated_properties["llama.attention.head_count"],)