Revert "[Kernel] changing fused moe kernel chunk size default to 32k (vllm-project#7995)" (#207)

gshtras · web-flow · commit cc2039c82b37 · 2024-09-25T11:34:08.000-04:00
This reverts commit 34a0e96.
diff --git a/vllm/envs.py b/vllm/envs.py
@@ -404,7 +404,7 @@ def get_default_config_root():
             os.path.join(get_default_cache_root(), "vllm", "xla_cache"),
         )),
     "VLLM_FUSED_MOE_CHUNK_SIZE":
-    lambda: int(os.getenv("VLLM_FUSED_MOE_CHUNK_SIZE", "32768")),
+    lambda: int(os.getenv("VLLM_FUSED_MOE_CHUNK_SIZE", "65536")),
 
     # If set, vllm will skip the deprecation warnings.
     "VLLM_NO_DEPRECATION_WARNING":