updates

viraatc · viraatc · commit 64c4ee96f27e · 2025-12-16T23:52:18.000-08:00
diff --git a/language/deepseek-r1/docker/Dockerfile.sglang b/language/deepseek-r1/docker/Dockerfile.sglang
@@ -1,5 +1,5 @@
 # SGLang Backend Dockerfile
-FROM lmsysorg/sglang:v0.5.4.post3
+FROM lmsysorg/sglang:v0.5.2-cu129-b200
 
 # Set environment variables
 ENV DEBIAN_FRONTEND=noninteractive
diff --git a/language/deepseek-r1/docker/setup_scripts/setup_sglang.sh b/language/deepseek-r1/docker/setup_scripts/setup_sglang.sh
@@ -63,12 +63,14 @@ patch_prm800k_setup
 
 # Install evaluation requirements
 install_evaluation_requirements
-VIRTUAL_ENV=$VENV_DIR uv pip install --upgrade --force-reinstall transformers==4.57.3
-VIRTUAL_ENV=$VENV_DIR uv pip uninstall flashinfer-python
 
 # Install MLPerf LoadGen
 install_mlperf_loadgen "$FORCE_REBUILD" "$MLPERF_BACKEND"
 
+# Install sglang==0.5.4
+echo "Installing sglang==0.5.4"
+VIRTUAL_ENV=$VENV_DIR uv pip install sglang[all]==0.5.4 --prerelease=allow
+
 # Verify SGLang installation
 if python3 -c "import sglang" 2>/dev/null; then
     SGLANG_VERSION=$(python3 -c "import sglang; print(sglang.__version__)")
diff --git a/language/deepseek-r1/run_mlperf.py b/language/deepseek-r1/run_mlperf.py
@@ -44,10 +44,10 @@ def create_argument_parser() -> argparse.ArgumentParser:
         "Run MLPerf inference benchmarks with modular backends (async pattern)"
     )
 
-    # Scenario selection (no backend argument, auto-detected)
+    # Mode selection (no backend argument, auto-detected)
     parser.add_argument("--mode", type=str, default="offline",
                         choices=["offline", "server", "interactive"],
-                        help="MLPerf scenario mode")
+                        help="MLPerf mode (offline, server, or interactive)")
 
     # MLPerf configuration
     parser.add_argument("--mlperf-conf", type=str, default="/inference/mlperf.conf",
@@ -56,10 +56,6 @@ def create_argument_parser() -> argparse.ArgumentParser:
     parser.add_argument("--user-conf", type=str, default="mlperf/user.conf",
                         help="Path to user configuration file")
 
-    parser.add_argument("--scenario", type=str, default=None,
-                        choices=["Offline", "Server"],
-                        help="MLPerf scenario (overrides --mode)")
-
     parser.add_argument("--accuracy", action="store_true",
                         help="Run accuracy mode instead of performance")
 
@@ -73,7 +69,7 @@ def create_argument_parser() -> argparse.ArgumentParser:
     return parser
 
 
-def configure_loadgen(scenario: str,
+def configure_loadgen(mode: str,
                       accuracy_mode: bool,
                       mlperf_conf: Optional[str] = None,
                       user_conf: Optional[str] = None,
@@ -82,7 +78,7 @@ def configure_loadgen(scenario: str,
     """Configure LoadGen test settings.
 
     Args:
-        scenario: MLPerf scenario ("offline", "server", or "interactive")
+        mode: MLPerf mode ("offline", "server", or "interactive")
         accuracy_mode: Whether to run in accuracy mode
         mlperf_conf: Path to MLPerf config file
         user_conf: Path to user config file
@@ -94,19 +90,19 @@ def configure_loadgen(scenario: str,
     """
     settings = lg.TestSettings()
 
-    # Set scenario
-    if scenario.lower() == "offline":
+    # Set scenario based on mode
+    if mode == "offline":
         settings.scenario = lg.TestScenario.Offline
         config_scenario = "Offline"
-    elif scenario.lower() == "server" or scenario.lower() == "interactive":
+    elif mode == "server" or mode == "interactive":
         settings.scenario = lg.TestScenario.Server
         config_scenario = "Server"
     else:
-        raise ValueError(f"Unknown scenario: {scenario}")
+        raise ValueError(f"Unknown mode: {mode}")
 
     # Adjust model name for interactive mode to use separate config
     # LoadGen will look for "deepseek-r1-interactive.Server" config section
-    if scenario.lower() == "interactive":
+    if mode == "interactive":
         model_name = f"{model_name}-interactive"
 
     # Set mode
@@ -157,9 +153,8 @@ def main():
         # Detect backend early
         backend_name = validate_runner_for_backend('mlperf')
 
-        # Handle scenario override
-        if args.scenario:
-            args.mode = args.scenario.lower()
+        # Get mode (already in lowercase)
+        mode = args.mode
 
         # Create output directories
         output_dir = Path(args.output_dir)
@@ -168,17 +163,17 @@ def main():
         if args.log_dir:
             log_dir = Path(args.log_dir)
         else:
-            log_dir = output_dir / args.mode / \
+            log_dir = output_dir / mode / \
                 ("accuracy" if args.accuracy else "performance")
         log_dir.mkdir(parents=True, exist_ok=True)
 
         # Set up output paths with mode information
-        _, output_file_base = setup_output_paths(args, mode=args.mode)
+        _, output_file_base = setup_output_paths(args, mode=mode)
         if args.output_file is None:
             # Create output file path in the log directory
             mode_str = "accuracy" if args.accuracy else "performance"
             output_file_base = str(
-                log_dir / f"{backend_name}_mlperf_{args.mode}_{mode_str}_output.pkl")
+                log_dir / f"{backend_name}_mlperf_{mode}_{mode_str}_output.pkl")
         else:
             output_file_base = args.output_file
 
@@ -197,7 +192,7 @@ def main():
         logger.info("MLPerf Inference Benchmark Runner (Async Pattern)")
         logger.info("=" * 80)
         logger.info(f"Backend: {backend_name}")
-        logger.info(f"Mode: {args.mode}")
+        logger.info(f"Mode: {mode}")
         logger.info(f"Accuracy: {args.accuracy}")
         logger.info(f"Input file: {args.input_file}")
         logger.info(f"Output directory: {output_dir}")
@@ -267,7 +262,7 @@ def main():
 
             # Configure LoadGen
             settings = configure_loadgen(
-                scenario=args.mode,
+                mode=args.mode,
                 accuracy_mode=args.accuracy,
                 mlperf_conf=args.mlperf_conf,
                 user_conf=args.user_conf,