benchmark optimization

ebiser · ebiser · commit 663e8502244b · 2026-01-05T19:11:52.000-06:00
diff --git a/.env b/.env
@@ -43,7 +43,11 @@ LATEST_ONLY=true
 # -----------------------------------------------------------------------------
 # Pod 6: Inference Benchmark Settings
 # -----------------------------------------------------------------------------
-BENCHMARK_SAMPLE_SIZE=10000
+# Duration of sustained throughput test per model (CPU and GPU)
+BENCHMARK_DURATION=60
+
+# Batch size for inference (records per batch)
+BENCHMARK_BATCH_SIZE=10000
 
 # -----------------------------------------------------------------------------
 # S3 Configuration (TODO - FlashBlade S3 Endpoint)
diff --git a/Makefile b/Makefile
@@ -30,7 +30,7 @@ help:
 	@echo "  make build       Build all containers"
 	@echo "  make pipeline    Run full pipeline (pods 1-3)"
 	@echo "  make inference   Start inference server (pod 4)"
-	@echo "  make benchmark   Run CPU vs GPU inference benchmark (pod 6)"
+	@echo "  make benchmark   Run sustained throughput benchmark (pod 6)"
 	@echo "  make test        Test inference endpoint"
 	@echo "  make stop        Stop all containers"
 	@echo "  make clean-data  Remove generated data"
@@ -48,7 +48,11 @@ help:
 	@echo "  FB_PREP=$(FB_PREP)"
 	@echo "  FA_MODEL_REPO=$(FA_MODEL_REPO)"
 	@echo "  DURATION_SECONDS=$(DURATION_SECONDS)s NUM_WORKERS=$(NUM_WORKERS)"
-	@echo "  BENCHMARK_SAMPLE_SIZE=$(BENCHMARK_SAMPLE_SIZE)"
+	@echo ""
+	@echo "Benchmark options:"
+	@echo "  BENCHMARK_DURATION=$(BENCHMARK_DURATION)s"
+	@echo "  BENCHMARK_BATCH_SIZE=$(BENCHMARK_BATCH_SIZE)"
+	@echo "  Example: make benchmark BENCHMARK_DURATION=120 BENCHMARK_BATCH_SIZE=50000"
 
 # Verify environment and paths
 env-check:
@@ -143,13 +147,18 @@ inference:
 	@echo "  gRPC:    localhost:8001"
 	@echo "  Metrics: http://localhost:8002"
 
-# Run inference benchmark (CPU vs GPU comparison)
+# Benchmark settings
+BENCHMARK_DURATION ?= 60
+BENCHMARK_BATCH_SIZE ?= 10000
+
+# Run sustained throughput benchmark (CPU vs GPU)
 benchmark:
 	@echo ""
 	@echo "=========================================="
-	@echo "Inference Benchmark: CPU vs GPU"
+	@echo "Sustained Throughput Benchmark: CPU vs GPU"
 	@echo "=========================================="
-	@echo "Sample size: $(BENCHMARK_SAMPLE_SIZE) records"
+	@echo "Duration:   $(BENCHMARK_DURATION)s per model"
+	@echo "Batch size: $(BENCHMARK_BATCH_SIZE) records"
 	@echo ""
 	@if [ ! -d "$(FB_DATA)" ] || [ -z "$$(ls -A $(FB_DATA)/run_* 2>/dev/null)" ]; then \
 		echo "ERROR: No data found at $(FB_DATA)/run_*/"; \
@@ -175,25 +184,28 @@ benchmark:
 		sleep 3; \
 	done
 	@echo ""
-	docker compose run --rm benchmark
+	DURATION_SECONDS=$(BENCHMARK_DURATION) BATCH_SIZE=$(BENCHMARK_BATCH_SIZE) docker compose run --rm benchmark
 	@echo ""
 	@echo "Benchmark complete!"
 
 # Run benchmark without Triton (CPU only)
 benchmark-cpu:
 	@echo ""
 	@echo "=========================================="
-	@echo "Inference Benchmark: CPU Only"
+	@echo "Sustained Throughput Benchmark: CPU Only"
 	@echo "=========================================="
+	@echo "Duration:   $(BENCHMARK_DURATION)s"
+	@echo "Batch size: $(BENCHMARK_BATCH_SIZE) records"
+	@echo ""
 	@if [ ! -d "$(FB_DATA)" ] || [ -z "$$(ls -A $(FB_DATA)/run_* 2>/dev/null)" ]; then \
 		echo "ERROR: No data found at $(FB_DATA)/run_*/"; \
 		exit 1; \
 	fi
-	@if [ ! -d "$(FA_MODEL_REPO)/fraud_xgboost" ]; then \
-		echo "ERROR: Model not found at $(FA_MODEL_REPO)/fraud_xgboost/"; \
+	@if [ ! -d "$(FA_MODEL_REPO)/fraud_xgboost" ] && [ ! -d "$(FA_MODEL_REPO)/fraud_xgboost_gpu" ] && [ ! -d "$(FA_MODEL_REPO)/fraud_xgboost_cpu" ]; then \
+		echo "ERROR: Model not found at $(FA_MODEL_REPO)/"; \
 		exit 1; \
 	fi
-	docker compose run --rm -e TRITON_URL=http://localhost:9999 benchmark
+	DURATION_SECONDS=$(BENCHMARK_DURATION) BATCH_SIZE=$(BENCHMARK_BATCH_SIZE) docker compose run --rm -e TRITON_URL=http://localhost:9999 benchmark
 
 # Test inference
 test:
diff --git a/docker-compose.yaml b/docker-compose.yaml
@@ -155,9 +155,9 @@ services:
 
   # ============================================================================
   # Pod 6: Inference Benchmark
-  # Compares CPU (XGBoost direct) vs GPU (Triton) inference performance
+  # Sustained throughput test comparing CPU (XGBoost) vs GPU (Triton)
   # Input:  ${FB_DATA}/run_*/*.parquet (raw data from Pod 1)
-  #         ${FA_MODEL_REPO}/fraud_xgboost/ (model from Pod 3)
+  #         ${FA_MODEL_REPO}/fraud_xgboost*/ (model from Pod 3)
   # Output: Console performance comparison
   # ============================================================================
   benchmark:
@@ -172,7 +172,8 @@ services:
       - DATA_DIR=/data/input
       - MODEL_DIR=/data/models
       - TRITON_URL=http://inference:8000
-      - SAMPLE_SIZE=${BENCHMARK_SAMPLE_SIZE:-10000}
+      - DURATION_SECONDS=${DURATION_SECONDS:-60}
+      - BATCH_SIZE=${BATCH_SIZE:-10000}
     depends_on:
       inference:
         condition: service_healthy
diff --git a/pods/benchmark/Dockerfile b/pods/benchmark/Dockerfile
@@ -1,5 +1,5 @@
-# Pod 6: Inference Benchmark
-# Compares CPU (XGBoost) vs GPU (Triton) inference performance
+# Pod 6: Sustained Throughput Benchmark
+# Compares CPU (XGBoost) vs GPU (Triton) inference over 60 seconds
 
 FROM python:3.11-slim
 
@@ -19,7 +19,8 @@ COPY benchmark.py .
 ENV DATA_DIR=/data/input
 ENV MODEL_DIR=/data/models
 ENV TRITON_URL=http://inference:8000
-ENV SAMPLE_SIZE=10000
+ENV DURATION_SECONDS=60
+ENV BATCH_SIZE=10000
 ENV PYTHONUNBUFFERED=1
 
 CMD ["python", "benchmark.py"]
diff --git a/pods/benchmark/benchmark.py b/pods/benchmark/benchmark.py