fix edge case where max_tokens is not provided in requests (#688)

dmchoiboi · web-flow · commit a33d5c2c491e · 2025-02-28T20:49:05.000-08:00
diff --git a/model-engine/model_engine_server/inference/vllm/vllm_batch.py b/model-engine/model_engine_server/inference/vllm/vllm_batch.py
@@ -201,7 +201,7 @@ def determine_max_concurrent_requests(
     # anecdotally, we're seeing the engine able to handle around 7req/s (for outlines), so set to 30 * 7 ~= 200
     if any(
         request.to_sampling_params(
-            default_max_tokens=0, logits_processor_pattern=None
+            default_max_tokens=1, logits_processor_pattern=None
         ).guided_decoding
         for request in requests
     ):