[data][llm] fix vllm ray data quickstart example (#58463)

nrghosh · web-flow · commit 654feda85f11 · 2025-11-07T18:40:00.000-08:00
Signed-off-by: Nikhil Ghosh &lt;nikhil@anyscale.com&gt;
diff --git a/doc/source/data/doc_code/working-with-llms/basic_llm_example.py b/doc/source/data/doc_code/working-with-llms/basic_llm_example.py
@@ -25,7 +25,7 @@
     engine_kwargs={
         "enable_chunked_prefill": True,
         "max_num_batched_tokens": 4096,  # Reduce if CUDA OOM occurs
-        "max_model_len": 16384,
+        "max_model_len": 4096,  # Constrain to fit test GPU memory
     },
     concurrency=1,
     batch_size=64,