perf: reduce container idle timeout for neuralchat & psyfighter1 (#84)

sambarnes · web-flow · commit 54cf516123f7 · 2024-03-26T15:04:01.000-06:00
diff --git a/modal/runner/containers/vllm_unified.py b/modal/runner/containers/vllm_unified.py
@@ -24,6 +24,7 @@ def _make_container(
     gpu: modal.gpu = modal.gpu.A100(count=1, memory=40),
     concurrent_inputs: int = 8,
     max_containers: int = None,
+    container_idle_timeout: int = 20 * 60,  # 20 minutes
     keep_warm: int = None,
     **vllm_opts,
 ):
@@ -88,7 +89,7 @@ def __init__(self):
         memory=1024,
         gpu=gpu,
         allow_concurrent_inputs=concurrent_inputs,
-        container_idle_timeout=20 * 60,
+        container_idle_timeout=container_idle_timeout,
         timeout=10 * 60,
         secrets=[*get_observability_secrets()],
         concurrency_limit=max_containers,
@@ -120,6 +121,7 @@ def __init__(self):
     gpu=modal.gpu.A10G(count=1),
     concurrent_inputs=4,
     max_containers=5,
+    container_idle_timeout=2 * 60,
     quantization="GPTQ",
 )
 
@@ -130,6 +132,7 @@ def __init__(self):
     gpu=modal.gpu.A10G(count=1),
     concurrent_inputs=4,
     max_containers=5,
+    container_idle_timeout=2 * 60,
     quantization="GPTQ",
 )