neuralmagic
diff --git a/‎Qwen/Qwen2.5-7B-Instruct/accuracy/server.yml‎
Lines changed: 0 additions & 5 deletions b/‎Qwen/Qwen2.5-7B-Instruct/accuracy/server.yml‎
Lines changed: 0 additions & 5 deletions
diff --git a/‎RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic/accuracy/server.yml‎
Lines changed: 2 additions & 3 deletions b/‎RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic/accuracy/server.yml‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16/accuracy/server.yml‎
Lines changed: 2 additions & 3 deletions b/‎RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16/accuracy/server.yml‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8/accuracy/server.yml‎
Lines changed: 2 additions & 3 deletions b/‎RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8/accuracy/server.yml‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions b/‎RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions
diff --git a/‎RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions b/‎RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions
diff --git a/‎RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w4a16/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions b/‎RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w4a16/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions
diff --git a/‎RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions b/‎RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions
diff --git a/‎RedHatAI/Mistral-Small-24B-Instruct-2501-FP8-Dynamic/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions b/‎RedHatAI/Mistral-Small-24B-Instruct-2501-FP8-Dynamic/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions
diff --git a/‎RedHatAI/Mistral-Small-24B-Instruct-2501-quantized.w4a16/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions b/‎RedHatAI/Mistral-Small-24B-Instruct-2501-quantized.w4a16/accuracy/server.yml‎
Lines changed: 0 additions & 6 deletions
@@ -1,6 +1,5 @@
 # server configs for https://huggingface.co/RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic
 model: "RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic"
 trust-remote-code: true
-enable-chunked-prefill: true
-tensor-parallel-size: 1
-max-model-len: 4096
+tensor-parallel-size: 8
+max-model-len: 16384
@@ -1,6 +1,5 @@
 # server configs for https://huggingface.co/RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16
 model: "RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16"
 trust-remote-code: true
-enable-chunked-prefill: true
-tensor-parallel-size: 1
-max-model-len: 4096
+tensor-parallel-size: 8
+max-model-len: 16384
@@ -1,6 +1,5 @@
 # server configs for https://huggingface.co/RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8
 model: "RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8"
 trust-remote-code: true
-enable-chunked-prefill: true
-tensor-parallel-size: 1
-max-model-len: 8192
+tensor-parallel-size: 8
+max-model-len: 16384