basetenlabs
diff --git a/‎custom-engine-builder-control/README.md‎
Lines changed: 3 additions & 3 deletions b/‎custom-engine-builder-control/README.md‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎custom-engine-builder-control/config.yaml‎
Lines changed: 1 addition & 1 deletion b/‎custom-engine-builder-control/config.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎deepseek/engine-deepseek-r1-distill-llama-70b/config.yaml‎
Lines changed: 18 additions & 16 deletions b/‎deepseek/engine-deepseek-r1-distill-llama-70b/config.yaml‎
Lines changed: 18 additions & 16 deletions
diff --git a/‎deepseek/engine-deepseek-r1-distill-llama-8b/config.yaml‎
Lines changed: 18 additions & 16 deletions b/‎deepseek/engine-deepseek-r1-distill-llama-8b/config.yaml‎
Lines changed: 18 additions & 16 deletions
diff --git a/‎deepseek/engine-deepseek-r1-distill-qwen-14b/config.yaml‎
Lines changed: 15 additions & 13 deletions b/‎deepseek/engine-deepseek-r1-distill-qwen-14b/config.yaml‎
Lines changed: 15 additions & 13 deletions
diff --git a/‎deepseek/engine-deepseek-r1-distill-qwen-32b/config.yaml‎
Lines changed: 15 additions & 13 deletions b/‎deepseek/engine-deepseek-r1-distill-qwen-32b/config.yaml‎
Lines changed: 15 additions & 13 deletions
diff --git a/‎deepseek/engine-deepseek-r1-distill-qwen-7b/config.yaml‎
Lines changed: 15 additions & 13 deletions b/‎deepseek/engine-deepseek-r1-distill-qwen-7b/config.yaml‎
Lines changed: 15 additions & 13 deletions
diff --git a/‎falcon/falcon3-10B-trt-llm-spec-dec/config.yaml‎
Lines changed: 1 addition & 1 deletion b/‎falcon/falcon3-10B-trt-llm-spec-dec/config.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎falcon/falcon3-3B-trt-llm-engine-high-throughput/config.yaml‎
Lines changed: 1 addition & 1 deletion b/‎falcon/falcon3-3B-trt-llm-engine-high-throughput/config.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎internal/config.yaml‎
Lines changed: 4 additions & 5 deletions b/‎internal/config.yaml‎
Lines changed: 4 additions & 5 deletions
@@ -15,8 +15,8 @@ Optionally, you can also enable:
 
 
 # Examples:
-This deployment is to showcase the option to generate multiple suffixes based on a previous request. 
-We are going to hit the KV-Cache of a previous request. 
+This deployment is to showcase the option to generate multiple suffixes based on a previous request.
+We are going to hit the KV-Cache of a previous request.
 
 ## Deployment with Truss
 
@@ -106,7 +106,7 @@ resources:
   use_gpu: true
 trt_llm:
   build:
-    base_model: qwen
+    base_model: decoder
     checkpoint_repository:
       repo: Qwen/Qwen3-8B
       revision: main
 
@@ -25,7 +25,7 @@ resources:
   use_gpu: true
 trt_llm:
   build:
-    base_model: qwen
+    base_model: decoder
     checkpoint_repository:
       repo: Qwen/Qwen3-8B
       revision: main
 
@@ -4,35 +4,37 @@ external_package_dirs: []
 model_metadata:
   tags:
     - openai-compatible
-  example_model_input: {
-    messages: [
-      {
-        role: "user",
-        content: "Which is heavier, a pound of bricks or a pound of feathers?"
-      }
-    ],
-    stream: true,
-    max_tokens: 1024,
-    temperature: 0.6,
-    top_p: 1.0,
-    top_k: 40,
-    frequency_penalty: 1
-  }
+  example_model_input:
+    {
+      messages:
+        [
+          {
+            role: "user",
+            content: "Which is heavier, a pound of bricks or a pound of feathers?",
+          },
+        ],
+      stream: true,
+      max_tokens: 1024,
+      temperature: 0.6,
+      top_p: 1.0,
+      top_k: 40,
+      frequency_penalty: 1,
+    }
   repo_id: deepseek-ai/DeepSeek-R1-Distill-Llama-70B
 model_name: DeepSeek R1 Distill Llama 70B
 python_version: py39
 requirements: []
 resources:
   accelerator: H100:2
-  cpu: '1'
+  cpu: "1"
   memory: 24Gi
   use_gpu: true
 secrets:
   hf_access_token: set token in baseten workspace
 system_packages: []
 trt_llm:
   build:
-    base_model: llama
+    base_model: decoder
     checkpoint_repository:
       repo: deepseek-ai/DeepSeek-R1-Distill-Llama-70B
       source: HF
 
@@ -4,35 +4,37 @@ external_package_dirs: []
 model_metadata:
   tags:
     - openai-compatible
-  example_model_input: {
-    messages: [
-      {
-        role: "user",
-        content: "Which is heavier, a pound of bricks or a pound of feathers?"
-      }
-    ],
-    stream: true,
-    max_tokens: 1024,
-    temperature: 0.6,
-    top_p: 1.0,
-    top_k: 40,
-    frequency_penalty: 1
-  }
+  example_model_input:
+    {
+      messages:
+        [
+          {
+            role: "user",
+            content: "Which is heavier, a pound of bricks or a pound of feathers?",
+          },
+        ],
+      stream: true,
+      max_tokens: 1024,
+      temperature: 0.6,
+      top_p: 1.0,
+      top_k: 40,
+      frequency_penalty: 1,
+    }
   repo_id: deepseek-ai/DeepSeek-R1-Distill-Llama-8B
 model_name: DeepSeek R1 Distill Llama 8B
 python_version: py39
 requirements: []
 resources:
   accelerator: H100_40GB
-  cpu: '1'
+  cpu: "1"
   memory: 24Gi
   use_gpu: true
 secrets:
   hf_access_token: set token in baseten workspace
 system_packages: []
 trt_llm:
   build:
-    base_model: llama
+    base_model: decoder
     checkpoint_repository:
       repo: deepseek-ai/DeepSeek-R1-Distill-Llama-8B
       source: HF
 
@@ -4,31 +4,33 @@ external_package_dirs: []
 model_metadata:
   tags:
     - openai-compatible
-  example_model_input: {
-    messages: [
-      {
-        role: "user",
-        content: "Which is heavier, a pound of bricks or a pound of feathers?"
-      }
-    ],
-    stream: true,
-    max_tokens: 1024,
-    temperature: 0.6
-  }
+  example_model_input:
+    {
+      messages:
+        [
+          {
+            role: "user",
+            content: "Which is heavier, a pound of bricks or a pound of feathers?",
+          },
+        ],
+      stream: true,
+      max_tokens: 1024,
+      temperature: 0.6,
+    }
   repo_id: deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
 model_name: DeepSeek R1 Distill Qwen 14B
 python_version: py39
 requirements: []
 resources:
   accelerator: H100_40GB
-  cpu: '1'
+  cpu: "1"
   memory: 24Gi
   use_gpu: true
 secrets: {}
 system_packages: []
 trt_llm:
   build:
-    base_model: qwen
+    base_model: decoder
     checkpoint_repository:
       repo: deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
       source: HF
 
@@ -4,31 +4,33 @@ external_package_dirs: []
 model_metadata:
   tags:
     - openai-compatible
-  example_model_input: {
-    messages: [
-      {
-        role: "user",
-        content: "Which is heavier, a pound of bricks or a pound of feathers?"
-      }
-    ],
-    stream: true,
-    max_tokens: 1024,
-    temperature: 0.6
-  }
+  example_model_input:
+    {
+      messages:
+        [
+          {
+            role: "user",
+            content: "Which is heavier, a pound of bricks or a pound of feathers?",
+          },
+        ],
+      stream: true,
+      max_tokens: 1024,
+      temperature: 0.6,
+    }
   repo_id: deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
 model_name: DeepSeek R1 Distill Qwen 32B
 python_version: py39
 requirements: []
 resources:
   accelerator: H100
-  cpu: '1'
+  cpu: "1"
   memory: 24Gi
   use_gpu: true
 secrets: {}
 system_packages: []
 trt_llm:
   build:
-    base_model: qwen
+    base_model: decoder
     checkpoint_repository:
       repo: deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
       source: HF
 
@@ -4,31 +4,33 @@ external_package_dirs: []
 model_metadata:
   tags:
     - openai-compatible
-  example_model_input: {
-    messages: [
-      {
-        role: "user",
-        content: "Which is heavier, a pound of bricks or a pound of feathers?"
-      }
-    ],
-    stream: true,
-    max_tokens: 1024,
-    temperature: 0.6
-  }
+  example_model_input:
+    {
+      messages:
+        [
+          {
+            role: "user",
+            content: "Which is heavier, a pound of bricks or a pound of feathers?",
+          },
+        ],
+      stream: true,
+      max_tokens: 1024,
+      temperature: 0.6,
+    }
   repo_id: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
 model_name: DeepSeek R1 Distill Qwen 7B
 python_version: py39
 requirements: []
 resources:
   accelerator: H100_40GB
-  cpu: '1'
+  cpu: "1"
   memory: 24Gi
   use_gpu: true
 secrets: {}
 system_packages: []
 trt_llm:
   build:
-    base_model: qwen
+    base_model: decoder
     checkpoint_repository:
       repo: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
       source: HF
 
@@ -18,7 +18,7 @@ resources:
   use_gpu: true
 trt_llm:
   build:
-    base_model: llama
+    base_model: decoder
     checkpoint_repository:
       repo: tiiuae/Falcon3-10B-Instruct
       source: HF
 
@@ -24,7 +24,7 @@ resources:
 system_packages: []
 trt_llm:
   build:
-    base_model: llama
+    base_model: decoder
     checkpoint_repository:
       repo: tiiuae/Falcon3-3B-Instruct
       source: HF
 
@@ -1,13 +1,12 @@
-
 model_metadata:
   tags:
-  - openai-compatible
+    - openai-compatible
 model_name: briton-spec-dec
 python_version: py310
 requirements: []
 resources:
   accelerator: A10G
-  cpu: '1'
+  cpu: "1"
   memory: 24Gi
   use_gpu: true
 runtime:
@@ -17,7 +16,7 @@ secrets:
 trt_llm:
   draft:
     build:
-      base_model: deepseek
+      base_model: decoder
       checkpoint_repository:
         repo: deepseek-ai/deepseek-coder-1.3b-instruct
         source: HF
@@ -32,7 +31,7 @@ trt_llm:
       num_draft_tokens: 4
   target:
     build:
-      base_model: deepseek
+      base_model: decoder
       checkpoint_repository:
         repo: deepseek-ai/deepseek-coder-1.3b-instruct
         source: HF