basetenlabs · dsingal0 · Mar 31, 2025 · michaelfeil · Mar 31, 2025 · michaelfeil
diff --git a/11-embeddings-reranker-classification-tensorrt/BEI-baai-bge-m3-embedding-dense/config.yaml b/11-embeddings-reranker-classification-tensorrt/BEI-baai-bge-m3-embedding-dense/config.yaml
@@ -10,7 +10,7 @@ model_name: BEI-baai-bge-m3-embedding-dense-truss-example
 python_version: py39
 requirements: []
 resources:
-  accelerator: A100
 Accelerator.A100,  # Bert has long-context issues (>8K tokens on 24Gb Ram machines. Using 80B therefore) 
 Accelerator.A100,  # Bert has long-context issues (>8K tokens on 24Gb Ram machines. Using 80B therefore) 
+  accelerator: H100
   cpu: '1'
   memory: 10Gi
   use_gpu: true

diff --git a/...ngs-reranker-classification-tensorrt/BEI-baai-bge-reranker-v2-m3-multilingual/config.yaml b/...ngs-reranker-classification-tensorrt/BEI-baai-bge-reranker-v2-m3-multilingual/config.yaml
@@ -15,7 +15,7 @@ model_name: BEI-baai-bge-reranker-v2-m3-multilingual-truss-example
 python_version: py39
 requirements: []
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '1'
   memory: 10Gi
   use_gpu: true

diff --git a/...-reranker-classification-tensorrt/BEI-snowflake-snowflake-arctic-embed-l-v2.0/config.yaml b/...-reranker-classification-tensorrt/BEI-snowflake-snowflake-arctic-embed-l-v2.0/config.yaml
@@ -10,7 +10,7 @@ model_name: BEI-snowflake-snowflake-arctic-embed-l-v2.0-truss-example
 python_version: py39
 requirements: []
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '1'
   memory: 10Gi
   use_gpu: true

diff --git a/...beddings-reranker-classification-tensorrt/Briton-qwen-qwen2-57b-a14b-moe-int4/config.yaml b/...beddings-reranker-classification-tensorrt/Briton-qwen-qwen2-57b-a14b-moe-int4/config.yaml
@@ -16,7 +16,7 @@ model_name: Briton-qwen-qwen2-57b-a14b-moe-int4-truss-example
 python_version: py39
 requirements: []
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '1'
   memory: 10Gi
   use_gpu: true

diff --git a/cogvlm/config.yaml b/cogvlm/config.yaml
@@ -13,7 +13,7 @@ requirements:
 - xformers==0.0.22
 - accelerate==0.25.0
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '3'
   memory: 15Gi
   use_gpu: true

diff --git a/comfyui-truss/examples/anime-style-transfer/config.yaml b/comfyui-truss/examples/anime-style-transfer/config.yaml
@@ -20,7 +20,7 @@ requirements:
   - accelerate==0.23.0
   - opencv-python
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 secrets: {}
 system_packages:

diff --git a/deepspeed-mii/config.yaml b/deepspeed-mii/config.yaml
@@ -18,7 +18,7 @@ python_version: py311
 requirements:
 - deepspeed-mii==0.1.1
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '3'
   memory: 14Gi
   use_gpu: true

diff --git a/gemma/gemma-2-27b-it-vllm/config.yaml b/gemma/gemma-2-27b-it-vllm/config.yaml
@@ -9,7 +9,7 @@ requirements:
   - vllm==0.5.1
   - https://github.com/flashinfer-ai/flashinfer/releases/download/v0.0.8/flashinfer-0.0.8+cu121torch2.3-cp311-cp311-linux_x86_64.whl
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 128

diff --git a/gemma/gemma-2-9b-it-vllm/config.yaml b/gemma/gemma-2-9b-it-vllm/config.yaml
@@ -8,7 +8,7 @@ requirements:
   - vllm==0.5.1
   - https://github.com/flashinfer-ai/flashinfer/releases/download/v0.0.8/flashinfer-0.0.8+cu121torch2.3-cp311-cp311-linux_x86_64.whl
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 128

diff --git a/llama/llama-2-13b-chat/config.yaml b/llama/llama-2-13b-chat/config.yaml
@@ -34,7 +34,7 @@ requirements:
 - torch==2.0.1
 - transformers==4.32.1
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '3'
   memory: 14Gi
   use_gpu: true

diff --git a/llama/llama-2-13b/config.yaml b/llama/llama-2-13b/config.yaml
@@ -22,7 +22,7 @@ requirements:
 - torch==2.0.1
 - transformers==4.32.1
 resources:
-  accelerator: A100:1
+  accelerator: H100:1
   cpu: '3'
   memory: 14Gi
   use_gpu: true

diff --git a/llama/llama-2-70b-chat/config.yaml b/llama/llama-2-70b-chat/config.yaml
@@ -33,7 +33,7 @@ requirements:
 - torch==2.0.1
 - transformers==4.32.1
 resources:
-  accelerator: A100:2
+  accelerator: H100:2
   cpu: '3'
   memory: 14Gi
   use_gpu: true

diff --git a/llama/llama-2-70b/config.yaml b/llama/llama-2-70b/config.yaml
@@ -22,7 +22,7 @@ requirements:
 - torch==2.0.1
 - transformers==4.32.1
 resources:
-  accelerator: A100:2
+  accelerator: H100:2
   cpu: '3'
   memory: 14Gi
   use_gpu: true

diff --git a/llama/llama-3-8b-instruct/config.yaml b/llama/llama-3-8b-instruct/config.yaml
@@ -16,7 +16,7 @@ requirements:
   - transformers
   - torch
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 secrets:
   hf_access_token: "your-hf-access-token"

diff --git a/llama/llama-3_1_70b-instruct/config.yaml b/llama/llama-3_1_70b-instruct/config.yaml
@@ -7,7 +7,7 @@ requirements:
   - vllm==0.5.3post1
   - accelerate
 resources:
-  accelerator: A100:4
+  accelerator: H100:4
   use_gpu: true
 runtime:
   predict_concurrency: 128

diff --git a/llama/llama-3_2-11b-vision-instruct/config.yaml b/llama/llama-3_2-11b-vision-instruct/config.yaml
@@ -31,7 +31,7 @@ docker_server:
   predict_endpoint: /v1/chat/completions
   server_port: 8000
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 model_name: Llama 3.2 11B Vision Instruct
 secrets:

diff --git a/llama/llama-7b-exllama-streaming/config.yaml b/llama/llama-7b-exllama-streaming/config.yaml
@@ -8,7 +8,7 @@ python_version: py311
 requirements:
 - exllamav2==0.0.5
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '1'
   memory: 2Gi
   use_gpu: true

diff --git a/llama/llama-7b-exllama/config.yaml b/llama/llama-7b-exllama/config.yaml
@@ -8,7 +8,7 @@ python_version: py311
 requirements:
 - exllamav2==0.0.5
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '1'
   memory: 2Gi
   use_gpu: true

diff --git a/llava/llava-1.6-sgl/config.yaml b/llava/llava-1.6-sgl/config.yaml
@@ -5,7 +5,7 @@ python_version: py310
 requirements: []
 requirements_file: ./requirements.txt
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 128

diff --git a/llava/llava-v1.6-34b/config.yaml b/llava/llava-v1.6-34b/config.yaml
@@ -5,7 +5,7 @@ python_version: py311
 requirements:
 - git+https://github.com/haotian-liu/LLaVA.git
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 secrets: {}
 system_packages: []
diff --git a/mistral/mixtral-8x22b-trt-int8-weights-only/config.yaml b/mistral/mixtral-8x22b-trt-int8-weights-only/config.yaml
@@ -8,7 +8,7 @@ external_package_dirs: []
 model_metadata:
   avatar_url: https://cdn.baseten.co/production/static/explore/mistral_logo.png
   cover_image_url: https://cdn.baseten.co/production/static/explore/mistral.png
-  engine_repository: baseten/mixtral-8x22B_i60000_o4000_bs2_tp4_int8_weights_only_A100-tllm_0.9.0.dev2024022000
+  engine_repository: baseten/mixtral-8x22B_i60000_o4000_bs2_tp4_int8_weights_only_H100-tllm_0.9.0.dev2024022000
   example_model_input:
     max_tokens: 512
     messages:
@@ -31,7 +31,7 @@ requirements:
 - tritonclient[all]
 - transformers==4.42.3
 resources:
-  accelerator: A100:4
+  accelerator: H100:4
   use_gpu: true
 runtime:
   num_workers: 1

diff --git a/mistral/mixtral-8x22b/config.yaml b/mistral/mixtral-8x22b/config.yaml
@@ -16,7 +16,7 @@ requirements:
   - transformers==4.42.3
   - torch==2.2.0
 resources:
-  accelerator: A100:4
+  accelerator: H100:4
   use_gpu: true
 secrets:
   hf_access_token: "ENTER HF ACCESS TOKEN HERE"

diff --git a/mistral/mixtral-8x7b-instruct-trt-llm-weights-only-quant/config.yaml b/mistral/mixtral-8x7b-instruct-trt-llm-weights-only-quant/config.yaml
@@ -32,7 +32,7 @@ requirements:
 - tritonclient[all]
 - transformers==4.42.3
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   num_workers: 1

diff --git a/mistral/mixtral-8x7b-instruct-trt-llm/config.yaml b/mistral/mixtral-8x7b-instruct-trt-llm/config.yaml
@@ -31,7 +31,7 @@ requirements:
 - tritonclient[all]
 - transformers==4.42.3
 resources:
-  accelerator: A100:2
+  accelerator: H100:2
   use_gpu: true
 runtime:
   num_workers: 1

diff --git a/mistral/mixtral-8x7b-instruct-vllm-a100-t-tp2/config.yaml b/mistral/mixtral-8x7b-instruct-vllm-a100-t-tp2/config.yaml
@@ -1,11 +1,11 @@
 environment_variables: {}
 external_package_dirs: []
-model_name: Mixtral 8x7B — VLLM TP2 — A100:2
+model_name: Mixtral 8x7B — VLLM TP2 — H100:2
 python_version: py310
 requirements:
 - vllm
 resources:
-  accelerator: A100:2
+  accelerator: H100:2
   use_gpu: true
 runtime:
   predict_concurrency: 128

diff --git a/mistral/mixtral-8x7b-instruct-vllm/config.yaml b/mistral/mixtral-8x7b-instruct-vllm/config.yaml
@@ -5,7 +5,7 @@ python_version: py310
 requirements:
 - vllm==0.2.5
 resources:
-  accelerator: A100:2
+  accelerator: H100:2
   use_gpu: true
 runtime:
   predict_concurrency: 128

diff --git a/mistral/pixtral-12b/config.yaml b/mistral/pixtral-12b/config.yaml
@@ -39,5 +39,5 @@ secrets:
 requirements:
   - vllm==0.6.1
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
diff --git a/nous-capybara/nous-capybara-34b-openai/config.yaml b/nous-capybara/nous-capybara-34b-openai/config.yaml
@@ -15,7 +15,7 @@ requirements:
 - scipy==1.11.4
 - sentencepiece==0.1.99
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '3'
   memory: 20Gi
   use_gpu: true

diff --git a/nous-capybara/nous-capybara-34b/config.yaml b/nous-capybara/nous-capybara-34b/config.yaml
@@ -14,7 +14,7 @@ requirements:
 - scipy==1.11.4
 - sentencepiece==0.1.99
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '3'
   memory: 20Gi
   use_gpu: true

diff --git a/orpheus-tts/orpheus-tts-streaming/config.yaml b/orpheus-tts/orpheus-tts-streaming/config.yaml
@@ -10,7 +10,7 @@ requirements:
   - huggingface_hub[hf_transfer]
   - hf_transfer==0.1.9
 resources:
-  accelerator: A100
+  accelerator: H100
   # accelerator: H100_40GB
   use_gpu: true
 runtime:

diff --git a/stable-diffusion/playground-v2-trt/config.yaml b/stable-diffusion/playground-v2-trt/config.yaml
@@ -6,7 +6,7 @@ environment_variables:
   HF_HUB_ENABLE_HF_TRANSFER: 1
 external_package_dirs: []
 model_cache:
-- repo_id: baseten/playground-v2-trt-8.6.1.post1-engine-A100
+- repo_id: baseten/playground-v2-trt-8.6.1.post1-engine-H100
 - allow_patterns:
   - config.json
   - diffusion_pytorch_model.safetensors
@@ -42,7 +42,7 @@ requirements:
 - --extra-index-url https://pypi.nvidia.com
 - tensorrt==8.6.1.post1
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 1

diff --git a/stable-diffusion/sdxl-lightning/config.yaml b/stable-diffusion/sdxl-lightning/config.yaml
@@ -18,7 +18,7 @@ requirements:
 - xformers==0.0.22
 - accelerate==0.24.1
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 secrets: {}
 system_packages: []
diff --git a/stable-diffusion/sdxl-lora-swapping/config.yaml b/stable-diffusion/sdxl-lora-swapping/config.yaml
@@ -15,7 +15,7 @@ requirements:
 - opencv-python==4.8.0.76
 - diffusers==0.21.2
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: 3500m
   memory: 20Gi
   use_gpu: true

diff --git a/stable-diffusion/stable-diffusion-3-medium/config.yaml b/stable-diffusion/stable-diffusion-3-medium/config.yaml
@@ -13,7 +13,7 @@ requirements:
   - sentencepiece
   - protobuf
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 secrets:
   hf_access_token: ""

diff --git a/stable-diffusion/stable-diffusion-xl-1.0-trt/config.yaml b/stable-diffusion/stable-diffusion-xl-1.0-trt/config.yaml
@@ -49,7 +49,7 @@ requirements:
 - --extra-index-url https://pypi.nvidia.com
 - tensorrt==8.6.1.post1
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 1

diff --git a/stable-diffusion/stable-video-diffusion/config.yaml b/stable-diffusion/stable-video-diffusion/config.yaml
@@ -29,7 +29,7 @@ requirements:
 - hf_transfer==0.1.4
 - git+https://github.com/Stability-AI/generative-models.git@059d8e9cd9c55aea1ef2ece39abf605efb8b7cc9
 resources:
-  accelerator: A100
+  accelerator: H100
   cpu: '4'
   memory: 16Gi
   use_gpu: true

diff --git a/templates/trt-llm/config.yaml b/templates/trt-llm/config.yaml
@@ -12,7 +12,7 @@ python_version: py311
 requirements:
 - tritonclient[all]
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 256

diff --git a/text-embeddings-inference/config.yaml b/text-embeddings-inference/config.yaml
@@ -2,7 +2,7 @@ base_image:
   # select an image: L4
   # CPU	baseten/text-embeddings-inference-mirror:cpu-1.6
   # Turing (T4, ...)	baseten/text-embeddings-inference-mirror:turing-1.6
-  # Ampere 80 (A100, A30)	baseten/text-embeddings-inference-mirror:1.6
+  # Ampere 80 (H100, A30)	baseten/text-embeddings-inference-mirror:1.6
   # Ampere 86 (A10, A10G, A40, ...)	baseten/text-embeddings-inference-mirror:86-1.6
   # Ada Lovelace (L4, ...)	baseten/text-embeddings-inference-mirror:89-1.6
   # Hopper (H100/H100 40GB)	baseten/text-embeddings-inference-mirror:hopper-1.6

diff --git a/ultravox/config.yaml b/ultravox/config.yaml
@@ -14,7 +14,7 @@ runtime:
 requirements:
   - httpx
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 secrets: {}
 system_packages:

diff --git a/vllm/config.yaml b/vllm/config.yaml
@@ -11,7 +11,7 @@ model_metadata:
 requirements:
   - vllm==0.5.4
 resources:
-  accelerator: A100
+  accelerator: H100
   use_gpu: true
 runtime:
   predict_concurrency: 128