update qwen3-32b

Yuyz0112 · Yuyz0112 · commit d8e4ca357b6b · 2025-08-25T15:29:54.000+08:00
diff --git a/catalog/qwen3-32b-fp8.yaml b/catalog/qwen3-32b-fp8.yaml
@@ -0,0 +1,36 @@
+apiVersion: v1
+kind: ModelCatalog
+metadata:
+  name: qwen3-32b-fp8
+  display_name: Qwen/Qwen3-32B-FP8
+  labels:
+    icon_url: 'https://cdn-thumbnails.huggingface.co/social-thumbnails/Qwen.png'
+    hf_repo_url: 'https://huggingface.co/Qwen/Qwen3-32B-FP8'
+spec:
+  model:
+    registry: ''
+    name: Qwen/Qwen3-32B-FP8
+    file: model-00001-of-00007.safetensors
+    version: latest
+    task: text-generation
+  engine:
+    engine: vllm
+    version: v1
+  resources: {}
+  replicas:
+    num: 1
+  deployment_options:
+    scheduler:
+      type: consistent_hash
+      virtual_nodes: 150
+      load_factor: 1.25
+  variables:
+    RAY_SCHEDULER_TYPE: consistent_hash
+    engine_args:
+      tensor_parallel_size: 1
+      max_model_len: 32768
+      enforce_eager: true
+      gpu_memory_utilization: 0.95
+      enable_chunked_prefill: true
+      served_model_name: Qwen/Qwen3-32B-FP8
+      tool_call_parser: hermes