update catalog

Yuyz0112 · Yuyz0112 · commit 3685e6ad8c3a · 2025-08-25T15:26:39.000+08:00
diff --git a/catalog/bge-reranker-v2-m3.yaml b/catalog/bge-reranker-v2-m3.yaml
@@ -0,0 +1,30 @@
+apiVersion: v1
+kind: ModelCatalog
+metadata:
+  name: bge-reranker-v2-m3
+  display_name: BAAI/bge-reranker-v2-m3
+  labels:
+    icon_url: 'https://cdn-thumbnails.huggingface.co/social-thumbnails/BAAI.png'
+    hf_repo_url: 'https://huggingface.co/BAAI/bge-reranker-v2-m3'
+spec:
+  model:
+    registry: ''
+    name: BAAI/bge-reranker-v2-m3
+    file: model.safetensors
+    version: latest
+    task: text-rerank
+  engine:
+    engine: vllm
+    version: v1
+  resources:
+    cpu: 1
+    memory: 1
+  replicas:
+    num: 1
+  deployment_options:
+    scheduler:
+      type: pow2
+  variables:
+    RAY_SCHEDULER_TYPE: pow2
+    engine_args:
+      served_model_name: BAAI/bge-reranker-v2-m3
diff --git a/catalog/nomic-embed-text-v1-gguf.yaml b/catalog/nomic-embed-text-v1-gguf.yaml
@@ -16,13 +16,13 @@ spec:
   engine:
     engine: llama-cpp
     version: v1
-  resources: {}
+  resources:
+    cpu: 1
+    memory: 1
   replicas:
     num: 1
   deployment_options:
     scheduler:
-      type: consistent_hash
-      virtual_nodes: 150
-      load_factor: 1.25
+      type: pow2
   variables:
-    RAY_SCHEDULER_TYPE: consistent_hash
+    RAY_SCHEDULER_TYPE: pow2
diff --git a/catalog/qwen2-5-3b-instruct-gguf.yaml b/catalog/qwen2-5-3b-instruct-gguf.yaml
@@ -0,0 +1,29 @@
+apiVersion: v1
+kind: ModelCatalog
+metadata:
+  name: qwen2-5-3b-instruct-gguf
+  display_name: Qwen/Qwen2.5-3B-Instruct-GGUF
+  labels:
+    icon_url: 'https://cdn-thumbnails.huggingface.co/social-thumbnails/Qwen.png'
+    hf_repo_url: 'https://huggingface.co/Qwen/Qwen2.5-3B-Instruct-GGUF'
+spec:
+  model:
+    registry: ''
+    name: Qwen/Qwen2.5-3B-Instruct-GGUF
+    file: '*8_0.gguf'
+    version: latest
+    task: text-generation
+  engine:
+    engine: llama-cpp
+    version: v1
+  resources:
+    cpu: 2
+    memory: 2
+  replicas:
+    num: 1
+  deployment_options:
+    scheduler:
+      type: pow2
+  variables:
+    RAY_SCHEDULER_TYPE: pow2
+    engine_args: {}
diff --git a/catalog/qwen3-4b-instruct.yaml b/catalog/qwen3-4b-instruct.yaml
@@ -0,0 +1,38 @@
+apiVersion: v1
+kind: ModelCatalog
+metadata:
+  name: qwen3-4b-instruct
+  display_name: Qwen/Qwen3-4B-Instruct-2507
+  labels:
+    icon_url: 'https://cdn-thumbnails.huggingface.co/social-thumbnails/Qwen.png'
+    hf_repo_url: 'https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507'
+spec:
+  model:
+    registry: ''
+    name: Qwen/Qwen3-4B-Instruct-2507
+    file: model-00001-of-00003.safetensors
+    version: latest
+    task: text-generation
+  engine:
+    engine: vllm
+    version: v1
+  resources:
+    cpu: 2
+    memory: 2
+  replicas:
+    num: 1
+  deployment_options:
+    scheduler:
+      type: consistent_hash
+      virtual_nodes: 150
+      load_factor: 1.25
+  variables:
+    RAY_SCHEDULER_TYPE: consistent_hash
+    engine_args:
+      tensor_parallel_size: 1
+      max_model_len: 4096
+      enforce_eager: true
+      gpu_memory_utilization: 0.95
+      enable_chunked_prefill: true
+      tool_call_parser: hermes
+      served_model_name: Qwen/Qwen3-4B-Instruct-2507
diff --git a/catalog/qwen3-embedding-4b.yaml b/catalog/qwen3-embedding-4b.yaml
@@ -0,0 +1,30 @@
+apiVersion: v1
+kind: ModelCatalog
+metadata:
+  name: qwen3-embedding-4b
+  display_name: Qwen/Qwen3-Embedding-4B
+  labels:
+    icon_url: 'https://cdn-thumbnails.huggingface.co/social-thumbnails/Qwen.png'
+    hf_repo_url: 'https://huggingface.co/Qwen/Qwen3-Embedding-4B'
+spec:
+  model:
+    registry: ''
+    name: Qwen/Qwen3-Embedding-4B
+    file: model-00001-of-00002.safetensors
+    version: latest
+    task: text-embedding
+  engine:
+    engine: vllm
+    version: v1
+  resources:
+    cpu: 1
+    memory: 1
+  replicas:
+    num: 1
+  deployment_options:
+    scheduler:
+      type: pow2
+  variables:
+    RAY_SCHEDULER_TYPE: pow2
+    engine_args:
+      served_model_name: Qwen/Qwen3-Embedding-4B