11serve_args :
2+ # openai 服务的 host 和 port
3+ enable : true
24 host : 0.0.0.0
35 port : 8082
4- controller_address : http://localhost:21001
5- api_keys : null
6+ controller_address : http://localhost:21001 # 控制器的ip地址
7+ api_keys : null # api_keys: 111,222 # 用来设置 openai 密钥
68controller_args :
9+ # 控制器的配置参数
10+ enable : true
711 host : 0.0.0.0
812 port : 21001
9- dispatch_method : shortest_queue
13+ dispatch_method : shortest_queue # lottery、shortest_queue # 现有两种请求分发策略,随机(lottery) 和 最短队列(shortest_queue),最短队列方法更推荐。
14+
1015model_worker_args :
16+ # 模型的配置参数,这里port 不能设置,程序自动分配,并注册到 控制器中。
17+ # model worker 的配置参数
1118 host : 0.0.0.0
1219 controller_address : http://localhost:21001
1320models :
@@ -47,21 +54,26 @@ models:
4754 workers :
4855 - gpus :
4956 - 3
50- - qwen-72b :
51- alias : qwen,gpt-4,gpt-3.5-turbo,gpt-3.5-turbo-16k
57+
58+ - qwen-32b :
59+ alias : qwen,gpt-4,gpt-4o,gpt-3.5-turbo,gpt-3.5-turbo-16k
5260 enable : true
5361 model_config :
54- model_name_or_path : /home/dev/model/qwen /Qwen2___5-72B -Instruct-AWQ/
62+ model_name_or_path : /home/dev/model/Qwen /Qwen2___5-32B -Instruct-AWQ/
5563 enable_prefix_caching : true
5664 dtype : auto
5765 max_model_len : 65536
66+ kv_cache_quant_policy : 8
5867 model_type : qwen
5968 work_mode : lmdeploy-turbomind
6069 device : gpu
6170 workers :
6271 - gpus :
6372 - 0
6473 - 1
74+ # - gpus:
75+ # - 3
76+ # - 2
6577- piccolo-base-zh :
6678 alias : null
6779 enable : true
@@ -73,11 +85,11 @@ models:
7385 workers :
7486 - gpus :
7587 - 2
76- - bce-embedding-base_v1 :
77- alias : text-embedding-ada-002
88+ - injection :
89+ alias : null
7890 enable : true
7991 model_config :
80- model_name_or_path : /home/dev/model/maidalun1020/bce-embedding-base_v1/
92+ model_name_or_path : /home/dev/model/protectai/deberta-v3-base-prompt-injection-v2
8193 model_type : embedding_infinity
8294 work_mode : hf
8395 device : gpu
@@ -95,11 +107,11 @@ models:
95107 workers :
96108 - gpus :
97109 - 2
98- - acge_text_embedding :
99- alias : text-embedding-ada-002
100- enable : true
110+ - MiniCPM-Embedding :
111+ alias : null
112+ enable : false
101113 model_config :
102- model_name_or_path : /home/dev/model/aspire/acge_text_embedding
114+ model_name_or_path : /home/dev/model/openbmb/MiniCPM-Embedding
103115 model_type : embedding_infinity
104116 work_mode : hf
105117 device : gpu
0 commit comments