修改架构 支持 jinaai/jina-reranker-v3

shell-nlp · shell-nlp · commit b842d0195fb0 · 2025-11-16T23:41:55.000+08:00
diff --git a/README.md b/README.md
@@ -51,6 +51,9 @@
 ## 📘 配置文档 
 
 
+- **[GPT Server - DeepWiki文档（可直接AI提问使用方式）](https://deepwiki.com/shell-nlp/gpt_server "deepwiki文档")**
+<br>
+
 - **[配置详细说明](https://blog.csdn.net/q506610466/article/details/151360406 "详细配置说明")**
 <br>
 
@@ -61,6 +64,7 @@
 <summary><b>2025</b></summary>
  
 ```plaintext
+2025-11-16 支持了 jinaai/jina-reranker-v3 模型
 2025-10-25 支持了 qwen_image 文生图模型
 2025-9-7   支持了 文本编辑模型 (代码样例见gpt_server/tests/test_image_edit.py)
 2025-8-8   初步支持了 embedding 的 vllm 加速
@@ -135,7 +139,7 @@
 * [X] 支持 文生图 模型
 * [X] 支持 图片编辑 模型
 * [X] 支持 Responses API
-* [ ] 支持 pip install 方式进行安装
+
 
 
 ## ⚙️ 快速开始
@@ -272,8 +276,9 @@ Chat UI界面:
 [SGLang](https://docs.sglang.ai/supported_models/generative_models.html) 
 
 #### 注意：
-- **现可以通过在 `config.yaml`中 设置 `model_type: auto`** 支持所有vllm/sglang/lmdeploy 当前版本已经支持的大语言模型和多模态语言模型，embedding、reranker等非语言模型除外。
-- 下面的项目兼容表未来将移除或者重构
+- **现可以通过在 `config.yaml`中 设置 `model_type: auto`** 支持所有vllm/sglang/lmdeploy 当前版本已经支持的大语言模型和多模态语言模型。
+
+- 下面的项目兼容表未来将移除或者重构，没有在表中的模型也可能兼容，实际情况情参考官方。
 
 ### **LLM**
 
@@ -298,9 +303,8 @@ Chat UI界面:
 |InternVL2.5--3.5  |  internvl  |   ×   |   ×   |         √          |        √         |   ×    |
 |  MiniCPM-V-2.6   |  minicpmv  |   ×   |   √   |         √          |        ×         |   ×    |
 |  MiniCPM-V-4.5   |  minicpmv  |   ×   |   √   |         ×          |        ×         |   ×    |
-|     Qwen2-VL     |    qwen    |   ×   |   √   |         ×          |        √         |   √    |
-|    Qwen2.5-VL    |    qwen    |   ×   |   √   |         ×          |        √         |   √    |
-|       QVQ        |    qwen    |   ×   |   √   |         ×          |        ×         |   ×    |
+|     Qwen-VL 2.0--3.0     |    qwen    |   ×   |   √   |         √         |        √         |   √    |
+|       QVQ        |    qwen    |   ×   |   √   |         √          |        √         |   √    |
 <br>
 
 ### Embedding/Rerank/Classify模型
@@ -332,6 +336,7 @@ Chat UI界面:
 | jina-reranker-m0                                                                    | √   | ×        |×        |
 | bge-reranker                                                                        | √   | √        |×        |
 | bce-reranker                                                                        | √   | √        |×        |
+| jina-reranker-v3                                                                     | √   | ×        |×        |
 
 目前 **ritrieve_zh_v1** C-MTEB榜单排行第一(MTEB: https://huggingface.co/spaces/mteb/leaderboard)
 
diff --git a/gpt_server/model_worker/embedding_sentence_transformers.py b/gpt_server/model_worker/embedding_sentence_transformers.py
@@ -1,16 +1,10 @@
-import asyncio
 import os
 from typing import List
 
-import sentence_transformers
-import torch
-from transformers import AutoConfig, AutoModel
 from loguru import logger
 from gpt_server.model_worker.base.model_worker_base import ModelWorkerBase
 from gpt_server.model_worker.utils import (
-    load_base64_or_url,
-    get_embedding_mode,
-    is_base64_image,
+    PoolingModel,
 )
 
 
@@ -40,119 +34,14 @@ def __init__(
         else:
             device = "cuda"
         logger.warning(f"使用{device}加载...")
-        model_kwargs = {"device": device}
-        if device == "cuda":
-            device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-        # TODO
-        self.mode = get_embedding_mode(model_path=model_path)
-        self.encode_kwargs = {"normalize_embeddings": True, "batch_size": 64}
-        if "clip_text_model" in self.mode:  # clip text 模型
-            self.client = AutoModel.from_pretrained(model_path, trust_remote_code=True)
-            self.client.to(device)
-            logger.info(f"device: {self.client.device}")
-            self.client.set_processor(model_path)
-            self.client.eval()
-        elif "vl_rerank" == self.mode:
-            self.client = AutoModel.from_pretrained(
-                model_path,
-                torch_dtype="auto",
-                trust_remote_code=True,
-                # attn_implementation="flash_attention_2",
-            )
-            self.client.to(device)
-            self.client.eval()
-        elif "rerank" == self.mode:
-            self.client = sentence_transformers.CrossEncoder(
-                model_name=model_path, **model_kwargs
-            )
-            logger.warning("正在使用 rerank 模型...")
-        elif "embedding" == self.mode:
-            self.client = sentence_transformers.SentenceTransformer(
-                model_path, **model_kwargs
-            )
-            logger.warning("正在使用 embedding 模型...")
+        self.pool_model = PoolingModel(model_path=model_path)
         logger.warning(f"模型：{model_names[0]}")
-        logger.warning(f"正在使用 {self.mode} 模型...")
 
     async def get_embeddings(self, params):
         self.call_ct += 1
-        ret = {"embedding": [], "token_num": 0}
         texts = params["input"]
-        embedding = []
-        token_num = 0
-        if self.mode == "embedding":
-            outputs = self.client.tokenize(texts)
-            token_num = outputs["input_ids"].size(0) * outputs["input_ids"].size(1)
-            texts = list(map(lambda x: x.replace("\n", " "), texts))
-            embedding = self.client.encode(texts, **self.encode_kwargs).tolist()
-        elif self.mode == "rerank":
-            query = params.get("query", None)
-            # outputs = self.client.tokenizer.tokenize(texts)
-            # token_num = len(outputs)
-            # TODO 暂时不计算 rerank token num
-            sentence_pairs = [[query, inp] for inp in texts]
-            scores = self.client.predict(sentence_pairs)
-            embedding = [[float(score)] for score in scores]
-        elif self.mode == "vl_rerank":
-            query = params.get("query", None)
-            sentence_pairs = [[query, inp] for inp in texts]
-            query_type = doc_type = "text"
-            if (
-                query.startswith("http://")
-                or query.startswith("https://")
-                or is_base64_image(query)
-            ):
-                query_type = "image"
-            if (
-                texts[0].startswith("http://")
-                or texts[0].startswith("https://")
-                or is_base64_image(texts[0])
-            ):
-                doc_type = "image"
-            scores = self.client.compute_score(
-                sentence_pairs,
-                max_length=1024 * 2,
-                query_type=query_type,
-                doc_type=doc_type,
-            )
-            if isinstance(scores, float):
-                scores = [scores]
-            embedding = [[float(score)] for score in scores]
-        elif self.mode == "clip_text_model":
-            if isinstance(texts[0], dict):
-                text = [i["text"] for i in texts]
-                text = list(map(lambda x: x.replace("\n", " "), text))
-
-                images = [i["image"] for i in texts]
-                coro_list = []
-                for i in images:
-                    coro = load_base64_or_url(base64_or_url=i)
-                    coro_list.append(coro)
-                result_images = await asyncio.gather(*coro_list)
-
-                embedding = self.client.encode(
-                    images=result_images,
-                    text=text,
-                ).tolist()
-            elif isinstance(texts[0], str):
-                if "http" in texts[0] or is_base64_image(texts[0]):  # 图片
-                    images = texts
-                    coro_list = []
-                    for i in images:
-                        coro = load_base64_or_url(base64_or_url=i)
-                        coro_list.append(coro)
-                    result_images = await asyncio.gather(*coro_list)
-                    embedding = self.client.encode(
-                        images=result_images,
-                    ).tolist()
-                else:  # 文本
-                    embedding = self.client.encode(
-                        text=texts,
-                    ).tolist()
-        else:
-            raise Exception(f"不支持的类型 mode: {self.mode}")
-        ret["embedding"] = embedding
-        ret["token_num"] = token_num
+        query = params.get("query", None)
+        ret = self.pool_model.pooling(query=query, documents=texts)
         return ret
 
 
diff --git a/gpt_server/model_worker/utils.py b/gpt_server/model_worker/utils.py
@@ -6,6 +6,10 @@
 import os
 from PIL import Image
 import re
+import torch
+from transformers import AutoConfig
+from transformers import AutoModel
+import sentence_transformers
 
 
 def is_base64_image(data_string):
@@ -63,6 +67,124 @@ async def load_base64_or_url(base64_or_url) -> io.BytesIO:
     return bytes_io
 
 
+class PoolingModel:
+    def __init__(self, model_path: str):
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        model_config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
+        architectures = getattr(model_config, "architectures", [])
+        self.model = None
+        self._pooling = None
+        if "JinaForRanking" in architectures:
+            self.model = AutoModel.from_pretrained(
+                model_path,
+                dtype="auto",
+                trust_remote_code=True,
+            )
+            self.model.eval()
+            self.model.to(device)  # Move model to device
+
+            def pooling(self, query: str, documents: list):
+                results = self.model.rerank(query, documents)
+                embedding = [[i["relevance_score"]] for i in results]
+                ret = {}
+                ret["embedding"] = embedding
+                ret["token_num"] = 0
+                return ret
+
+            self._pooling = self.pooling
+        elif "JinaVLForRanking" in architectures:
+            self.model = AutoModel.from_pretrained(
+                model_path,
+                torch_dtype="auto",
+                trust_remote_code=True,
+                # attn_implementation="flash_attention_2",
+            )
+            self.model.to(device)
+            self.model.eval()
+            logger.warning("model_type: JinaVLForRanking")
+
+            def pooling(self, query: str, documents: list):
+                texts = documents
+                sentence_pairs = [[query, inp] for inp in texts]
+                query_type = doc_type = "text"
+
+                if (
+                    query.startswith("http://")
+                    or query.startswith("https://")
+                    or is_base64_image(query)
+                ):
+                    query_type = "image"
+                if (
+                    texts
+                    and texts[0]
+                    and (
+                        texts[0].startswith("http://")
+                        or texts[0].startswith("https://")
+                        or is_base64_image(texts[0])
+                    )
+                ):
+                    doc_type = "image"
+                scores = self.model.compute_score(
+                    sentence_pairs,
+                    max_length=1024 * 2,
+                    query_type=query_type,
+                    doc_type=doc_type,
+                )
+                if isinstance(scores, float):
+                    scores = [scores]
+                embedding = [[float(score)] for score in scores]
+                ret = {}
+                ret["embedding"] = embedding
+                ret["token_num"] = 0
+                return ret
+
+            self._pooling = self.pooling
+        else:
+            mode = get_embedding_mode(model_path=model_path)
+            if "embedding" == mode:
+                self.model = sentence_transformers.SentenceTransformer(model_path)
+                logger.warning("正在使用 embedding 模型...")
+                encode_kwargs = {"normalize_embeddings": True, "batch_size": 64}
+
+                def pooling(self, query: str, documents: list = None):
+                    texts = documents
+                    outputs = self.model.tokenize(texts)
+                    token_num = outputs["input_ids"].size(0) * outputs[
+                        "input_ids"
+                    ].size(1)
+                    texts = list(map(lambda x: x.replace("\n", " "), texts))
+                    embedding = self.model.encode(texts, **encode_kwargs).tolist()
+                    ret = {}
+                    ret["embedding"] = embedding
+                    ret["token_num"] = token_num
+                    return ret
+
+                self._pooling = self.pooling
+
+            elif "rerank" == mode:
+                self.model = sentence_transformers.CrossEncoder(model_name=model_path)
+                logger.warning("正在使用 rerank 模型...")
+
+                def pooling(self, query: str, documents: list):
+                    sentence_pairs = [[query, doc] for doc in documents]
+                    scores = self.model.predict(sentence_pairs)
+                    embedding = [[float(score)] for score in scores]
+                    ret = {}
+                    ret["embedding"] = embedding
+                    ret["token_num"] = 0  # Rerank token num not typically calculated
+                    return ret
+
+                self._pooling = self.pooling
+
+            else:
+                raise Exception(f"不支持的类型 mode: {mode}")
+
+    def pooling(self, query, documents):
+        if self._pooling is None:
+            raise Exception("Model is not initialized or mode is not supported.")
+        return self._pooling(self, query, documents)
+
+
 def get_embedding_mode(model_path: str):
     """获取模型的类型"""
     task_type = os.environ.get("task_type", "auto")
@@ -72,20 +194,14 @@ def get_embedding_mode(model_path: str):
         return "rerank"
     elif task_type == "classify":
         return "classify"
-    from transformers import AutoConfig
 
     model_config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
-    architectures = getattr(model_config, "architectures", [])
     model_type_text = getattr(
         getattr(model_config, "text_config", {}), "model_type", None
     )
     logger.warning(f"model_type: {model_type_text}")
 
     model_type = model_type_text
-    # TODO --------- 在这里进行大过滤 ---------
-    if "JinaVLForRanking" in architectures:
-        logger.warning("model_type: JinaVLForRanking")
-        return "vl_rerank"
     # --------- 在这里进行大过滤 ---------
     from infinity_emb import EngineArgs
 
@@ -114,5 +230,5 @@ def get_embedding_mode(model_path: str):
 if __name__ == "__main__":
 
     # 示例用法
-    r = get_embedding_mode("/home/dev/model/jinaai/jina-reranker-m0/")
+    r = get_embedding_mode("/home/dev/model/jinaai/jina-reranker-v3/")
     print(r)