fix: 修复text向量归一化问题

TingsongYu · TingsongYu · commit b1fe6c7c098d · 2024-04-23T16:07:37.000+08:00
diff --git a/code/chapter-8/08_image_retrieval/image_retrieval_server/retrieval_by_faiss.py b/code/chapter-8/08_image_retrieval/image_retrieval_server/retrieval_by_faiss.py
@@ -113,6 +113,7 @@ def encode_image_by_ndarray(self, image_rgb):
         image = self.preprocess(Image.fromarray(image_rgb)).unsqueeze(0).to(device)
         with torch.no_grad():
             img_feat_vec = self.model.encode_image(image)
+            # # 一定要Normalization！https://github.com/rom1504/clip-retrieval/blob/main/clip_retrieval/clip_back.py#L226
             img_feat_vec /= img_feat_vec.norm(dim=-1, keepdim=True)
             img_feat_vec = img_feat_vec.cpu().numpy()  # 1x512向量
 
@@ -125,9 +126,8 @@ def encode_text_by_string(self, text):
         :return:
         """
         token = clip.tokenize([text]).to(self.device)
-        # # 一定要Normalization！https://github.com/rom1504/clip-retrieval/blob/main/clip_retrieval/clip_back.py#L226
         feat_text = self.model.encode_text(token)
-        feat_text /= feat_text.norm(dim=-1, keepdim=True)
+        # feat_text /= feat_text.norm(dim=-1, keepdim=True)  # !!! 图片需要Normalization，text不需要
         feat_text = feat_text.detach().cpu().numpy()  # 1x512向量
 
         return feat_text