fix: resolve hash randomization in retrieval task ID generation (#3553)

dongwook92 · web-flow · commit 0c4f099b2252 · 2025-11-14T00:28:59.000+03:00
This commit fixes non-deterministic query ID assignment in three retrieval
tasks caused by Python hash randomization when using enumerate(set()).

Affected tasks:
- PublicHealthQARetrieval (8 languages including Korean)
- BelebeleRetrieval (122 language variants including Korean)
- GeorgianFAQRetrieval (Georgian)
diff --git a/mteb/tasks/retrieval/kat/georgian_faq_retrieval.py b/mteb/tasks/retrieval/kat/georgian_faq_retrieval.py
@@ -46,10 +46,17 @@ def load_data(self) -> None:
             split=_EVAL_SPLIT,
             revision=self.metadata.dataset["revision"],
         )
-        question_ids = {
-            question: _id for _id, question in enumerate(set(data["question"]))
-        }
-        answer_ids = {answer: _id for _id, answer in enumerate(set(data["answer"]))}
+
+        question_ids = {}
+        answer_ids = {}
+
+        for row in data:
+            question = row["question"]
+            answer = row["answer"]
+            if question not in question_ids:
+                question_ids[question] = len(question_ids)
+            if answer not in answer_ids:
+                answer_ids[answer] = len(answer_ids)
 
         for row in data:
             question = row["question"]
diff --git a/mteb/tasks/retrieval/multilingual/belebele_retrieval.py b/mteb/tasks/retrieval/multilingual/belebele_retrieval.py
@@ -230,10 +230,11 @@ def load_data(self, **kwargs) -> None:
             ds_corpus = self.dataset[lang_corpus]
             ds_question = self.dataset[lang_question]
 
-            question_ids = {
-                question: _id
-                for _id, question in enumerate(set(ds_question["question"]))
-            }
+            question_ids = {}
+            for row in ds_question:
+                question = row["question"]
+                if question not in question_ids:
+                    question_ids[question] = len(question_ids)
 
             link_to_context_id = {}
             context_idx = 0
diff --git a/mteb/tasks/retrieval/multilingual/public_health_qa_retrieval.py b/mteb/tasks/retrieval/multilingual/public_health_qa_retrieval.py
@@ -32,10 +32,15 @@ def _load_publichealthqa_data(
             split=split,
             revision=revision,
         )
-        question_ids = {
-            question: _id for _id, question in enumerate(set(data["question"]))
-        }
-        answer_ids = {answer: _id for _id, answer in enumerate(set(data["answer"]))}
+
+        question_ids = {}
+        answer_ids = {}
+
+        for row in data:
+            if row["question"] is not None and row["question"] not in question_ids:
+                question_ids[row["question"]] = len(question_ids)
+            if row["answer"] is not None and row["answer"] not in answer_ids:
+                answer_ids[row["answer"]] = len(answer_ids)
 
         for row in data:
             if row["question"] is None or row["answer"] is None: