fix: Fixed eval split for MultilingualSentiment in C-MTEB (#1804)

x-tabdeveloping · web-flow · commit 96f639bc3415 · 2025-01-17T17:54:37.000+03:00
* Fixed eval split for MultilingualSentiment in C-MTEB

* FIxed splits for atec, bq and stsb in C-MTEB
diff --git a/mteb/benchmarks/benchmarks.py b/mteb/benchmarks/benchmarks.py
@@ -1152,40 +1152,47 @@ def load_results(
 
 C_MTEB = Benchmark(
     name="MTEB(Chinese)",
-    tasks=get_tasks(
-        tasks=[
-            "T2Retrieval",
-            "MMarcoRetrieval",
-            "DuRetrieval",
-            "CovidRetrieval",
-            "CmedqaRetrieval",
-            "EcomRetrieval",
-            "MedicalRetrieval",
-            "VideoRetrieval",
-            "T2Reranking",
-            "MMarcoReranking",
-            "CMedQAv1-reranking",
-            "CMedQAv2-reranking",
-            "Ocnli",
-            "Cmnli",
-            "CLSClusteringS2S",
-            "CLSClusteringP2P",
-            "ThuNewsClusteringS2S",
-            "ThuNewsClusteringP2P",
-            "ATEC",
-            "BQ",
-            "LCQMC",
-            "PAWSX",
-            "STSB",
-            "AFQMC",
-            "QBQTC",
-            "TNews",
-            "IFlyTek",
-            "Waimai",
-            "OnlineShopping",
-            "MultilingualSentiment",
-            "JDReview",
-        ],
+    tasks=MTEBTasks(
+        get_tasks(
+            tasks=[
+                "T2Retrieval",
+                "MMarcoRetrieval",
+                "DuRetrieval",
+                "CovidRetrieval",
+                "CmedqaRetrieval",
+                "EcomRetrieval",
+                "MedicalRetrieval",
+                "VideoRetrieval",
+                "T2Reranking",
+                "MMarcoReranking",
+                "CMedQAv1-reranking",
+                "CMedQAv2-reranking",
+                "Ocnli",
+                "Cmnli",
+                "CLSClusteringS2S",
+                "CLSClusteringP2P",
+                "ThuNewsClusteringS2S",
+                "ThuNewsClusteringP2P",
+                "LCQMC",
+                "PAWSX",
+                "AFQMC",
+                "QBQTC",
+                "TNews",
+                "IFlyTek",
+                "Waimai",
+                "OnlineShopping",
+                "JDReview",
+            ],
+        )
+        + get_tasks(tasks=["MultilingualSentiment"], eval_splits=["test"])
+        + get_tasks(
+            tasks=[
+                "ATEC",
+                "BQ",
+                "STSB",
+            ],
+            eval_splits=["validation"],
+        )
     ),
     description="The Chinese Massive Text Embedding Benchmark (C-MTEB) is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets.",
     reference="https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB",