Updated to All v2 Dataset

w11wo · w11wo · commit 51c39561df37 · 2024-01-26T10:18:38.000Z
diff --git a/docs/training/all.md b/docs/training/all.md
@@ -4,17 +4,21 @@ Inspired by [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-
 
 ## Training Data
 
-| Dataset                                                                              |             Task              |                 Data Instance                 | Number of Training Tuples |
-| ------------------------------------------------------------------------------------ | :---------------------------: | :-------------------------------------------: | :-----------------------: |
-| [indonli](https://huggingface.co/datasets/indonli)                                   |  Natural Language Inference   |    `(premise, entailment, contradiction)`     |           3,914           |
-| [indolem/indo_story_cloze](https://huggingface.co/datasets/indolem/indo_story_cloze) |     Commonsense Reasoning     | `(context, correct ending, incorrect ending)` |           1,000           |
-| [unicamp-dl/mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)               |       Passage Retrieval       | `(query, positive passage, negative passage)` |          100,000          |
-| [miracl/miracl](https://huggingface.co/datasets/miracl/miracl)                       |       Passage Retrieval       | `(query, positive passage, negative passage)` |           8,086           |
-| [SEACrowd/wrete](https://huggingface.co/datasets/SEACrowd/wrete)                     |      Textual Entailment       |           `(sentenceA, sentenceB)`            |            183            |
-| [SEACrowd/indolem_ntp](https://huggingface.co/datasets/SEACrowd/indolem_ntp)         |      Textual Entailment       |             `(tweet, next tweet)`             |           5,681           |
-| [khalidalt/tydiqa-goldp](https://huggingface.co/datasets/khalidalt/tydiqa-goldp)     | Extractive Question-Answering |  `(question, passage)`, `(question, answer)`  |          11,404           |
-| [SEACrowd/facqa](https://huggingface.co/datasets/SEACrowd/facqa)                     | Extractive Question-Answering |  `(question, passage)`, `(question, answer)`  |           4,990           |
-| **Total**                                                                            |                               |                                               |        **135,258**        |
+| Dataset                                                                                                            |              Task              |                 Data Instance                 | Number of Training Tuples |
+| ------------------------------------------------------------------------------------------------------------------ | :----------------------------: | :-------------------------------------------: | :-----------------------: |
+| [indonli](https://huggingface.co/datasets/indonli)                                                                 |   Natural Language Inference   |    `(premise, entailment, contradiction)`     |           3,914           |
+| [indolem/indo_story_cloze](https://huggingface.co/datasets/indolem/indo_story_cloze)                               |     Commonsense Reasoning      | `(context, correct ending, incorrect ending)` |           1,000           |
+| [unicamp-dl/mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)                                             |       Passage Retrieval        | `(query, positive passage, negative passage)` |          100,000          |
+| [miracl/miracl](https://huggingface.co/datasets/miracl/miracl)                                                     |       Passage Retrieval        | `(query, positive passage, negative passage)` |           8,086           |
+| [SEACrowd/wrete](https://huggingface.co/datasets/SEACrowd/wrete)                                                   |       Textual Entailment       |           `(sentenceA, sentenceB)`            |            183            |
+| [SEACrowd/indolem_ntp](https://huggingface.co/datasets/SEACrowd/indolem_ntp)                                       |       Textual Entailment       |             `(tweet, next tweet)`             |           5,681           |
+| [khalidalt/tydiqa-goldp](https://huggingface.co/datasets/khalidalt/tydiqa-goldp)                                   | Extractive Question-Answering  |  `(question, passage)`, `(question, answer)`  |          11,404           |
+| [SEACrowd/facqa](https://huggingface.co/datasets/SEACrowd/facqa)                                                   | Extractive Question-Answering  |  `(question, passage)`, `(question, answer)`  |           4,990           |
+| *included in v2*                                                                                                   |
+| [indonesian-nlp/lfqa_id](https://huggingface.co/datasets/indonesian-nlp/lfqa_id)                                   | Open-domain Question-Answering |             `(question, answer)`              |          226,147          |
+| [jakartaresearch/indoqa](https://huggingface.co/datasets/jakartaresearch/indoqa)                                   | Extractive Question-Answering  |  `(question, passage)`, `(question, answer)`  |           6,498           |
+| [jakartaresearch/id-paraphrase-detection](https://huggingface.co/datasets/jakartaresearch/id-paraphrase-detection) |           Paraphrase           |       `(sentence, rephrased sentence)`        |           4,076           |
+| **Total**                                                                                                          |                                |                                               |        **371,979**        |
 
 ## All Supervised Datasets with MultipleNegativesRankingLoss
 
diff --git a/training/all/README.md b/training/all/README.md
@@ -4,17 +4,21 @@ Inspired by [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-
 
 ## Training Data
 
-| Dataset                                                                              |             Task              |                 Data Instance                 | Number of Training Tuples |
-| ------------------------------------------------------------------------------------ | :---------------------------: | :-------------------------------------------: | :-----------------------: |
-| [indonli](https://huggingface.co/datasets/indonli)                                   |  Natural Language Inference   |    `(premise, entailment, contradiction)`     |           3,914           |
-| [indolem/indo_story_cloze](https://huggingface.co/datasets/indolem/indo_story_cloze) |     Commonsense Reasoning     | `(context, correct ending, incorrect ending)` |           1,000           |
-| [unicamp-dl/mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)               |       Passage Retrieval       | `(query, positive passage, negative passage)` |          100,000          |
-| [miracl/miracl](https://huggingface.co/datasets/miracl/miracl)                       |       Passage Retrieval       | `(query, positive passage, negative passage)` |           8,086           |
-| [SEACrowd/wrete](https://huggingface.co/datasets/SEACrowd/wrete)                     |      Textual Entailment       |           `(sentenceA, sentenceB)`            |            183            |
-| [SEACrowd/indolem_ntp](https://huggingface.co/datasets/SEACrowd/indolem_ntp)         |      Textual Entailment       |             `(tweet, next tweet)`             |           5,681           |
-| [khalidalt/tydiqa-goldp](https://huggingface.co/datasets/khalidalt/tydiqa-goldp)     | Extractive Question-Answering |  `(question, passage)`, `(question, answer)`  |          11,404           |
-| [SEACrowd/facqa](https://huggingface.co/datasets/SEACrowd/facqa)                     | Extractive Question-Answering |  `(question, passage)`, `(question, answer)`  |           4,990           |
-| **Total**                                                                            |                               |                                               |        **135,258**        |
+| Dataset                                                                                                            |              Task              |                 Data Instance                 | Number of Training Tuples |
+| ------------------------------------------------------------------------------------------------------------------ | :----------------------------: | :-------------------------------------------: | :-----------------------: |
+| [indonli](https://huggingface.co/datasets/indonli)                                                                 |   Natural Language Inference   |    `(premise, entailment, contradiction)`     |           3,914           |
+| [indolem/indo_story_cloze](https://huggingface.co/datasets/indolem/indo_story_cloze)                               |     Commonsense Reasoning      | `(context, correct ending, incorrect ending)` |           1,000           |
+| [unicamp-dl/mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)                                             |       Passage Retrieval        | `(query, positive passage, negative passage)` |          100,000          |
+| [miracl/miracl](https://huggingface.co/datasets/miracl/miracl)                                                     |       Passage Retrieval        | `(query, positive passage, negative passage)` |           8,086           |
+| [SEACrowd/wrete](https://huggingface.co/datasets/SEACrowd/wrete)                                                   |       Textual Entailment       |           `(sentenceA, sentenceB)`            |            183            |
+| [SEACrowd/indolem_ntp](https://huggingface.co/datasets/SEACrowd/indolem_ntp)                                       |       Textual Entailment       |             `(tweet, next tweet)`             |           5,681           |
+| [khalidalt/tydiqa-goldp](https://huggingface.co/datasets/khalidalt/tydiqa-goldp)                                   | Extractive Question-Answering  |  `(question, passage)`, `(question, answer)`  |          11,404           |
+| [SEACrowd/facqa](https://huggingface.co/datasets/SEACrowd/facqa)                                                   | Extractive Question-Answering  |  `(question, passage)`, `(question, answer)`  |           4,990           |
+| *included in v2*                                                                                                   |
+| [indonesian-nlp/lfqa_id](https://huggingface.co/datasets/indonesian-nlp/lfqa_id)                                   | Open-domain Question-Answering |             `(question, answer)`              |          226,147          |
+| [jakartaresearch/indoqa](https://huggingface.co/datasets/jakartaresearch/indoqa)                                   | Extractive Question-Answering  |  `(question, passage)`, `(question, answer)`  |           6,498           |
+| [jakartaresearch/id-paraphrase-detection](https://huggingface.co/datasets/jakartaresearch/id-paraphrase-detection) |           Paraphrase           |       `(sentence, rephrased sentence)`        |           4,076           |
+| **Total**                                                                                                          |                                |                                               |        **371,979**        |
 
 ## All Supervised Datasets with MultipleNegativesRankingLoss
 
diff --git a/training/all/all_datasets.py b/training/all/all_datasets.py
@@ -4,6 +4,7 @@
 
 from datasets import load_dataset
 from sentence_transformers import InputExample
+import numpy as np
 
 ##############
 # PAIRS
@@ -78,6 +79,58 @@ def train_samples() -> List[InputExample]:
         return train_samples
 
 
+@dataclass
+class LFQAID:
+    dataset = load_dataset("indonesian-nlp/lfqa_id", split="train", trust_remote_code=True)
+
+    @staticmethod
+    def train_samples() -> List[InputExample]:
+        train_samples = []
+
+        for datum in LFQAID.dataset:
+            question = datum["title"]
+            scores = datum["answers"]["score"]
+            answer = datum["answers"]["text"][np.argmax(scores)]
+
+            train_samples.append(InputExample(texts=[question, answer]))
+
+        return train_samples
+
+
+@dataclass
+class IndoQA:
+    dataset = load_dataset("jakartaresearch/indoqa", split="train", trust_remote_code=True)
+
+    @staticmethod
+    def train_samples() -> List[InputExample]:
+        train_samples = []
+
+        for datum in IndoQA.dataset:
+            question = datum["question"]
+            passage = datum["context"]
+            answer = datum["answer"]
+
+            if question and passage and answer:
+                train_samples.append(InputExample(texts=[question, passage]))
+                train_samples.append(InputExample(texts=[question, answer]))
+
+        return train_samples
+
+
+@dataclass
+class ParaphraseDetection:
+    dataset = load_dataset("jakartaresearch/id-paraphrase-detection", split="train", trust_remote_code=True)
+
+    @staticmethod
+    def train_samples() -> List[InputExample]:
+        train_samples = []
+
+        for datum in ParaphraseDetection.dataset:
+            train_samples.append(InputExample(texts=[datum["sentence1"], datum["sentence2"]]))
+
+        return train_samples
+
+
 ##############
 # TRIPLETS
 ##############
diff --git a/training/all/train_all_mnrl.py b/training/all/train_all_mnrl.py
@@ -6,7 +6,19 @@
 from sentence_transformers import SentenceTransformer, InputExample, models, losses
 from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
 
-from all_datasets import IndoNLI, IndoStoryCloze, mMARCO, MIRACL, WReTE, IndoLEMNTP, TyDiQA, FacQA
+from all_datasets import (
+    IndoNLI,
+    IndoStoryCloze,
+    mMARCO,
+    MIRACL,
+    WReTE,
+    IndoLEMNTP,
+    TyDiQA,
+    FacQA,
+    LFQAID,
+    IndoQA,
+    ParaphraseDetection,
+)
 from MultiDatasetDataLoader import MultiDatasetDataLoader
 
 
@@ -47,6 +59,9 @@ def main(args: Args):
         "SEACrowd/indolem_ntp": IndoLEMNTP,
         "khalidalt/tydiqa-goldp": TyDiQA,
         "SEACrowd/facqa": FacQA,
+        "indonesian-nlp/lfqa_id": LFQAID,
+        "jakartaresearch/indoqa": IndoQA,
+        "jakartaresearch/id-paraphrase-detection": ParaphraseDetection,
     }
 
     train_ds = [ds.train_samples() for ds in raw_datasets.values()]