Backup DuConv for hf dataset (#2924)

FrostML · web-flow · commit 84e80261137e · 2022-07-29T21:07:47.000+08:00
* backup duconv

* update license

* typo
diff --git a/examples/dialogue/unified_transformer/finetune.py b/examples/dialogue/unified_transformer/finetune.py
@@ -10,8 +10,8 @@
 from paddle.optimizer.lr import NoamDecay
 from paddle.optimizer import AdamW
 
-from paddlenlp.datasets import load_dataset
 from paddlenlp.transformers import UnifiedTransformerLMHeadModel, UnifiedTransformerTokenizer
+from datasets import load_dataset
 
 from utils import print_args, set_seed, create_data_loader
 
@@ -67,7 +67,7 @@ def train(args):
     if world_size > 1:
         model = paddle.DataParallel(model)
 
-    train_ds, dev_ds = load_dataset('duconv', splits=('train', 'dev'))
+    train_ds, dev_ds = load_dataset('duconv', split=('train', 'dev'))
     train_ds, train_data_loader = create_data_loader(train_ds, tokenizer, args,
                                                      'train')
     dev_ds, dev_data_loader = create_data_loader(dev_ds, tokenizer, args, 'dev')
diff --git a/examples/dialogue/unified_transformer/infer.py b/examples/dialogue/unified_transformer/infer.py
@@ -2,9 +2,9 @@
 import argparse
 
 import paddle
-from paddlenlp.datasets import load_dataset
 from paddlenlp.transformers import UnifiedTransformerLMHeadModel, UnifiedTransformerTokenizer
 from paddlenlp.metrics import BLEU, Distinct
+from datasets import load_dataset
 
 from utils import print_args, set_seed, create_data_loader, select_response
 
@@ -76,7 +76,7 @@ def infer(args):
     tokenizer = UnifiedTransformerTokenizer.from_pretrained(
         args.model_name_or_path)
 
-    test_ds = load_dataset('duconv', splits='test_1')
+    test_ds = load_dataset('duconv', split='test_1')
     test_ds, test_data_loader = create_data_loader(test_ds, tokenizer, args,
                                                    'test')
 
diff --git a/examples/dialogue/unified_transformer/utils.py b/examples/dialogue/unified_transformer/utils.py
@@ -34,16 +34,24 @@ def preprocess_examples(examples, mode='train'):
     """
     if mode == 'test':
         return examples
-    new_examples = []
-    for example in examples:
-        conversation = example['conversation']
+    new_examples = {}
+    goal = []
+    knowledge = []
+    history = []
+    response = []
+
+    conv = examples['conversation']
+    for index, conversation in enumerate(conv):
         for i in range(0, len(conversation), 2):
-            new_examples.append({
-                'goal': example['goal'],
-                'knowledge': example['knowledge'],
-                'history': conversation[:i],
-                'response': conversation[i]
-            })
+            goal.append(examples['goal'][index])
+            knowledge.append(examples['knowledge'][index])
+            history.append(conversation[:i])
+            response.append(conversation[i])
+    new_examples["goal"] = goal
+    new_examples["knowledge"] = knowledge
+    new_examples["history"] = history
+    new_examples["response"] = response
+
     return new_examples
 
 
@@ -145,7 +153,14 @@ def create_data_loader(dataset, tokenizer, args, mode):
                           max_response_len=args.max_response_len,
                           max_knowledge_len=args.max_knowledge_len,
                           mode=mode)
-    dataset = dataset.map(trans_func1, batched=True).map(trans_func2, lazy=True)
+    remove_columns = None
+    if mode in ["train", "dev"]:
+        remove_columns = ["id", "conversation"]
+
+    dataset = dataset.map(trans_func1,
+                          batched=True,
+                          batch_size=None,
+                          remove_columns=remove_columns).map(trans_func2)
     if mode == 'train':
         batch_sampler = DistributedBatchSampler(dataset,
                                                 batch_size=args.batch_size,
diff --git a/paddlenlp/datasets/hf_datasets/duconv.py b/paddlenlp/datasets/hf_datasets/duconv.py
@@ -0,0 +1,135 @@
+# coding=utf-8
+# Copyright (c) 2022 PaddlePaddle Authors. All Rights Reserved.
+# Copyright 2020 The TensorFlow Datasets Authors and the HuggingFace Datasets Authors.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+# Lint as: python3
+
+import json
+import os
+
+import datasets
+from datasets.tasks import QuestionAnsweringExtractive
+
+logger = datasets.logging.get_logger(__name__)
+
+_DESCRIPTION = """\
+Duconv is a chinese conversation \
+dataset, designed to evaluate the dialogue models.
+"""
+
+_URL = "https://bj.bcebos.com/paddlenlp/datasets/DuConv.zip"
+
+
+class DuconvConfig(datasets.BuilderConfig):
+    """BuilderConfig for Duconv."""
+
+    def __init__(self, **kwargs):
+        """BuilderConfig for Duconv.
+
+        Args:
+          **kwargs: keyword arguments forwarded to super.
+        """
+        super(DuconvConfig, self).__init__(**kwargs)
+
+
+class Duconv(datasets.GeneratorBasedBuilder):
+    BUILDER_CONFIGS = [
+        DuconvConfig(
+            name="DuConv",
+            version=datasets.Version("1.0.0", ""),
+            description=_DESCRIPTION,
+        ),
+    ]
+
+    def _info(self):
+        return datasets.DatasetInfo(
+            description=_DESCRIPTION,
+            features=datasets.Features({
+                "id":
+                datasets.Value("string"),
+                "goal":
+                datasets.Sequence(datasets.Sequence(datasets.Value("string"))),
+                "knowledge":
+                datasets.Sequence(datasets.Sequence(datasets.Value("string"))),
+                "conversation":
+                datasets.Sequence(datasets.Value("string")),
+                "history":
+                datasets.Sequence(datasets.Value("string")),
+                "response":
+                datasets.Value("string"),
+            }),
+            # No default supervised_keys (as we have to pass both question
+            # and context as input).
+            supervised_keys=None,
+            homepage="https://arxiv.org/pdf/1906.05572.pdf",
+        )
+
+    def _split_generators(self, dl_manager):
+        dl_dir = dl_manager.download_and_extract(_URL)
+
+        return [
+            datasets.SplitGenerator(name="train",
+                                    gen_kwargs={
+                                        "filepath":
+                                        os.path.join(dl_dir, 'DuConv',
+                                                     'train.txt'),
+                                    }),
+            datasets.SplitGenerator(name="dev",
+                                    gen_kwargs={
+                                        "filepath":
+                                        os.path.join(dl_dir, 'DuConv',
+                                                     'dev.txt'),
+                                    }),
+            datasets.SplitGenerator(name="test_1",
+                                    gen_kwargs={
+                                        "filepath":
+                                        os.path.join(dl_dir, 'DuConv',
+                                                     'test_1.txt'),
+                                    }),
+            datasets.SplitGenerator(name="test_2",
+                                    gen_kwargs={
+                                        "filepath":
+                                        os.path.join(dl_dir, 'DuConv',
+                                                     'test_2.txt'),
+                                    }),
+        ]
+
+    def _generate_examples(self, filepath):
+        """This function returns the examples in the raw (text) form."""
+        logger.info("generating examples from = %s", filepath)
+        key = 0
+        with open(filepath, 'r', encoding="utf-8") as fin:
+            for line in fin:
+                duconv = json.loads(line)
+
+                goal = duconv["goal"] if "goal" in duconv.keys() else [[]]
+                knowledge = duconv["knowledge"] if "knowledge" in duconv.keys(
+                ) else [[]]
+                conversation = duconv[
+                    "conversation"] if "conversation" in duconv.keys() else []
+                history = duconv["history"] if "history" in duconv.keys(
+                ) else []
+                response = duconv["response"] if "response" in duconv.keys(
+                ) else ""
+
+                yield key, {
+                    "id": str(key),
+                    "goal": goal,
+                    "knowledge": knowledge,
+                    "conversation": conversation,
+                    "history": history,
+                    "response": response,
+                }
+                key += 1