PaddlePaddle
diff --git a/‎applications/text_classification/doccano.md‎
Lines changed: 22 additions & 6 deletions b/‎applications/text_classification/doccano.md‎
Lines changed: 22 additions & 6 deletions
diff --git a/‎applications/text_classification/doccano.py‎
Lines changed: 48 additions & 52 deletions b/‎applications/text_classification/doccano.py‎
Lines changed: 48 additions & 52 deletions
@@ -163,8 +163,10 @@ doccano支持`TextFile`、`TextLine`、`JSONL`和`CoNLL`四种数据上传格式
 
 
 ### 7.1 多分类任务
-通过 [doccano.py](./doccano.py) 脚本进行数据形式转换，然后便可以按照[多分类文本任务指南](multi_class/README.md)进行相应模型训练。
-运行
+通过 [doccano.py](./doccano.py) 脚本进行数据形式转换，然后便可以按照[多分类文本任务指南](multi_class/README.md)中固定格式进行相应模型训练。
+
+数据标注转化运行：
+
 ```shell
 python doccano.py \
     --doccano_file doccano.jsonl \
@@ -173,9 +175,13 @@ python doccano.py \
     --task_type "multi_class"
 ```
 
+稀疏数据识别出的有效标注请增加配置参数`--valid`，脏数据清洗的标注数据（文本中有脏数据标签）请增加配置参数`--dirty`，更多稀疏数据识别和脏数据清洗详见[多分类训练评估与模型优化指南](multi_class/analysis/README.md)
+
 ### 7.2 多标签任务
-通过 [doccano.py](./doccano.py) 脚本进行数据形式转换，然后便可以按照[多标签文本分类任务指南](multi_label/README.md)进行相应模型训练。
-运行
+通过 [doccano.py](./doccano.py) 脚本进行数据形式转换，然后便可以按照[多标签文本分类任务指南](multi_label/README.md)中固定格式进行相应模型训练。
+
+数据标注转化运行：
+
 ```shell
 python doccano.py \
     --doccano_file doccano.jsonl \
@@ -184,9 +190,14 @@ python doccano.py \
     --task_type "multi_label"
 ```
 
+稀疏数据识别出的有效标注请增加配置参数`--valid`，脏数据清洗的标注数据（文本中有脏数据标签）请增加配置参数`--dirty`，更多稀疏数据识别和脏数据清洗详见[多标签训练评估与模型优化指南](multi_label/analysis/README.md)
+
 ### 7.3 层次分类任务
-通过 [doccano.py](./doccano.py) 脚本进行数据形式转换，然后便可以按照[层次文本分类任务指南](hierarchical/README.md)进行相应模型训练。
-运行
+
+通过 [doccano.py](./doccano.py) 脚本进行数据形式转换，然后便可以按照[层次文本分类任务指南](hierarchical/README.md)中固定格式进行相应模型训练。
+
+数据标注转化运行：
+
 ```shell
 python doccano.py \
     --doccano_file doccano.jsonl \
@@ -195,6 +206,7 @@ python doccano.py \
     --task_type "hierarchical"
 ```
 
+稀疏数据识别出的有效标注请增加配置参数`--valid`，脏数据清洗的标注数据（文本中有脏数据标签）请增加配置参数`--dirty`，更多稀疏数据识别和脏数据清洗详见[层次分类训练评估与模型优化指南](hierarchical/analysis/README.md)
 可配置参数说明：
 
 - ``doccano_file``: 从doccano导出的数据标注文件。
@@ -204,8 +216,11 @@ python doccano.py \
 - ``is_shuffle``: 是否对数据集进行随机打散，默认为True。
 - ``seed``: 随机种子，默认为1000.
 - ``separator``: 不同层标签之间的分隔符，该参数只对层次文本分类任务有效。默认为"##"。
+- ``valid``: 是否为稀疏数据筛选的有效标注数据，默认为False.
+- ``dirty``: 是否为脏数据清洗策略标注数据，默认为False.
 
 转化后的doccano标注数据目录结构如下：
+
 ```text
 data/
 ├── train.txt # 训练数据集文件
@@ -220,5 +235,6 @@ data/
 - 脚本会自动生成data.txt，如果数据划分为 train/dev/test 数据集，data.txt则为test数据集无标签数据；如果数据划分为 train/dev 数据集，data.txt为无标签数据。**如果有未标注数据，则用未标注数据文件替换data.txt**
 - 每次执行 [doccano.py](./doccano.py) 脚本，将会覆盖已有的同名数据文件
 - 对于从doccano导出的文件，默认文件中的每条数据都是经过人工正确标注的。
+
 ## References
 - **[doccano](https://github.com/doccano/doccano)**
@@ -25,56 +25,34 @@
 import paddle
 from paddlenlp.utils.log import logger
 
+# yapf: disable
 parser = argparse.ArgumentParser()
-
-parser.add_argument("--doccano_file",
-                    default="doccano.jsonl",
-                    type=str,
-                    help="The doccano file exported from doccano platform.")
-parser.add_argument("--save_dir",
-                    default="./data",
-                    type=str,
-                    help="The path of data that you wanna save.")
-parser.add_argument("--splits",
-                    default=[0.8, 0.2],
-                    type=float,
-                    nargs="*",
-                    help="The ratio of samples in datasets. "
-                    "[0.8, 0.2] means 80% samples "
-                    "used for training, 20% for evaluation.")
-parser.add_argument("--task_type",
-                    choices=['multi_class', 'multi_label', 'hierarchical'],
-                    default="multi_label",
-                    type=str,
-                    help="Select task type, multi_class for"
-                    "multi classification task, multi_label"
-                    "for multi label classification task and"
-                    "hierarchical for hierarchical classification,"
-                    "defaults to multi_label.")
-parser.add_argument("--is_shuffle",
-                    default=True,
-                    type=bool,
-                    help="Whether to shuffle the labeled"
-                    "dataset, defaults to True.")
-parser.add_argument("--seed",
-                    type=int,
-                    default=3,
-                    help="Random seed for initialization")
-parser.add_argument("--separator",
-                    type=str,
-                    default="##",
-                    help="Separator for hierarchical classification")
-
+parser.add_argument("--doccano_file", default="doccano.jsonl", type=str, help="The doccano file exported from doccano platform.")
+parser.add_argument("--save_dir", default="./data", type=str, help="The path of data that you wanna save.")
+parser.add_argument("--splits", default=[0.8, 0.2], type=float, nargs="*", help="The ratio of samples in datasets. [0.8, 0.2] means 80% samples used for training, 20% for evaluation.")
+parser.add_argument("--task_type", choices=['multi_class', 'multi_label', 'hierarchical'], default="multi_label", type=str, help="Select task type, multi_class for multi classification task, multi_label for multi label classification task and hierarchical for hierarchical classification, defaults to multi_label.")
+parser.add_argument("--is_shuffle", default=True, type=bool, help="Whether to shuffle the labeled dataset, defaults to True.")
+parser.add_argument("--seed", type=int, default=3, help="Random seed for initialization")
+parser.add_argument("--separator", type=str, default="##", help="Separator for hierarchical classification")
+parser.add_argument("--valid", action='store_true', help="Whether annotate valid data(extracted from sparse strategy)")
+parser.add_argument("--dirty", action='store_true', help="Whether annotate dirty data(extracted from dirty data cleaning strategy)")
 args = parser.parse_args()
+# yapf: enable
 
 
 def set_seed(seed):
+    """
+    Set random seed
+    """
     paddle.seed(seed)
     random.seed(seed)
     np.random.seed(seed)
 
 
 def do_convert():
+    """
+    Convert doccano jsonl to fixed format
+    """
     set_seed(args.seed)
 
     tic_time = time.time()
@@ -84,9 +62,11 @@ def do_convert():
     if not os.path.exists(args.save_dir):
         os.makedirs(args.save_dir)
 
-    if len(args.splits) != 2 and len(args.splits) != 3:
+    if len(args.splits) != 1 and len(args.splits) != 2 and len(
+            args.splits) != 3:
         raise ValueError(
-            "Only len(splits)==2 / len(splits)==3 accepted for splits.")
+            "Only len(splits)==1 /len(splits)==2 / len(splits)==3 accepted for splits."
+        )
 
     def _check_sum(splits):
         if len(splits) == 2:
@@ -121,8 +101,11 @@ def _check_sum(splits):
                     raise ValueError("There exists comma \',\' in {}".format(l))
 
             if args.task_type == 'multi_label' or args.task_type == 'multi_class':
-                example = ' '.join(
-                    text.strip().split('\t')) + '\t' + ','.join(labels) + '\n'
+                if args.dirty:
+                    text = ' '.join(text.strip().split('\t')[:-1])
+                else:
+                    text = ' '.join(text.strip().split('\t'))
+                example = text + '\t' + ','.join(labels) + '\n'
                 for l in labels:
                     if l not in label_list:
                         label_list.append(l)
@@ -135,15 +118,19 @@ def _check_sum(splits):
                         label_dict.append(l)
                         if l not in label_list:
                             label_list.append(l)
-                example = ' '.join(text.strip().split('\t')) + '\t' + ','.join(
-                    label_list) + '\n'
+                if args.dirty:
+                    text = ' '.join(text.strip().split('\t')[:-1])
+                else:
+                    text = ' '.join(text.strip().split('\t'))
+                example = text + '\t' + ','.join(label_list) + '\n'
             examples.append(example)
 
-    save_path = os.path.join(args.save_dir, 'label.txt')
-    with open(save_path, "w", encoding="utf-8") as f:
-        label_list = sorted(label_list)
-        for l in label_list:
-            f.write(l + '\n')
+    if not args.dirty and not args.valid:
+        save_path = os.path.join(args.save_dir, 'label.txt')
+        with open(save_path, "w", encoding="utf-8") as f:
+            label_list = sorted(label_list)
+            for l in label_list:
+                f.write(l + '\n')
 
     def _save_examples(save_dir, file_name, examples, is_data=False):
         count = 0
@@ -160,13 +147,22 @@ def _save_examples(save_dir, file_name, examples, is_data=False):
     if args.is_shuffle:
         indexes = np.random.permutation(len(raw_examples))
         raw_examples = [raw_examples[i] for i in indexes]
-    if len(args.splits) == 2:
+
+    if len(args.splits) == 1:
+        if args.valid:
+            _save_examples(args.save_dir, "valid.txt", examples)
+        elif args.dirty:
+            _save_examples(args.save_dir, "train_dirty.txt", examples)
+        else:
+            _save_examples(args.save_dir, "train.txt", examples)
+            _save_examples(args.save_dir, "data.txt", examples, True)
+    elif len(args.splits) == 2:
         i1, _ = args.splits
         p1 = int(len(raw_examples) * i1)
         _save_examples(args.save_dir, "train.txt", examples[:p1])
         _save_examples(args.save_dir, "dev.txt", examples[p1:])
         _save_examples(args.save_dir, "data.txt", examples[p1:], True)
-    if len(args.splits) == 3:
+    elif len(args.splits) == 3:
         i1, i2, _ = args.splits
         p1 = int(len(raw_examples) * i1)
         p2 = int(len(raw_examples) * (i1 + i2))