add PET to few shot

leeyy2020 · leeyy2020 · commit 5ef0ca7d4689 · 2021-07-28T09:13:45.000Z
diff --git a/examples/few_shot/pet/README.md b/examples/few_shot/pet/README.md
@@ -27,21 +27,12 @@ train_ds, dev_ds, public_test_ds = load_dataset("fewclue", name="tnews", splits=
 ### 模型训练&评估
 通过如下命令，指定 GPU 0 卡,  在 FewCLUE 的 `tnews` 数据集上进行训练&评估
 ```
-#task_name="iflytek"
-task_name="tnews"
-#task_name="eprstmt"
-#task_name="bustm"
-#task_name="ocnli"
-#task_name="csl"
-#task_name="csldcp"
-#task_name="cluewsc"
-#task_name="chid"
 python -u -m paddle.distributed.launch --gpus "0" \
     pet.py \
-	--task_name ${task_name} \
+	--task_name "tnews" \
 	--device gpu \
     --pattern_id 0 \
-	--save_dir ./${task_name} \
+	--save_dir ./tnews \
 	--index 0 \
 	--batch_size 16 \
 	--learning_rate 1E-4 \
@@ -61,20 +52,11 @@ python -u -m paddle.distributed.launch --gpus "0" \
 ### 模型预测
 通过如下命令，指定 GPU 0 卡， 在 `FewCLUE` 的 `iflytek` 数据集上进行预测
 ```
-#task_name="iflytek"
-task_name="tnews"
-#task_name="eprstmt"
-#task_name="bustm"
-#task_name="ocnli"
-#task_name="csl"
-#task_name="csldcp"
-#task_name="cluewsc"
-#task_name="chid"
 python -u -m paddle.distributed.launch --gpus "0" predict.py \
-        --task_name ${task_name} \
+        --task_name "tnews" \
         --device gpu \
-        --init_from_ckpt "./${task_name}/model_120/model_state.pdparams" \
-        --output_dir "./${task_name}/output" \
+        --init_from_ckpt "./tnews/model_120/model_state.pdparams" \
+        --output_dir "./tnews/output" \
         --batch_size 32 \
         --max_seq_length 512
 ```
diff --git a/examples/few_shot/pet/evaluate.py b/examples/few_shot/pet/evaluate.py
@@ -145,12 +145,6 @@ def do_evaluate_chid(model, tokenizer, data_loader, label_normalize_dict):
     for batch in data_loader:
         src_ids, token_type_ids, masked_positions, masked_lm_labels, candidate_label_ids = batch
 
-        # [bs * label_length, vocab_size]
-        # prediction_probs = model.predict(
-        #     input_ids=src_ids,
-        #     token_type_ids=token_type_ids,
-        #     masked_positions=masked_positions)
-
         max_len = src_ids.shape[1]
         new_masked_positions = []
 
@@ -215,4 +209,4 @@ def do_evaluate_chid(model, tokenizer, data_loader, label_normalize_dict):
         total_num += len(y_true_index)
         correct_num += (y_true_index == y_pred_index).sum()
 
-    return 100 * correct_num / total_num, total_num
+    return 100 * correct_num / total_num, total_num
diff --git a/examples/few_shot/pet/model.py b/examples/few_shot/pet/model.py
@@ -16,7 +16,6 @@
 import paddle
 import paddle.nn as nn
 from paddlenlp.transformers.ernie.modeling import ErniePretrainedModel, ErniePretrainingHeads, ErnieLMPredictionHead
-from paddlenlp.transformers.albert.modeling import AlbertPretrainedModel, AlbertMLMHead, AlbertForMaskedLM
 
 
 class ErnieForPretraining(ErniePretrainedModel):
diff --git a/examples/few_shot/pet/pet.py b/examples/few_shot/pet/pet.py
@@ -19,8 +19,8 @@
 
 from data import create_dataloader, transform_fn_dict
 from data import convert_example, convert_chid_example
-from evaluate import do_evaluate, do_evaluate_chid, do_evaluate_cluewsc
-from predict import do_predict, do_predict_chid, predict_file, write_fn, do_predict_cluewsc
+from evaluate import do_evaluate, do_evaluate_chid
+from predict import do_predict, do_predict_chid, predict_file, write_fn
 
 
 def set_seed(seed):
diff --git a/examples/few_shot/pet/predict.py b/examples/few_shot/pet/predict.py
@@ -105,73 +105,6 @@ def do_predict(model, tokenizer, data_loader, label_normalize_dict):
             y_pred_labels.append(origin_labels[index])
 
     return y_pred_labels
-    # return paddle.concat(y_pred_logits, axis=0).unsqueeze(1)
-
-@paddle.no_grad()
-def do_predict_cluewsc(model, tokenizer, data_loader, label_normalize_dict):
-    model.eval()
-
-    normed_labels = [
-        normalized_lable
-        for origin_lable, normalized_lable in label_normalize_dict.items()
-    ]
-
-    origin_labels = [
-        origin_lable
-        for origin_lable, normalized_lable in label_normalize_dict.items()
-    ]
-
-    label_length = len(normed_labels[0])
-
-    y_pred_labels = []
-
-    for batch in data_loader:
-        src_ids, token_type_ids, masked_positions, judge = batch
-
-        new_masked_positions = []
-
-        for bs_index, mask_pos in enumerate(masked_positions.numpy()):
-            for pos in mask_pos:
-                new_masked_positions.append(bs_index * max_len + pos)
-        new_masked_positions = paddle.to_tensor(np.array(new_masked_positions).astype('int32'))
-        prediction_scores = model(
-            input_ids=src_ids,
-            token_type_ids=token_type_ids,
-            masked_positions=new_masked_positions)
-
-        softmax_fn = paddle.nn.Softmax()
-        prediction_probs = softmax_fn(prediction_scores)
-
-        batch_size = len(src_ids)
-        vocab_size = prediction_probs.shape[1]
-
-        # prediction_probs: [batch_size, label_lenght, vocab_size]
-        prediction_probs = paddle.reshape(
-            prediction_probs, shape=[batch_size, -1, vocab_size]).numpy()
-
-        # [label_num, label_length]
-        label_ids = np.array(
-            [tokenizer(label)["input_ids"][1:-1] for label in normed_labels])
-
-        y_pred = np.ones(shape=[batch_size, len(label_ids)])
-
-        # Calculate joint distribution of candidate labels
-        for index in range(label_length):
-            y_pred *= prediction_probs[:, index, label_ids[:, index]]
-
-        # Get max probs label's index
-        y_pred_index = np.argmax(y_pred, axis=-1)
-
-        for index in range(len(y_pred_index)):
-            if judge.numpy()[index] == 1:
-                y_pred_labels.append(origin_labels[1])
-                continue
-            y_pred_labels.append(origin_labels[y_pred_index[index]])
-
-
-    return y_pred_labels
-    # return paddle.concat(y_pred_logits, axis=0).unsqueeze(1)
-
 
 @paddle.no_grad()
 def do_predict_chid(model, tokenizer, data_loader, label_normalize_dict):
@@ -238,11 +171,11 @@ def do_predict_chid(model, tokenizer, data_loader, label_normalize_dict):
 
                 y_pred[:, label_idx] *= np.array(batch_single_token_prob)
 
-        # # Get max probs label's index
+        # Get max probs label's index
         y_pred_index = np.argmax(y_pred, axis=-1)
         y_pred_all.extend(y_pred_index)
     return y_pred_all
-    # return y_pred
+
 
 
 predict_file = {
@@ -302,7 +235,7 @@ def write_csldcp(task_name, output_file, pred_labels):
         for idx, example in enumerate(test_ds):
             test_example["id"] = example["id"]
             test_example["label"] = pred_labels[idx]
-            # {"id": 0, "label": "力学"}
+
             str_test_example = "\"{}\": {}, \"{}\": \"{}\"".format(
                 "id", test_example['id'], "label", test_example["label"])
             f.write("{" + str_test_example + "}\n")
@@ -339,7 +272,7 @@ def write_cluewsc(task_name, output_file, pred_labels):
         for idx, example in enumerate(test_ds):
             test_example["id"] = example["id"]
             test_example["label"] = pred_labels[idx]
-            # {"id": 0, "label": "力学"}
+
             str_test_example = "\"{}\": {}, \"{}\": \"{}\"".format(
                 "id", test_example['id'], "label", test_example["label"])
             f.write("{" + str_test_example + "}\n")