Fix the WR bug and recall script bug (#2381)

w5688414 · web-flow · commit 99673ad38289 · 2022-06-01T16:40:53.000+08:00
* Fix the WR bug and recall script bug

* Cast pad type to int64

* Cast the input type to int 64

* Cast padd to int64
diff --git a/applications/neural_search/ranking/ernie_matching/evaluate.py b/applications/neural_search/ranking/ernie_matching/evaluate.py
@@ -132,8 +132,8 @@ def do_train():
         phase="eval")
 
     batchify_fn_eval = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # pair_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # pair_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # pair_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # pair_segment
         Stack(dtype="int64")  # label
     ): [data for data in fn(samples)]
 
diff --git a/applications/neural_search/ranking/ernie_matching/predict_pairwise.py b/applications/neural_search/ranking/ernie_matching/predict_pairwise.py
@@ -94,8 +94,8 @@ def predict(model, data_loader):
         phase="predict")
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment_ids
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # input_ids
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # segment_ids
     ): [data for data in fn(samples)]
 
     valid_ds = load_dataset(
diff --git a/applications/neural_search/ranking/ernie_matching/train_pairwise.py b/applications/neural_search/ranking/ernie_matching/train_pairwise.py
@@ -148,15 +148,15 @@ def do_train():
         phase="eval")
 
     batchify_fn_train = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # pos_pair_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # pos_pair_segment
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # neg_pair_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id)  # neg_pair_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # pos_pair_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # pos_pair_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # neg_pair_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64")  # neg_pair_segment
     ): [data for data in fn(samples)]
 
     batchify_fn_eval = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # pair_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # pair_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # pair_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # pair_segment
         Stack(dtype="int64")  # label
     ): [data for data in fn(samples)]
 
diff --git a/applications/neural_search/recall/in_batch_negative/deploy/python/web_service.py b/applications/neural_search/recall/in_batch_negative/deploy/python/web_service.py
@@ -55,8 +55,8 @@ def preprocess(self, input_dicts, data_id, log_id):
                                                      self.tokenizer)
             examples.append((input_ids, segment_ids))
         batchify_fn = lambda samples, fn=Tuple(
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # segment
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"),  # input
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"),  # segment
         ): fn(samples)
         input_ids, segment_ids = batchify_fn(examples)
         feed_dict = {}
diff --git a/applications/neural_search/recall/in_batch_negative/evaluate.py b/applications/neural_search/recall/in_batch_negative/evaluate.py
@@ -72,8 +72,6 @@ def recall(rs, N=10):
                 relevance_labels = []
 
             text, recalled_text, cosine_sim = line.rstrip().split("\t")
-            if text == recalled_text:
-                continue
             if text2similar[text] == recalled_text:
                 relevance_labels.append(1)
             else:
diff --git a/applications/neural_search/recall/in_batch_negative/recall.py b/applications/neural_search/recall/in_batch_negative/recall.py
@@ -82,8 +82,8 @@
         max_seq_length=args.max_seq_length)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # text_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # text_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # text_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # text_segment
     ): [data for data in fn(samples)]
 
     pretrained_model = ppnlp.transformers.ErnieModel.from_pretrained(
diff --git a/applications/neural_search/recall/in_batch_negative/train_batch_neg.py b/applications/neural_search/recall/in_batch_negative/train_batch_neg.py
@@ -98,10 +98,10 @@ def do_train():
         max_seq_length=args.max_seq_length)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # query_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # query_segment
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # title_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # tilte_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # query_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # query_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # title_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # tilte_segment
     ): [data for data in fn(samples)]
 
     train_data_loader = create_dataloader(
diff --git a/applications/neural_search/recall/simcse/evaluate.py b/applications/neural_search/recall/simcse/evaluate.py
@@ -68,14 +68,10 @@ def recall(rs, N=10):
                 relevance_labels = []
 
             text, recalled_text, cosine_sim = line.rstrip().split("\t")
-            if text == recalled_text:
-                continue
             if text2similar[text] == recalled_text:
                 relevance_labels.append(1)
             else:
                 relevance_labels.append(0)
-        # print(len(rs))
-        # print(rs[:50])
 
     recall_N = []
     recall_num = [1, 5, 10, 20, 50]
diff --git a/applications/neural_search/recall/simcse/recall.py b/applications/neural_search/recall/simcse/recall.py
@@ -70,8 +70,8 @@
         max_seq_length=args.max_seq_length)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # text_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # text_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # text_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # text_segment
     ): [data for data in fn(samples)]
 
     pretrained_model = ppnlp.transformers.ErnieModel.from_pretrained(
diff --git a/applications/neural_search/recall/simcse/train.py b/applications/neural_search/recall/simcse/train.py
@@ -66,35 +66,6 @@ def set_seed(seed):
     np.random.seed(seed)
     paddle.seed(seed)
 
-def do_evaluate(model, tokenizer, data_loader, with_pooler=False):
-    model.eval()
-
-    total_num = 0
-    spearman_corr = 0.0
-    sims = []
-    labels = []
-
-    for batch in data_loader:
-        query_input_ids, query_token_type_ids, title_input_ids, title_token_type_ids, label = batch
-        total_num += len(label)
-
-        query_cls_embedding = model.get_pooled_embedding(
-            query_input_ids, query_token_type_ids, with_pooler=with_pooler)
-
-        title_cls_embedding = model.get_pooled_embedding(title_input_ids, title_token_type_ids, with_pooler=with_pooler)
-
-        cosine_sim = paddle.sum(query_cls_embedding * title_cls_embedding, axis=-1)
-
-        sims.append(cosine_sim.numpy())
-        labels.append(label.numpy())
-
-    sims = np.concatenate(sims, axis=0)
-    labels = np.concatenate(labels, axis=0)
-
-    spearman_corr = stats.spearmanr(labels, sims).correlation
-    model.train()
-    return spearman_corr, total_num
-
 def do_train():
     paddle.set_device(args.device)
     rank = paddle.distributed.get_rank()
@@ -121,10 +92,10 @@ def do_train():
         max_seq_length=args.max_seq_length)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # query_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # query_segment
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # title_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # tilte_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # query_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # query_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # title_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # tilte_segment
     ): [data for data in fn(samples)]
 
 
diff --git a/applications/question_answering/faq_finance/data.py b/applications/question_answering/faq_finance/data.py
@@ -208,5 +208,6 @@ def word_repetition(input_ids, token_type_ids, dup_rate=0.32):
         repetitied_input_ids[batch_id] += [0] * pad_len
         repetitied_token_type_ids[batch_id] += [0] * pad_len
 
-    return paddle.to_tensor(repetitied_input_ids), paddle.to_tensor(
-        repetitied_token_type_ids)
+    return paddle.to_tensor(
+        repetitied_input_ids, dtype='int64'), paddle.to_tensor(
+            repetitied_token_type_ids, dtype='int64')
diff --git a/applications/question_answering/faq_finance/deploy/python/web_service.py b/applications/question_answering/faq_finance/deploy/python/web_service.py
@@ -51,8 +51,8 @@ def preprocess(self, input_dicts, data_id, log_id):
                                                      self.tokenizer)
             examples.append((input_ids, segment_ids))
         batchify_fn = lambda samples, fn=Tuple(
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # segment
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"),  # input
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"),  # segment
         ): fn(samples)
         input_ids, segment_ids = batchify_fn(examples)
         feed_dict = {}
diff --git a/applications/question_answering/faq_finance/evaluate.py b/applications/question_answering/faq_finance/evaluate.py
@@ -66,8 +66,6 @@ def recall(rs, N=10):
                 relevance_labels = []
 
             text, recalled_text, cosine_sim = line.rstrip().split("\t")
-            if text == recalled_text:
-                continue
             if text2similar[text] == recalled_text:
                 relevance_labels.append(1)
             else:
diff --git a/applications/question_answering/faq_finance/train.py b/applications/question_answering/faq_finance/train.py
@@ -117,10 +117,10 @@ def do_train():
         max_seq_length=args.max_seq_length)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # query_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # query_segment
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # title_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # tilte_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # query_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # query_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # title_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # tilte_segment
     ): [data for data in fn(samples)]
 
 
diff --git a/applications/question_answering/faq_system/data.py b/applications/question_answering/faq_system/data.py
@@ -207,5 +207,6 @@ def word_repetition(input_ids, token_type_ids, dup_rate=0.32):
         repetitied_input_ids[batch_id] += [0] * pad_len
         repetitied_token_type_ids[batch_id] += [0] * pad_len
 
-    return paddle.to_tensor(repetitied_input_ids), paddle.to_tensor(
-        repetitied_token_type_ids)
+    return paddle.to_tensor(
+        repetitied_input_ids, dtype='int64'), paddle.to_tensor(
+            repetitied_token_type_ids, dtype='int64')
diff --git a/applications/question_answering/faq_system/deploy/python/web_service.py b/applications/question_answering/faq_system/deploy/python/web_service.py
@@ -52,8 +52,8 @@ def preprocess(self, input_dicts, data_id, log_id):
                                                      self.tokenizer)
             examples.append((input_ids, segment_ids))
         batchify_fn = lambda samples, fn=Tuple(
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # input
-            Pad(axis=0, pad_val=self.tokenizer.pad_token_id),  # segment
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"),  # input
+            Pad(axis=0, pad_val=self.tokenizer.pad_token_id, dtype="int64"),  # segment
         ): fn(samples)
         input_ids, segment_ids = batchify_fn(examples)
         feed_dict = {}
diff --git a/applications/question_answering/faq_system/evaluate.py b/applications/question_answering/faq_system/evaluate.py
@@ -66,8 +66,6 @@ def recall(rs, N=10):
                 relevance_labels = []
 
             text, recalled_text, cosine_sim = line.rstrip().split("\t")
-            if text == recalled_text:
-                continue
             if text2similar[text] == recalled_text:
                 relevance_labels.append(1)
             else:
diff --git a/applications/question_answering/faq_system/train.py b/applications/question_answering/faq_system/train.py
@@ -117,10 +117,10 @@ def do_train():
         max_seq_length=args.max_seq_length)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # query_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # query_segment
-        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # title_input
-        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # tilte_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # query_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # query_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype="int64"),  # title_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype="int64"),  # tilte_segment
     ): [data for data in fn(samples)]