Merge pull request #1919 from LemonNoel/fix_star

LemonNoel · web-flow · commit 2e236dbe9c8d · 2022-04-08T17:35:04.000+08:00
[ehealth] fix syntax for python 3.9
diff --git a/examples/biomedical/cblue/train_spo.py b/examples/biomedical/cblue/train_spo.py
@@ -128,9 +128,8 @@ def batchify_fn(data):
         }): fn(samples)
         ent_label = [x['ent_label'] for x in data]
         spo_label = [x['spo_label'] for x in data]
-        # data = input_ids, token_type_ids, position_ids, attention_mask
-        data = _batchify_fn(data)
-        batch_size, batch_len = data[0].shape
+        input_ids, token_type_ids, position_ids, masks = _batchify_fn(data)
+        batch_size, batch_len = input_ids.shape
         num_classes = len(train_ds.label_list)
         # Create one-hot labels.
         #
@@ -176,7 +175,7 @@ def batchify_fn(data):
         # xxx_label are used for metric computation.
         ent_label = [one_hot_ent_label, ent_label]
         spo_label = [one_hot_spo_label, spo_label]
-        return (*data), ent_label, spo_label
+        return input_ids, token_type_ids, position_ids, masks, ent_label, spo_label
 
     train_data_loader = create_dataloader(
         train_ds,
diff --git a/paddlenlp/datasets/cblue.py b/paddlenlp/datasets/cblue.py
@@ -316,7 +316,7 @@ def _read(self, filename, split):
         with open(filename, 'r', encoding='utf-8') as f:
             if self.name == 'CMeIE':
                 for line in f.readlines():
-                    data = json.loads(line, encoding='urf-8')
+                    data = json.loads(line)
                     labels = self.get_labels()
                     label_map = dict([(x, i) for i, x in enumerate(labels)])
                     data_list = data.get('spo_list', [])
@@ -353,7 +353,7 @@ def _read(self, filename, split):
 
                     yield data
             elif self.name == 'CMeEE':
-                data_list = json.load(f, encoding='utf-8')
+                data_list = json.load(f)
                 for data in data_list:
                     text_len = len(data[input_keys[0]])
                     if data.get('entities', None):
@@ -386,7 +386,7 @@ def _read(self, filename, split):
                     data = dict([(k, v) for k, v in zip(data_keys, data)])
                     yield data
             else:
-                data_list = json.load(f, encoding='utf-8')
+                data_list = json.load(f)
                 for data in data_list:
                     if data.get('normalized_result', None):
                         data['labels'] = [