modefied_for_test

tsinghua-zhang · tsinghua-zhang · commit a8a7011db893 · 2023-04-19T19:00:48.000+08:00
diff --git a/paddlenlp/prompt/prompt_model.py b/paddlenlp/prompt/prompt_model.py
@@ -263,13 +263,12 @@ def forward(
             hidden_states=model_outputs.logits,
         )
 
-    def generate(self, model_kwargs):
+    def generate(self, model_kwargs, **kwargs):
         self.plm.prepare_inputs_for_generation = self.prepare_inputs_for_generation
-        generated_tokens = self.plm.generate(**model_kwargs)
+        generated_tokens = self.plm.generate(**model_kwargs, **kwargs)
         return generated_tokens
 
     def prepare_inputs_for_generation(self, input_ids, use_cache=False, cache=None, **kwargs):
-
         model_kwargs = self.base_model_prepare_inputs_for_generation(input_ids, cache=None, **kwargs)
         model_kwargs["soft_token_ids"] = kwargs.get("soft_token_ids", None)
         model_kwargs["token_type_ids"] = kwargs.get("token_type_ids", None)
diff --git a/paddlenlp/prompt/prompt_tokenizer.py b/paddlenlp/prompt/prompt_tokenizer.py
@@ -43,6 +43,15 @@ def __call__(self, inputs: List[Dict[str, Any]]):
             # Create input_ids.
             soft_token_ids = part.get("soft_tokens", None)
             if soft_token_ids is None or len(soft_token_ids) == 1 and soft_token_ids[0] == 0:
+                if "generator_labels" in part:
+                    # import pdb; pdb.set_trace()
+                    encoded_inputs["labels"].append(
+                        self.tokenizer.encode(
+                            part["generator_labels"], add_special_tokens=False, return_token_type_ids=False
+                        )["input_ids"]
+                    )
+                    inputs.remove(part)
+                    continue
                 orig_input_ids.append(
                     self.tokenizer.encode(part["text"], add_special_tokens=False, return_token_type_ids=False)[
                         "input_ids"
@@ -61,8 +70,6 @@ def __call__(self, inputs: List[Dict[str, Any]]):
                 else:
                     input_ids = orig_input_ids[index][: max_lengths[index]]
                 encoded_inputs["soft_token_ids"].append([0] * len(input_ids))
-                if part["token_types"] == 1:
-                    encoded_inputs["labels"].append(input_ids)
             else:
                 input_ids = soft_token_ids
                 encoded_inputs["soft_token_ids"].append(soft_token_ids)
diff --git a/paddlenlp/prompt/template.py b/paddlenlp/prompt/template.py
@@ -251,7 +251,8 @@ def encode(self, example: Dict[str, Any]):
         inputs = []
         for value in list(zip(*input_values)):
             inputs.append(dict(zip(input_names, value)))
-
+        if "labels" in example and isinstance(example["labels"], str):
+            inputs.append({"generator_labels": example["labels"], "do_truncate": False})
         input_dict = self.prompt_tokenizer(inputs)
         unused_example = {k: v for k, v in example.items() if k not in self.example_keys}