PaddlePaddle
diff --git a/‎llm/README.md‎
Lines changed: 304 additions & 22 deletions b/‎llm/README.md‎
Lines changed: 304 additions & 22 deletions
diff --git a/‎llm/causallm/argument.py‎ renamed to ‎llm/argument.py‎
Lines changed: 13 additions & 18 deletions b/‎llm/causallm/argument.py‎ renamed to ‎llm/argument.py‎
Lines changed: 13 additions & 18 deletions
diff --git a/‎llm/bloom/README.md‎
Lines changed: 0 additions & 265 deletions b/‎llm/bloom/README.md‎
Lines changed: 0 additions & 265 deletions
@@ -27,7 +27,7 @@ class DataArgument:
     )
     intokens: bool = field(default=False, metadata={"help": "Whether to use InTokens data stream"})
     intokens_max_length: int = field(
-        default=1024,
+        default=2048,
         metadata={"help": "The max length for InTokens data stream. Only effective when intokens is True"},
     )
 
@@ -43,9 +43,6 @@ class ModelArgument:
     lora: bool = field(default=False, metadata={"help": "Whether to use LoRA technique"})
     lora_path: str = field(default=None, metadata={"help": "Initialize lora state dict."})
     lora_rank: int = field(default=8, metadata={"help": "Lora attention dimension"})
-    lora_merge_weights: bool = field(
-        default=False, metadata={"help": "Merge weights of the original model and the Lora model"}
-    )
 
     # prefix tuning related parameters
     prefix_tuning: bool = field(default=False, metadata={"help": "Whether to use Prefix technique"})
@@ -54,38 +51,41 @@ class ModelArgument:
 
 @dataclass
 class QuantArgument:
-    quant_type: str = field(default="A8W8", metadata={"help": "Quantization type. Supported values: A8W8, W4,A8W4"})
+    quant_type: str = field(
+        default="A8W8", metadata={"help": "Quantization type. Supported values: A8W8, WINT4,WINT8"}
+    )
 
     # QAT related parameters
+    # Not Yet support
     do_qat: bool = field(default=False, metadata={"help": "Whether to use QAT technique"})
 
-    # GPTQ related parameters
-    do_gptq: bool = field(default=False, metadata={"help": "Whether to use GPTQ"})
-    gptq_step: int = field(default=8, metadata={"help": "Step for GPTQ"})
-
     # PTQ related parameters
     do_ptq: bool = field(default=False, metadata={"help": "Whether to use PTQ"})
-    ptq_step: int = field(default=8, metadata={"help": "Step for PTQ"})
+    ptq_step: int = field(default=32, metadata={"help": "Step for PTQ"})
 
     shift: bool = field(default=False, metadata={"help": "Whether to use Shift"})
     shift_all_linears: bool = field(default=False, metadata={"help": "Whether to shift all linears"})
     shift_sampler: str = field(
         default="ema", metadata={"help": "The name of shift sampler, choosen from ['ema', 'none']"}
     )
-    shift_step: int = field(default=8, metadata={"help": "Sample steps when shift"})
+    shift_step: int = field(default=32, metadata={"help": "Sample steps when shift"})
 
     smooth: bool = field(default=False, metadata={"help": "Whether to use Smooth"})
     smooth_all_linears: bool = field(default=False, metadata={"help": "Whether to smooth all linears"})
     smooth_sampler: str = field(
         default="none", metadata={"help": "The name of smooth sampler, choosen from ['multi_step','none']"}
     )
-    smooth_step: int = field(default=8, metadata={"help": "Sample steps when smooth"})
+    smooth_step: int = field(default=32, metadata={"help": "Sample steps when smooth"})
     smooth_piecewise_search: bool = field(
         default=False, metadata={"help": "The number of piece in piecewise search for smooth strategy."}
     )
-    smooth_k_piece: int = field(default=6, metadata={"help": "Number of pieces for K-search"})
+    smooth_k_piece: int = field(default=3, metadata={"help": "Number of pieces for K-search"})
     smooth_search_piece: bool = field(default=False, metadata={"help": "Whether search k_piece when piecewise search"})
 
+    # GPTQ related parameters
+    do_gptq: bool = field(default=False, metadata={"help": "Whether to use GPTQ"})
+    gptq_step: int = field(default=8, metadata={"help": "Step for GPTQ"})
+
 
 @dataclass
 class GenerateArgument:
@@ -98,8 +98,3 @@ class GenerateArgument:
     top_p: float = field(
         default=1.0, metadata={"help": "The cumulative probability for top-p-filtering in the sampling strategy."}
     )
-    num_beams: int = field(default=1, metadata={"help": "The number of beams in the beam_search strategy."})
-    decode_strategy: str = field(default="sampling", metadata={"help": "The decoding strategy in generation."})
-    repetition_penalty: float = field(
-        default=1.0, metadata={"help": "The parameter for repetition penalty. 1.0 means no penalty."}
-    )