lowered input, target token length

codinglabsong · codinglabsong · commit 04b2608255ac · 2025-07-03T09:48:57.000-07:00
diff --git a/src/bart_reddit_lora/data.py b/src/bart_reddit_lora/data.py
@@ -192,8 +192,8 @@ def split_and_save(df, out_dir: Union[str, Path]):
 def tokenize_and_format(
     ds: DatasetDict,
     checkpoint: str = "facebook/bart-base",
-    max_input_length: int = 1024,  # max 1024 224
-    max_target_length: int = 800,  # max 1024
+    max_input_length: int = 512,  # max 1024 1024
+    max_target_length: int = 128,  # max 1024 800
 ) -> Tuple[DatasetDict, AutoTokenizer]:
     tok = AutoTokenizer.from_pretrained(checkpoint)
 
diff --git a/src/bart_reddit_lora/train.py b/src/bart_reddit_lora/train.py
@@ -46,7 +46,7 @@ class CustomTrainingArgs(Seq2SeqTrainingArguments):
         default="outputs/bart-base-reddit-lora",
         metadata={"help": "Prefix folder for all checkpoints/run logs."},
     )
-    num_train_epochs: int = 6
+    num_train_epochs: int = 12
     per_device_train_batch_size: int = 8
     per_device_eval_batch_size: int = 16
     learning_rate: float = 6e-5

Original file line number	Diff line number	Diff line change
`@@ -46,7 +46,7 @@ class CustomTrainingArgs(Seq2SeqTrainingArguments):`
`46`	`46`	`default="outputs/bart-base-reddit-lora",`
`47`	`47`	`metadata={"help": "Prefix folder for all checkpoints/run logs."},`
`48`	`48`	`)`
`49`		`- num_train_epochs: int = 6`
	`49`	`+ num_train_epochs: int = 12`
`50`	`50`	`per_device_train_batch_size: int = 8`
`51`	`51`	`per_device_eval_batch_size: int = 16`
`52`	`52`	`learning_rate: float = 6e-5`