Update default LR scheduler to cosine with 0.5 cycles

sbassam · sbassam · commit f8a3fa56e535 · 2025-06-09T11:13:35.000-04:00
- Change default lr_scheduler_type from 'linear' to 'cosine' in finetune.py
- Update CLI default to use cosine scheduler
- Maintains backward compatibility for explicit scheduler specification
diff --git a/src/together/cli/api/finetune.py b/src/together/cli/api/finetune.py
@@ -82,7 +82,7 @@ def fine_tuning(ctx: click.Context) -> None:
 @click.option(
     "--lr-scheduler-type",
     type=click.Choice(["linear", "cosine"]),
-    default="linear",
+    default="cosine",
     help="Learning rate scheduler type",
 )
 @click.option(
diff --git a/src/together/resources/finetune.py b/src/together/resources/finetune.py
@@ -53,7 +53,7 @@ def create_finetune_request(
     n_checkpoints: int | None = 1,
     batch_size: int | Literal["max"] = "max",
     learning_rate: float | None = 0.00001,
-    lr_scheduler_type: Literal["linear", "cosine"] = "linear",
+    lr_scheduler_type: Literal["linear", "cosine"] = "cosine",
     min_lr_ratio: float = 0.0,
     scheduler_num_cycles: float = 0.5,
     warmup_ratio: float | None = None,
@@ -276,7 +276,7 @@ def create(
         n_checkpoints: int | None = 1,
         batch_size: int | Literal["max"] = "max",
         learning_rate: float | None = 0.00001,
-        lr_scheduler_type: Literal["linear", "cosine"] = "linear",
+        lr_scheduler_type: Literal["linear", "cosine"] = "cosine",
         min_lr_ratio: float = 0.0,
         scheduler_num_cycles: float = 0.5,
         warmup_ratio: float = 0.0,
@@ -313,7 +313,7 @@ def create(
             batch_size (int or "max"): Batch size for fine-tuning. Defaults to max.
             learning_rate (float, optional): Learning rate multiplier to use for training
                 Defaults to 0.00001.
-            lr_scheduler_type (Literal["linear", "cosine"]): Learning rate scheduler type. Defaults to "linear".
+            lr_scheduler_type (Literal["linear", "cosine"]): Learning rate scheduler type. Defaults to "cosine".
             min_lr_ratio (float, optional): Min learning rate ratio of the initial learning rate for
                 the learning rate scheduler. Defaults to 0.0.
             scheduler_num_cycles (float, optional): Number or fraction of cycles for the cosine learning rate scheduler. Defaults to 0.5.
@@ -688,7 +688,7 @@ async def create(
         n_checkpoints: int | None = 1,
         batch_size: int | Literal["max"] = "max",
         learning_rate: float | None = 0.00001,
-        lr_scheduler_type: Literal["linear", "cosine"] = "linear",
+        lr_scheduler_type: Literal["linear", "cosine"] = "cosine",
         min_lr_ratio: float = 0.0,
         scheduler_num_cycles: float = 0.5,
         warmup_ratio: float = 0.0,
@@ -725,7 +725,7 @@ async def create(
             batch_size (int, optional): Batch size for fine-tuning. Defaults to max.
             learning_rate (float, optional): Learning rate multiplier to use for training
                 Defaults to 0.00001.
-            lr_scheduler_type (Literal["linear", "cosine"]): Learning rate scheduler type. Defaults to "linear".
+            lr_scheduler_type (Literal["linear", "cosine"]): Learning rate scheduler type. Defaults to "cosine".
             min_lr_ratio (float, optional): Min learning rate ratio of the initial learning rate for
                 the learning rate scheduler. Defaults to 0.0.
             scheduler_num_cycles (float, optional): Number or fraction of cycles for the cosine learning rate scheduler. Defaults to 0.5.

Original file line number	Diff line number	Diff line change
`@@ -82,7 +82,7 @@ def fine_tuning(ctx: click.Context) -> None:`
`82`	`82`	`@click.option(`
`83`	`83`	`"--lr-scheduler-type",`
`84`	`84`	`type=click.Choice(["linear", "cosine"]),`
`85`		`- default="linear",`
	`85`	`+ default="cosine",`
`86`	`86`	`help="Learning rate scheduler type",`
`87`	`87`	`)`
`88`	`88`	`@click.option(`