huggingface
diff --git a/‎docs/source/training_tutorials/finetune_llama.mdx‎
Lines changed: 2 additions & 2 deletions b/‎docs/source/training_tutorials/finetune_llama.mdx‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎docs/source/training_tutorials/finetune_qwen3.mdx‎
Lines changed: 2 additions & 2 deletions b/‎docs/source/training_tutorials/finetune_qwen3.mdx‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/training/llama/finetune_llama.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/training/llama/finetune_llama.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/training/qwen3/finetune_qwen3.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/training/qwen3/finetune_qwen3.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎optimum/neuron/trainers/sft_config.py‎
Lines changed: 22 additions & 2 deletions b/‎optimum/neuron/trainers/sft_config.py‎
Lines changed: 22 additions & 2 deletions
@@ -156,7 +156,7 @@ lora_config = LoraConfig(
 args = training_args.to_dict()
 
 sft_config = NeuronSFTConfig(
-    max_seq_length=2048,
+    max_length=2048,
     packing=True,
     **args,
 )
@@ -186,7 +186,7 @@ trainer = NeuronSFTTrainer(
     args=sft_config,
     model=model,
     peft_config=lora_config,
-    tokenizer=tokenizer,
+    processing_class=tokenizer,
     train_dataset=dataset,
     formatting_func=lambda example: format_dolly(example, tokenizer),
 )
 
@@ -164,7 +164,7 @@ lora_config = LoraConfig(
 args = training_args.to_dict()
 
 sft_config = NeuronSFTConfig(
-    max_seq_length=4096,
+    max_length=4096,
     packing=True,
     **args,
 )
@@ -181,7 +181,7 @@ dataset = preprocess_dataset_with_eos(tokenizer.eos_token)
      args=sft_config,
      model=model,
      peft_config=lora_config,
-     tokenizer=tokenizer,
+     processing_class=tokenizer,
      train_dataset=dataset,
      formatting_func=formatting_function,
  )
 
@@ -80,7 +80,7 @@ def train(model_id, tokenizer, dataset, training_args):
     args = training_args.to_dict()
 
     sft_config = NeuronSFTConfig(
-        max_seq_length=2048,
+        max_length=2048,
         packing=True,
         **args,
     )
@@ -91,7 +91,7 @@ def train(model_id, tokenizer, dataset, training_args):
         args=sft_config,
         model=model,
         peft_config=lora_config,
-        tokenizer=tokenizer,
+        processing_class=tokenizer,
         train_dataset=dataset,
         formatting_func=lambda example: format_dolly(example, tokenizer),
     )
 
@@ -84,7 +84,7 @@ def train(model_id, tokenizer, dataset, training_args):
     args = training_args.to_dict()
 
     sft_config = NeuronSFTConfig(
-        max_seq_length=4096,
+        max_length=4096,
         packing=True,
         **args,
     )
@@ -98,7 +98,7 @@ def formatting_function(examples):
         args=sft_config,
         model=model,
         peft_config=lora_config,
-        tokenizer=tokenizer,
+        processing_class=tokenizer,
         train_dataset=dataset,
         formatting_func=formatting_function,
     )
 
@@ -10,7 +10,7 @@
 # Unless required by applicable law or agreed to in writing, software
 # distributed under the License is distributed on an "AS IS" BASIS,
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# Seg the License for the specific language governing permissions and
+# See the License for the specific language governing permissions and
 # limitations under the License.
 
 from dataclasses import dataclass
@@ -32,4 +32,24 @@ def __init__(self, *args, **kwargs):
 
 @dataclass
 class NeuronSFTConfig(NeuronTrainingArguments, SFTConfig):
-    pass
+    """
+    Configuration class for Neuron-optimized SFT training.
+
+    Inherits from both NeuronTrainingArguments (for Trainium-specific settings) and
+    trl's SFTConfig (for SFT-specific settings).
+
+    Key Neuron-specific behavior:
+    - padding_free is always set to False to avoid recompilation on Trainium devices
+    - All other SFT parameters from trl 0.24.0+ are supported
+    """
+
+    def __post_init__(self):
+        # Handle max_seq_length -> max_length migration for backward compatibility
+        if hasattr(self, "max_seq_length") and self.max_seq_length is not None:
+            self.max_length = self.max_seq_length
+
+        # Force padding_free to False for Neuron - critical for avoiding recompilation
+        # Neuron devices require fixed input shapes; padding_free flattening breaks this requirement
+        self.padding_free = False
+
+        super().__post_init__()