Removed tokenizer/processor creation from example scripts (#4211)

sergiopaniego · web-flow · commit ae6837f8d4a8 · 2025-10-06T18:40:18.000+02:00
diff --git a/examples/scripts/dpo_vlm.py b/examples/scripts/dpo_vlm.py
@@ -85,7 +85,7 @@
     script_args, training_args, model_args = parser.parse_args_and_config()
 
     ################
-    # Model & Tokenizer
+    # Model & Processor
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
 
@@ -117,7 +117,6 @@
     processor = AutoProcessor.from_pretrained(
         model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code, do_image_splitting=False
     )
-    tokenizer = processor.tokenizer
 
     # Set up the chat template
     if model.config.model_type == "idefics2":
@@ -127,8 +126,6 @@
     elif model.config.model_type == "llava":
         processor.chat_template = """{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{% if message['role'] == 'user' %}USER: {% else %}ASSISTANT: {% endif %}{% for item in message['content'] %}{% if item['type'] == 'text' %}{{ item['text'] }}{% elif item['type'] == 'image' %}<image>{% endif %}{% endfor %}{% if message['role'] == 'user' %} {% else %}{{eos_token}}{% endif %}{% endfor %}{% if add_generation_prompt %}ASSISTANT: {% endif %}"""
 
-    if tokenizer.pad_token is None:
-        tokenizer.pad_token = tokenizer.eos_token
     if script_args.ignore_bias_buffers:
         # torch distributed hack
         model._ddp_params_and_buffers_to_ignore = [
@@ -153,7 +150,6 @@
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
-        processing_class=processor,
         peft_config=peft_config,
     )
 
diff --git a/examples/scripts/grpo_vlm.py b/examples/scripts/grpo_vlm.py
@@ -94,7 +94,7 @@
     parser = TrlParser((ScriptArguments, GRPOConfig, ModelConfig))
     script_args, training_args, model_args = parser.parse_args_and_config()
     ################
-    # Model & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     training_args.model_init_kwargs = dict(
diff --git a/examples/scripts/gspo_vlm.py b/examples/scripts/gspo_vlm.py
@@ -81,7 +81,7 @@
     parser = TrlParser((ScriptArguments, GRPOConfig, ModelConfig))
     script_args, training_args, model_args = parser.parse_args_and_config()
     ################
-    # Model & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     training_args.model_init_kwargs = dict(
diff --git a/examples/scripts/mpo_vlm.py b/examples/scripts/mpo_vlm.py
@@ -46,7 +46,7 @@
 import torch
 from datasets import load_dataset
 from PIL import Image
-from transformers import AutoModelForImageTextToText, AutoProcessor
+from transformers import AutoModelForImageTextToText
 
 from trl import (
     DPOConfig,
@@ -97,9 +97,6 @@
         )
     else:
         ref_model = None
-    processor = AutoProcessor.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code
-    )
 
     ################
     # Dataset
@@ -135,7 +132,6 @@ def ensure_rgb(example):
         args=training_args,
         train_dataset=train_dataset,
         eval_dataset=test_dataset,
-        processing_class=processor,
         peft_config=peft_config,
     )
 
diff --git a/examples/scripts/reward_modeling.py b/examples/scripts/reward_modeling.py
@@ -57,7 +57,7 @@
 import torch
 from accelerate import logging
 from datasets import load_dataset
-from transformers import AutoModelForSequenceClassification, AutoTokenizer, HfArgumentParser
+from transformers import AutoModelForSequenceClassification, HfArgumentParser
 
 from trl import (
     ModelConfig,
@@ -97,18 +97,9 @@
         model_kwargs["device_map"] = get_kbit_device_map()
         model_kwargs["quantization_config"] = quantization_config
 
-    tokenizer = AutoTokenizer.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code, use_fast=True
-    )
     model = AutoModelForSequenceClassification.from_pretrained(
         model_args.model_name_or_path, num_labels=1, trust_remote_code=model_args.trust_remote_code, **model_kwargs
     )
-    # Align padding tokens between tokenizer and model
-    model.config.pad_token_id = tokenizer.pad_token_id
-
-    # If post-training a base model, use ChatML as the default template
-    if tokenizer.chat_template is None:
-        model, tokenizer = setup_chat_format(model, tokenizer)
 
     if model_args.use_peft and model_args.lora_task_type != "SEQ_CLS":
         logger.warning(
@@ -126,7 +117,6 @@
     ##########
     trainer = RewardTrainer(
         model=model,
-        processing_class=tokenizer,
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
diff --git a/examples/scripts/rloo_vlm.py b/examples/scripts/rloo_vlm.py
@@ -94,7 +94,7 @@
     parser = TrlParser((ScriptArguments, RLOOConfig, ModelConfig))
     script_args, training_args, model_args = parser.parse_args_and_config()
     ################
-    # Model & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     training_args.model_init_kwargs = dict(
diff --git a/examples/scripts/sft_gpt_oss.py b/examples/scripts/sft_gpt_oss.py
@@ -52,7 +52,7 @@
 import os
 
 from datasets import load_dataset
-from transformers import AutoModelForCausalLM, AutoTokenizer, Mxfp4Config
+from transformers import AutoModelForCausalLM, Mxfp4Config
 
 from trl import ModelConfig, ScriptArguments, SFTConfig, SFTTrainer, TrlParser, get_peft_config
 
@@ -62,7 +62,7 @@
 
 
 def main(script_args, training_args, model_args):
-    # Load model & tokenizer
+    # Load model
     quantization_config = Mxfp4Config(dequantize=True)
     model_kwargs = dict(
         revision=model_args.model_revision,
@@ -75,7 +75,6 @@ def main(script_args, training_args, model_args):
 
     model = AutoModelForCausalLM.from_pretrained(model_args.model_name_or_path, **model_kwargs)
 
-    tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path)
 
     # Load dataset
     dataset = load_dataset(script_args.dataset_name, name=script_args.dataset_config)
@@ -86,7 +85,6 @@ def main(script_args, training_args, model_args):
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
-        processing_class=tokenizer,
         peft_config=get_peft_config(model_args),
     )
 
diff --git a/examples/scripts/sft_video_llm.py b/examples/scripts/sft_video_llm.py
@@ -62,7 +62,7 @@
 from datasets import load_dataset
 from peft import LoraConfig
 from qwen_vl_utils import process_vision_info
-from transformers import AutoModelForImageTextToText, AutoProcessor, BitsAndBytesConfig, Qwen2VLProcessor
+from transformers import AutoModelForImageTextToText, BitsAndBytesConfig, Qwen2VLProcessor
 
 from trl import ModelConfig, ScriptArguments, SFTConfig, SFTTrainer, TrlParser, get_kbit_device_map
 
@@ -224,10 +224,6 @@ class CustomScriptArguments(ScriptArguments):
         model.config.use_reentrant = False
         model.enable_input_require_grads()
 
-    processor = AutoProcessor.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code
-    )
-
     # Prepare dataset
     prepared_dataset = [prepare_dataset(example, script_args.video_cache_dir) for example in dataset]
 
@@ -238,7 +234,6 @@ class CustomScriptArguments(ScriptArguments):
         train_dataset=prepared_dataset,
         data_collator=collate_fn,
         peft_config=peft_config,
-        processing_class=processor,
     )
 
     # Train model
@@ -248,8 +243,6 @@ class CustomScriptArguments(ScriptArguments):
     trainer.save_model(training_args.output_dir)
     if training_args.push_to_hub:
         trainer.push_to_hub(dataset_name=script_args.dataset_name)
-        if trainer.accelerator.is_main_process:
-            processor.push_to_hub(training_args.hub_model_id)
 
     # Cleanup
     del model
diff --git a/examples/scripts/sft_vlm.py b/examples/scripts/sft_vlm.py
@@ -82,7 +82,7 @@
     training_args.max_length = None
 
     ################
-    # Model, Tokenizer & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     model_kwargs = dict(
diff --git a/examples/scripts/sft_vlm_gemma3.py b/examples/scripts/sft_vlm_gemma3.py
@@ -147,7 +147,7 @@ def main():
     training_args.max_length = None
 
     ################
-    # Model, Tokenizer & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     model_kwargs = dict(
diff --git a/trl/scripts/dpo.py b/trl/scripts/dpo.py
@@ -67,7 +67,7 @@
 import torch
 from accelerate import logging
 from datasets import load_dataset
-from transformers import AutoModelForCausalLM, AutoTokenizer
+from transformers import AutoModelForCausalLM
 
 from trl import (
     DatasetMixtureConfig,
@@ -92,7 +92,7 @@
 
 def main(script_args, training_args, model_args, dataset_args):
     ################
-    # Model & Tokenizer
+    # Model
     ###################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     model_kwargs = dict(
@@ -116,13 +116,6 @@ def main(script_args, training_args, model_args, dataset_args):
         )
     else:
         ref_model = None
-    tokenizer = AutoTokenizer.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code
-    )
-    if tokenizer.pad_token is None:
-        tokenizer.pad_token = tokenizer.eos_token
-    if tokenizer.chat_template is None:
-        tokenizer.chat_template = SIMPLE_CHAT_TEMPLATE
     if script_args.ignore_bias_buffers:
         # torch distributed hack
         model._ddp_params_and_buffers_to_ignore = [
@@ -152,7 +145,6 @@ def main(script_args, training_args, model_args, dataset_args):
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
-        processing_class=tokenizer,
         peft_config=peft_config,
     )