diff --git a/‎test/convergence/bf16/test_mini_models.py‎
Lines changed: 47 additions & 7 deletions b/‎test/convergence/bf16/test_mini_models.py‎
Lines changed: 47 additions & 7 deletions
diff --git a/‎test/convergence/bf16/test_mini_models_multimodal.py‎
Lines changed: 53 additions & 10 deletions b/‎test/convergence/bf16/test_mini_models_multimodal.py‎
Lines changed: 53 additions & 10 deletions
@@ -4,8 +4,10 @@
 
 import pytest
 import torch
+import transformers
 
 from datasets import load_from_disk
+from packaging import version
 from torch.utils.data import DataLoader
 from transformers.models.gemma import GemmaConfig
 from transformers.models.gemma import GemmaForCausalLM
@@ -53,6 +55,7 @@
 from liger_kernel.transformers import apply_liger_kernel_to_qwen3_vl
 from liger_kernel.transformers import apply_liger_kernel_to_qwen3_vl_moe
 from liger_kernel.transformers import apply_liger_kernel_to_smollm3
+from liger_kernel.utils import infer_device
 from test.utils import DEFAULT_DATASET_PATH
 from test.utils import MiniModelConfig
 from test.utils import assert_verbose_allclose
@@ -94,6 +97,8 @@
 from test.utils import simple_collate_fn
 from test.utils import supports_bfloat16
 
+IS_TRANSFORMERS_V5_OR_LATER = version.parse(transformers.__version__) >= version.parse("5.0.0")
+
 try:
     from transformers.models.llama4.configuration_llama4 import Llama4TextConfig
     from transformers.models.llama4.modeling_llama4 import Llama4ForCausalLM
@@ -307,7 +312,6 @@
 except ImportError:
     EXAONE4_AVAILABLE = False
 
-from liger_kernel.utils import infer_device
 
 device = infer_device()
 
@@ -702,6 +706,16 @@
             use_cache=True,
             vocab_size=32000,  # 128256,
             attn_implementation="sdpa",  # default value, pytorch native attention
+            rope_scaling=dict(
+                factor=8.0,
+                high_freq_factor=4.0,
+                low_freq_factor=1.0,
+                original_max_position_embeddings=8192,
+                rope_type="llama3",
+                rope_theta=500_000,
+            )
+            if not IS_TRANSFORMERS_V5_OR_LATER
+            else None,
         ),
     )
 
@@ -728,9 +742,11 @@
                 "num_hidden_layers": 4,  # 80
                 "num_key_value_heads": 2,  # 8
                 "rms_norm_eps": 1e-6,  # 1e-5
-                "rope_parameters": {
-                    "mrope_section": [16, 24, 24],  # (temporal, height, width)
-                },
+                **(
+                    {"rope_parameters": {"mrope_section": [16, 24, 24]}}  # (temporal, height, width)
+                    if IS_TRANSFORMERS_V5_OR_LATER
+                    else {"rope_scaling": {"type": "mrope", "mrope_section": [16, 24, 24]}}
+                ),
                 "sliding_window": 4096,
                 "tie_word_embeddings": False,
                 "use_cache": True,
@@ -779,9 +795,11 @@
                 "num_hidden_layers": 4,  # 80
                 "num_key_value_heads": 2,  # 8
                 "rms_norm_eps": 1e-6,  # 1e-5
-                "rope_parameters": {
-                    "mrope_section": [16, 24, 24],  # (temporal, height, width)
-                },
+                **(
+                    {"rope_parameters": {"mrope_section": [16, 24, 24]}}  # (temporal, height, width)
+                    if IS_TRANSFORMERS_V5_OR_LATER
+                    else {"rope_scaling": {"type": "mrope", "mrope_section": [16, 24, 24]}}
+                ),
                 "sliding_window": 4096,
                 "tie_word_embeddings": False,
                 "use_cache": True,
@@ -839,6 +857,12 @@
                 rms_norm_eps=1e-6,
                 use_cache=True,
                 vocab_size=32768,
+                rope_scaling=dict(
+                    type="mrope",
+                    mrope_section=[16, 24, 24],  # (temporal, height, width)
+                )
+                if not IS_TRANSFORMERS_V5_OR_LATER
+                else None,
             ),
             vision_config=dict(
                 depth=4,
@@ -893,6 +917,12 @@
                 num_experts=4,
                 tie_word_embeddings=False,
                 mlp_only_layers=[],
+                rope_scaling=dict(
+                    type="mrope",
+                    mrope_section=[16, 24, 24],  # (temporal, height, width)
+                )
+                if not IS_TRANSFORMERS_V5_OR_LATER
+                else None,
             ).to_dict(),
             vision_config=Qwen3VLMoeVisionConfig(
                 depth=4,
@@ -1129,6 +1159,11 @@
                 "rms_norm_eps": 1e-5,
                 "vocab_size": 32000,
                 "attention_bias": True,
+                **(
+                    {"rope_scaling": {"type": "default", "mrope_section": [8, 12, 12]}}
+                    if not IS_TRANSFORMERS_V5_OR_LATER
+                    else {}
+                ),
             },
             vision_config={
                 "depth": 4,  # 32
@@ -1199,6 +1234,11 @@
                 "topk_group": 1,
                 "first_k_dense_replace": 1,
                 "norm_topk_prob": True,
+                **(
+                    {"rope_scaling": {"type": "default", "mrope_section": [8, 12, 12]}}
+                    if not IS_TRANSFORMERS_V5_OR_LATER
+                    else {}
+                ),
             },
             vision_config={
                 "depth": 4,  # 32
 
@@ -4,11 +4,12 @@
 os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"  # Ensure deterministic behavior with CuBLAS
 import pytest
 import torch
+import transformers
 
 from datasets import load_dataset
+from packaging import version
 from torch.utils.data import DataLoader
 from transformers import PreTrainedTokenizerFast
-from transformers.models.gemma.tokenization_gemma import GemmaTokenizer
 from transformers.models.siglip.configuration_siglip import SiglipVisionConfig
 
 from liger_kernel.transformers import apply_liger_kernel_to_gemma3
@@ -22,6 +23,7 @@
 from liger_kernel.transformers import apply_liger_kernel_to_qwen3_vl
 from liger_kernel.transformers import apply_liger_kernel_to_qwen3_vl_moe
 from liger_kernel.transformers import apply_liger_kernel_to_smolvlm
+from liger_kernel.utils import infer_device
 from test.utils import FAKE_CONFIGS_PATH
 from test.utils import UNTOKENIZED_DATASET_PATH
 from test.utils import MiniModelConfig
@@ -49,12 +51,23 @@
 from test.utils import supports_bfloat16
 from test.utils import train_bpe_tokenizer
 
+IS_TRANSFORMERS_V5_OR_LATER = version.parse(transformers.__version__) >= version.parse("5.0.0")
+
+if IS_TRANSFORMERS_V5_OR_LATER:
+    from transformers.models.gemma.tokenization_gemma import GemmaTokenizer
+else:
+    from transformers.models.gemma.tokenization_gemma_fast import GemmaTokenizerFast as GemmaTokenizer
+
 try:
     # Qwen2-VL is only available in transformers>=4.52.4
     import transformers
 
     from packaging import version
-    from transformers.models.qwen2.tokenization_qwen2 import Qwen2Tokenizer
+
+    if IS_TRANSFORMERS_V5_OR_LATER:
+        from transformers.models.qwen2.tokenization_qwen2 import Qwen2Tokenizer
+    else:
+        from transformers.models.qwen2.tokenization_qwen2_fast import Qwen2TokenizerFast as Qwen2Tokenizer
     from transformers.models.qwen2_vl.configuration_qwen2_vl import Qwen2VLConfig
     from transformers.models.qwen2_vl.image_processing_qwen2_vl import Qwen2VLImageProcessor
     from transformers.models.qwen2_vl.modeling_qwen2_vl import Qwen2VLForConditionalGeneration
@@ -70,7 +83,11 @@
     import transformers
 
     from packaging import version
-    from transformers.models.qwen2.tokenization_qwen2 import Qwen2Tokenizer
+
+    if IS_TRANSFORMERS_V5_OR_LATER:
+        from transformers.models.qwen2.tokenization_qwen2 import Qwen2Tokenizer
+    else:
+        from transformers.models.qwen2.tokenization_qwen2_fast import Qwen2TokenizerFast as Qwen2Tokenizer
     from transformers.models.qwen2_5_vl.configuration_qwen2_5_vl import Qwen2_5_VLConfig
     from transformers.models.qwen2_5_vl.modeling_qwen2_5_vl import Qwen2_5_VLForConditionalGeneration
     from transformers.models.qwen2_5_vl.processing_qwen2_5_vl import Qwen2_5_VLProcessor
@@ -82,7 +99,10 @@
     QWEN2_5_VL_AVAILABLE = False
 
 try:
-    from transformers.models.qwen2.tokenization_qwen2 import Qwen2Tokenizer
+    if IS_TRANSFORMERS_V5_OR_LATER:
+        from transformers.models.qwen2.tokenization_qwen2 import Qwen2Tokenizer
+    else:
+        from transformers.models.qwen2.tokenization_qwen2_fast import Qwen2TokenizerFast as Qwen2Tokenizer
     from transformers.models.qwen2_vl.image_processing_qwen2_vl import Qwen2VLImageProcessor
     from transformers.models.qwen3_vl.configuration_qwen3_vl import Qwen3VLConfig
     from transformers.models.qwen3_vl.configuration_qwen3_vl import Qwen3VLTextConfig
@@ -138,7 +158,6 @@
 
     from packaging import version
     from transformers.models.gemma.configuration_gemma import GemmaConfig
-    from transformers.models.gemma.tokenization_gemma import GemmaTokenizer
     from transformers.models.gemma2.configuration_gemma2 import Gemma2Config
     from transformers.models.paligemma.configuration_paligemma import PaliGemmaConfig
     from transformers.models.paligemma.modeling_paligemma import PaliGemmaForConditionalGeneration
@@ -209,7 +228,6 @@
 except ImportError:
     NUM2WORDS_AVAILABLE = False
 
-from liger_kernel.utils import infer_device
 
 device = infer_device()
 
@@ -314,6 +332,15 @@
                 num_hidden_layers=4,  # 40
                 num_key_value_heads=2,  # 8
                 rms_norm_eps=1e-5,
+                rope_scaling=dict(
+                    factor=8.0,
+                    high_freq_factor=4.0,
+                    low_freq_factor=1.0,
+                    original_max_position_embeddings=8192,
+                    rope_type="llama3",
+                )
+                if not IS_TRANSFORMERS_V5_OR_LATER
+                else None,
                 tie_word_embeddings=False,
                 use_cache=True,
                 vocab_size=32000,  # 128256,
@@ -491,8 +518,10 @@
             num_hidden_layers=4,  # 80
             num_key_value_heads=2,  # 8
             rms_norm_eps=1e-6,  # 1e-5
-            rope_parameters=dict(
-                mrope_section=[16, 24, 24],  # (temporal, height, width)
+            **(
+                dict(rope_parameters=dict(mrope_section=[16, 24, 24]))  # (temporal, height, width)
+                if IS_TRANSFORMERS_V5_OR_LATER
+                else dict(rope_scaling=dict(type="mrope", mrope_section=[16, 24, 24]))
             ),
             sliding_window=4096,
             tie_word_embeddings=True,
@@ -663,8 +692,10 @@
             num_hidden_layers=4,  # 80
             num_key_value_heads=2,  # 8
             rms_norm_eps=1e-6,  # 1e-5
-            rope_parameters=dict(
-                mrope_section=[16, 24, 24],  # (temporal, height, width)
+            **(
+                dict(rope_parameters=dict(mrope_section=[16, 24, 24]))  # (temporal, height, width)
+                if IS_TRANSFORMERS_V5_OR_LATER
+                else dict(rope_scaling=dict(type="mrope", mrope_section=[16, 24, 24]))
             ),
             sliding_window=4096,
             tie_word_embeddings=True,
@@ -723,6 +754,12 @@
                 rms_norm_eps=1e-6,
                 use_cache=False,
                 tie_word_embeddings=True,
+                rope_scaling=dict(
+                    type="mrope",
+                    mrope_section=[16, 24, 24],  # (temporal, height, width)
+                )
+                if not IS_TRANSFORMERS_V5_OR_LATER
+                else None,
                 attention_dropout=0.0,
                 attention_bias=False,
             ).to_dict(),
@@ -770,6 +807,12 @@
                 rms_norm_eps=1e-6,
                 use_cache=False,
                 tie_word_embeddings=True,
+                rope_scaling=dict(
+                    type="mrope",
+                    mrope_section=[16, 24, 24],  # (temporal, height, width)
+                )
+                if not IS_TRANSFORMERS_V5_OR_LATER
+                else None,
                 attention_dropout=0.0,
                 attention_bias=False,
                 decoder_sparse_step=1,