Qwen3 adapter (#1138)

bryce13950 · jlarson4 · web-flow · commit 20a57dd95555 · 2025-11-23T09:00:34.000+01:00
* Removed all attributes of  which directly mapped keys. These attributes are now handled by the component mapping Bridge classes

* Remove source keys where they have been made redundant by the bridges

* Formatting update

* Remove source keys where they have been made redundant by the bridges

* created qwen 3 adapter

---------

Co-authored-by: jlarson &lt;jlarson@equity-creative.com&gt;
diff --git a/transformer_lens/factories/architecture_adapter_factory.py b/transformer_lens/factories/architecture_adapter_factory.py
@@ -27,6 +27,7 @@
     Phi3ArchitectureAdapter,
     PhiArchitectureAdapter,
     Qwen2ArchitectureAdapter,
+    Qwen3ArchitectureAdapter,
     QwenArchitectureAdapter,
     T5ArchitectureAdapter,
 )
@@ -54,6 +55,7 @@
     "Phi3ForCausalLM": Phi3ArchitectureAdapter,
     "QwenForCausalLM": QwenArchitectureAdapter,
     "Qwen2ForCausalLM": Qwen2ArchitectureAdapter,
+    "Qwen3ForCausalLM": Qwen3ArchitectureAdapter,
     "T5ForConditionalGeneration": T5ArchitectureAdapter,
     "NanoGPTForCausalLM": NanogptArchitectureAdapter,
     "MinGPTForCausalLM": MingptArchitectureAdapter,
diff --git a/transformer_lens/model_bridge/sources/transformers.py b/transformer_lens/model_bridge/sources/transformers.py
@@ -145,6 +145,7 @@ def determine_architecture_from_hf_config(hf_config):
             "phi3": "Phi3ForCausalLM",
             "qwen": "QwenForCausalLM",
             "qwen2": "Qwen2ForCausalLM",
+            "qwen3": "Qwen3ForCausalLM",
             "t5": "T5ForConditionalGeneration",
         }
         if model_type in model_type_mappings:
diff --git a/transformer_lens/model_bridge/supported_architectures/__init__.py b/transformer_lens/model_bridge/supported_architectures/__init__.py
@@ -70,6 +70,9 @@
 from transformer_lens.model_bridge.supported_architectures.qwen2 import (
     Qwen2ArchitectureAdapter,
 )
+from transformer_lens.model_bridge.supported_architectures.qwen3 import (
+    Qwen3ArchitectureAdapter,
+)
 from transformer_lens.model_bridge.supported_architectures.t5 import (
     T5ArchitectureAdapter,
 )
@@ -97,5 +100,6 @@
     "PythiaArchitectureAdapter",
     "QwenArchitectureAdapter",
     "Qwen2ArchitectureAdapter",
+    "Qwen3ArchitectureAdapter",
     "T5ArchitectureAdapter",
 ]
diff --git a/transformer_lens/model_bridge/supported_architectures/bert.py b/transformer_lens/model_bridge/supported_architectures/bert.py
@@ -45,37 +45,30 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
                 ),
-                source_key="bert.encoder.layer.{i}.attention.self.query.weight",
             ),
             "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
                 ),
-                source_key="bert.encoder.layer.{i}.attention.self.key.weight",
             ),
             "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
                 ),
-                source_key="bert.encoder.layer.{i}.attention.self.value.weight",
             ),
             "blocks.{i}.attn.q.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(h d_head) -> h d_head"),
-                source_key="bert.encoder.layer.{i}.attention.self.query.bias",
             ),
             "blocks.{i}.attn.k.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(h d_head) -> h d_head"),
-                source_key="bert.encoder.layer.{i}.attention.self.key.bias",
             ),
             "blocks.{i}.attn.v.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(h d_head) -> h d_head"),
-                source_key="bert.encoder.layer.{i}.attention.self.value.bias",
             ),
             "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model (h d_head) -> h d_head d_model"
                 ),
-                source_key="bert.encoder.layer.{i}.attention.output.dense.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/gemma1.py b/transformer_lens/model_bridge/supported_architectures/gemma1.py
@@ -46,21 +46,17 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="model.embed_tokens.weight",
             ),
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/gemma2.py b/transformer_lens/model_bridge/supported_architectures/gemma2.py
@@ -49,27 +49,23 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="model.embed_tokens.weight",
             ),
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(n h) m -> n m h",
                     n=getattr(self.cfg, "n_key_value_heads", self.cfg.n_heads),
                 ),
-                source_key="model.layers.{i}.self_attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(n h) m -> n m h",
                     n=getattr(self.cfg, "n_key_value_heads", self.cfg.n_heads),
                 ),
-                source_key="model.layers.{i}.self_attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/gpt_oss.py b/transformer_lens/model_bridge/supported_architectures/gpt_oss.py
@@ -39,21 +39,17 @@ def __init__(self, cfg: Any) -> None:
         # Conversion rules for weight processing/folding
         # GPT-OSS uses MoE with batched experts, so we need special handling
         self.weight_processing_conversions = {
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/gptj.py b/transformer_lens/model_bridge/supported_architectures/gptj.py
@@ -33,21 +33,17 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.attn_only = False
 
         self.weight_processing_conversions = {
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.out_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/llama.py b/transformer_lens/model_bridge/supported_architectures/llama.py
@@ -71,27 +71,23 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.eps_attr = "variance_epsilon"
 
         self.weight_processing_conversions = {
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(n h) m -> n m h",
                     n=getattr(self.cfg, "n_key_value_heads", self.cfg.n_heads),
                 ),
-                source_key="model.layers.{i}.self_attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(n h) m -> n m h",
                     n=getattr(self.cfg, "n_key_value_heads", self.cfg.n_heads),
                 ),
-                source_key="model.layers.{i}.self_attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/mistral.py b/transformer_lens/model_bridge/supported_architectures/mistral.py
@@ -45,25 +45,21 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.uses_rms_norm = True
 
         self.weight_processing_conversions = {
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(n h) m -> n m h", n=self.cfg.n_key_value_heads
                 ),
-                source_key="model.layers.{i}.self_attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(n h) m -> n m h", n=self.cfg.n_key_value_heads
                 ),
-                source_key="model.layers.{i}.self_attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/mixtral.py b/transformer_lens/model_bridge/supported_architectures/mixtral.py
@@ -40,37 +40,30 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
                 ),
-                source_key="model.layers.{i}.self_attn.q_proj.weight",
             ),
             "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
                 ),
-                source_key="model.layers.{i}.self_attn.k_proj.weight",
             ),
             "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
                 ),
-                source_key="model.layers.{i}.self_attn.v_proj.weight",
             ),
             "blocks.{i}.attn.q.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(h d_head) -> h d_head"),
-                source_key="model.layers.{i}.self_attn.q_proj.bias",
             ),
             "blocks.{i}.attn.k.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(h d_head) -> h d_head"),
-                source_key="model.layers.{i}.self_attn.k_proj.bias",
             ),
             "blocks.{i}.attn.v.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(h d_head) -> h d_head"),
-                source_key="model.layers.{i}.self_attn.v_proj.bias",
             ),
             "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model (h d_head) -> h d_head d_model"
                 ),
-                source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/neel_solu_old.py b/transformer_lens/model_bridge/supported_architectures/neel_solu_old.py
@@ -31,29 +31,25 @@ def __init__(self, cfg: Any) -> None:
         super().__init__(cfg)
 
         self.weight_processing_conversions = {
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model n_head d_head -> n_head d_model d_head"
                 ),
-                source_key="blocks.{i}.attn.W_Q",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model n_head d_head -> n_head d_model d_head"
                 ),
-                source_key="blocks.{i}.attn.W_K",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model n_head d_head -> n_head d_model d_head"
                 ),
-                source_key="blocks.{i}.attn.W_V",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "n_head d_head d_model -> n_head d_head d_model"
                 ),
-                source_key="blocks.{i}.attn.W_O",
             ),
         }
         self.component_mapping = {
diff --git a/transformer_lens/model_bridge/supported_architectures/neo.py b/transformer_lens/model_bridge/supported_architectures/neo.py
@@ -92,46 +92,38 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=NeoLinearTransposeConversion(
                     "d_model (n h) -> n d_model h", n=self.cfg.n_heads
                 ),
-                source_key="transformer.h.{i}.attn.attention.q_proj.weight",
             ),
             "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=NeoLinearTransposeConversion(
                     "d_model (n h) -> n d_model h", n=self.cfg.n_heads
                 ),
-                source_key="transformer.h.{i}.attn.attention.k_proj.weight",
             ),
             "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=NeoLinearTransposeConversion(
                     "d_model (n h) -> n d_model h", n=self.cfg.n_heads
                 ),
-                source_key="transformer.h.{i}.attn.attention.v_proj.weight",
             ),
             "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=NeoLinearTransposeConversion(
                     "(n h) d_model -> n h d_model", n=self.cfg.n_heads
                 ),
-                source_key="transformer.h.{i}.attn.attention.out_proj.weight",
             ),
             # Property access keys - for MLP
-            "blocks.{i}.mlp.W_in": ParamProcessingConversion(
+            "blocks.{i}.mlp.in.weight": ParamProcessingConversion(
                 tensor_conversion=NeoLinearTransposeConversion(),  # Just transpose, no rearrange needed,
                 source_key="transformer.h.{i}.mlp.c_fc.weight",
             ),
-            "blocks.{i}.mlp.W_out": ParamProcessingConversion(
+            "blocks.{i}.mlp.out.weight": ParamProcessingConversion(
                 tensor_conversion=NeoLinearTransposeConversion(),  # Just transpose, no rearrange needed,
-                source_key="transformer.h.{i}.mlp.c_proj.weight",
             ),
             "blocks.{i}.attn.q.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) -> n h", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.attention.q_proj.bias",
             ),
             "blocks.{i}.attn.k.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) -> n h", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.attention.k_proj.bias",
             ),
             "blocks.{i}.attn.v.bias": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) -> n h", n=self.cfg.n_heads),
-                source_key="transformer.h.{i}.attn.attention.v_proj.bias",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/opt.py b/transformer_lens/model_bridge/supported_architectures/opt.py
@@ -36,21 +36,17 @@ def __init__(self, cfg: Any) -> None:
         # OPT models were trained with BOS tokens (inherits default_prepend_bos = True)
 
         self.weight_processing_conversions = {
-            "blocks.{i}.attn.q": ParamProcessingConversion(
+            "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.decoder.layers.{i}.self_attn.q_proj.weight",
             ),
-            "blocks.{i}.attn.k": ParamProcessingConversion(
+            "blocks.{i}.attn.k.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.decoder.layers.{i}.self_attn.k_proj.weight",
             ),
-            "blocks.{i}.attn.v": ParamProcessingConversion(
+            "blocks.{i}.attn.v.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
-                source_key="model.decoder.layers.{i}.self_attn.v_proj.weight",
             ),
-            "blocks.{i}.attn.o": ParamProcessingConversion(
+            "blocks.{i}.attn.o.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
-                source_key="model.decoder.layers.{i}.self_attn.out_proj.weight",
             ),
         }
 
diff --git a/transformer_lens/model_bridge/supported_architectures/qwen2.py b/transformer_lens/model_bridge/supported_architectures/qwen2.py
diff --git a/transformer_lens/model_bridge/supported_architectures/qwen3.py b/transformer_lens/model_bridge/supported_architectures/qwen3.py

Original file line number	Diff line number	Diff line change
`@@ -145,6 +145,7 @@ def determine_architecture_from_hf_config(hf_config):`
`145`	`145`	`"phi3": "Phi3ForCausalLM",`
`146`	`146`	`"qwen": "QwenForCausalLM",`
`147`	`147`	`"qwen2": "Qwen2ForCausalLM",`
	`148`	`+ "qwen3": "Qwen3ForCausalLM",`
`148`	`149`	`"t5": "T5ForConditionalGeneration",`
`149`	`150`	`}`
`150`	`151`	`if model_type in model_type_mappings:`
Original file line number	Diff line number	Diff line change
`@@ -70,6 +70,9 @@`
`70`	`70`	`from transformer_lens.model_bridge.supported_architectures.qwen2 import (`
`71`	`71`	`Qwen2ArchitectureAdapter,`
`72`	`72`	`)`
	`73`	`+from transformer_lens.model_bridge.supported_architectures.qwen3 import (`
	`74`	`+ Qwen3ArchitectureAdapter,`
	`75`	`+)`
`73`	`76`	`from transformer_lens.model_bridge.supported_architectures.t5 import (`
`74`	`77`	`T5ArchitectureAdapter,`
`75`	`78`	`)`
`@@ -97,5 +100,6 @@`
`97`	`100`	`"PythiaArchitectureAdapter",`
`98`	`101`	`"QwenArchitectureAdapter",`
`99`	`102`	`"Qwen2ArchitectureAdapter",`
	`103`	`+ "Qwen3ArchitectureAdapter",`
`100`	`104`	`"T5ArchitectureAdapter",`
`101`	`105`	`]`