TransformerLensOrg
diff --git a/‎transformer_lens/model_bridge/supported_architectures/bert.py‎
Lines changed: 0 additions & 22 deletions b/‎transformer_lens/model_bridge/supported_architectures/bert.py‎
Lines changed: 0 additions & 22 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/bloom.py‎
Lines changed: 0 additions & 16 deletions b/‎transformer_lens/model_bridge/supported_architectures/bloom.py‎
Lines changed: 0 additions & 16 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/gemma1.py‎
Lines changed: 0 additions & 7 deletions b/‎transformer_lens/model_bridge/supported_architectures/gemma1.py‎
Lines changed: 0 additions & 7 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/gemma2.py‎
Lines changed: 0 additions & 7 deletions b/‎transformer_lens/model_bridge/supported_architectures/gemma2.py‎
Lines changed: 0 additions & 7 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/gpt2_lm_head_custom.py‎
Lines changed: 0 additions & 14 deletions b/‎transformer_lens/model_bridge/supported_architectures/gpt2_lm_head_custom.py‎
Lines changed: 0 additions & 14 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/gpt_oss.py‎
Lines changed: 0 additions & 8 deletions b/‎transformer_lens/model_bridge/supported_architectures/gpt_oss.py‎
Lines changed: 0 additions & 8 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/gptj.py‎
Lines changed: 0 additions & 11 deletions b/‎transformer_lens/model_bridge/supported_architectures/gptj.py‎
Lines changed: 0 additions & 11 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/llama.py‎
Lines changed: 0 additions & 8 deletions b/‎transformer_lens/model_bridge/supported_architectures/llama.py‎
Lines changed: 0 additions & 8 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/mingpt.py‎
Lines changed: 0 additions & 15 deletions b/‎transformer_lens/model_bridge/supported_architectures/mingpt.py‎
Lines changed: 0 additions & 15 deletions
diff --git a/‎transformer_lens/model_bridge/supported_architectures/mistral.py‎
Lines changed: 0 additions & 8 deletions b/‎transformer_lens/model_bridge/supported_architectures/mistral.py‎
Lines changed: 0 additions & 8 deletions
@@ -41,15 +41,6 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.attn_only = False
 
         self.weight_processing_conversions = {
-            "embed.e": "bert.embeddings.word_embeddings.weight",
-            "pos_embed.pos": "bert.embeddings.position_embeddings.weight",
-            "embed.token_type_embeddings": "bert.embeddings.token_type_embeddings.weight",
-            "embed.LayerNorm.weight": "bert.embeddings.LayerNorm.weight",
-            "embed.LayerNorm.bias": "bert.embeddings.LayerNorm.bias",
-            "blocks.{i}.ln1.w": "bert.encoder.layer.{i}.attention.output.LayerNorm.weight",
-            "blocks.{i}.ln1.b": "bert.encoder.layer.{i}.attention.output.LayerNorm.bias",
-            "blocks.{i}.ln2.w": "bert.encoder.layer.{i}.output.LayerNorm.weight",
-            "blocks.{i}.ln2.b": "bert.encoder.layer.{i}.output.LayerNorm.bias",
             "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(h d_head) d_model -> h d_head d_model"
@@ -86,19 +77,6 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="bert.encoder.layer.{i}.attention.output.dense.weight",
             ),
-            "blocks.{i}.attn.o.bias": "bert.encoder.layer.{i}.attention.output.dense.bias",
-            "blocks.{i}.mlp.in": "bert.encoder.layer.{i}.intermediate.dense.weight",
-            "blocks.{i}.mlp.b_in": "bert.encoder.layer.{i}.intermediate.dense.bias",
-            "blocks.{i}.mlp.out": "bert.encoder.layer.{i}.output.dense.weight",
-            "blocks.{i}.mlp.b_out": "bert.encoder.layer.{i}.output.dense.bias",
-            "ln_final.w": "bert.pooler.dense.weight",
-            "ln_final.b": "bert.pooler.dense.bias",
-            "unembed.u": "cls.predictions.transform.dense.weight",
-            "unembed.b_U": "cls.predictions.transform.dense.bias",
-            "unembed.LayerNorm.weight": "cls.predictions.transform.LayerNorm.weight",
-            "unembed.LayerNorm.bias": "cls.predictions.transform.LayerNorm.bias",
-            "unembed.decoder.weight": "cls.predictions.decoder.weight",
-            "unembed.decoder.bias": "cls.predictions.bias",
         }
 
         # Set up component mapping
 
@@ -36,9 +36,6 @@ def __init__(self, cfg: Any) -> None:
 
         self.cfg.default_prepend_bos = False
         self.weight_processing_conversions = {
-            "embed.e": "transformer.word_embeddings.weight",
-            "blocks.{i}.ln1.w": "transformer.h.{i}.input_layernorm.weight",
-            "blocks.{i}.ln1.b": "transformer.h.{i}.input_layernorm.bias",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "(three n h) m -> three n m h",
@@ -67,19 +64,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="transformer.h.{i}.self_attention.dense.weight",
             ),
-            "blocks.{i}.attn.b_Q": "transformer.h.{i}.self_attention.query_key_value.bias",
-            "blocks.{i}.attn.b_K": "transformer.h.{i}.self_attention.query_key_value.bias",
-            "blocks.{i}.attn.b_V": "transformer.h.{i}.self_attention.query_key_value.bias",
-            "blocks.{i}.attn.b_O": "transformer.h.{i}.self_attention.dense.bias",
-            "blocks.{i}.ln2.w": "transformer.h.{i}.post_attention_layernorm.weight",
-            "blocks.{i}.ln2.b": "transformer.h.{i}.post_attention_layernorm.bias",
-            "blocks.{i}.mlp.in": "transformer.h.{i}.mlp.dense_h_to_4h.weight",
-            "blocks.{i}.mlp.b_in": "transformer.h.{i}.mlp.dense_h_to_4h.bias",
-            "blocks.{i}.mlp.out": "transformer.h.{i}.mlp.dense_4h_to_h.weight",
-            "blocks.{i}.mlp.b_out": "transformer.h.{i}.mlp.dense_4h_to_h.bias",
-            "ln_final.w": "transformer.ln_f.weight",
-            "ln_final.b": "transformer.ln_f.bias",
-            "unembed.u": "lm_head.weight",
         }
 
         self.component_mapping = {
 
@@ -46,8 +46,6 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="model.embed_tokens.weight",
             ),
-            "blocks.{i}.ln1.w": "model.layers.{i}.input_layernorm.weight",
-            "blocks.{i}.ln2.w": "model.layers.{i}.post_attention_layernorm.weight",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.q_proj.weight",
@@ -64,11 +62,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
-            "blocks.{i}.mlp.in": "model.layers.{i}.mlp.up_proj.weight.T",
-            "blocks.{i}.mlp.gate": "model.layers.{i}.mlp.gate_proj.weight.T",
-            "blocks.{i}.mlp.out": "model.layers.{i}.mlp.down_proj.weight.T",
-            "ln_final.w": "model.norm.weight",
-            "unembed.u": "lm_head.weight.T",  # Not shared with embedding
         }
 
         self.component_mapping = {
 
@@ -49,8 +49,6 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="model.embed_tokens.weight",
             ),
-            "blocks.{i}.ln1.w": "model.layers.{i}.input_layernorm.weight",
-            "blocks.{i}.ln2.w": "model.layers.{i}.post_attention_layernorm.weight",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.q_proj.weight",
@@ -73,11 +71,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
-            "blocks.{i}.mlp.in": "model.layers.{i}.mlp.up_proj.weight.T",
-            "blocks.{i}.mlp.gate": "model.layers.{i}.mlp.gate_proj.weight.T",
-            "blocks.{i}.mlp.out": "model.layers.{i}.mlp.down_proj.weight.T",
-            "ln_final.w": "model.norm.weight",
-            "unembed.u": "lm_head.weight.T",  # Not shared with embedding
         }
 
         self.component_mapping = {
 
@@ -26,12 +26,6 @@ def __init__(self, cfg: Any) -> None:
         super().__init__(cfg)
 
         self.weight_processing_conversions = {
-            "pos_embed.pos": "transformer.wpe.weight",
-            "embed.e": "transformer.wte.weight",
-            "blocks.{i}.ln1.w": "transformer.h.{i}.ln_1.weight",
-            "blocks.{i}.ln1.b": "transformer.h.{i}.ln_1.bias",
-            "blocks.{i}.ln2.w": "transformer.h.{i}.ln_2.weight",
-            "blocks.{i}.ln2.b": "transformer.h.{i}.ln_2.bias",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model (n d_head) -> n d_model d_head"
@@ -68,14 +62,6 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="transformer.h.{i}.attn.c_proj.weight",
             ),
-            "blocks.{i}.attn.b_O": "transformer.h.{i}.attn.c_proj.bias",
-            "blocks.{i}.mlp.in": "transformer.h.{i}.mlp.c_fc.weight",
-            "blocks.{i}.mlp.b_in": "transformer.h.{i}.mlp.c_fc.bias",
-            "blocks.{i}.mlp.out": "transformer.h.{i}.mlp.c_proj.weight",
-            "blocks.{i}.mlp.b_out": "transformer.h.{i}.mlp.c_proj.bias",
-            "ln_final.w": "transformer.ln_f.weight",
-            "ln_final.b": "transformer.ln_f.bias",
-            "unembed.u": "lm_head.weight",
             # "unembed.b_U": "lm_head.bias", # gpt2 has no unembed bias
         }
 
 
@@ -39,9 +39,6 @@ def __init__(self, cfg: Any) -> None:
         # Conversion rules for weight processing/folding
         # GPT-OSS uses MoE with batched experts, so we need special handling
         self.weight_processing_conversions = {
-            "embed.e": "model.embed_tokens.weight",
-            "blocks.{i}.ln1.w": "model.layers.{i}.input_layernorm.weight",
-            "blocks.{i}.ln2.w": "model.layers.{i}.post_attention_layernorm.weight",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.q_proj.weight",
@@ -58,11 +55,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
-            # Note: MLP weights for MoE models with batched experts are not directly mappable
-            # The experts use batched tensors [num_experts, ...] which need special handling
-            # These mappings are for the router only
-            "ln_final.w": "model.norm.weight",
-            "unembed.u": "lm_head.weight.T",
         }
 
         self.component_mapping = {
 
@@ -33,9 +33,6 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.attn_only = False
 
         self.weight_processing_conversions = {
-            "embed.e": "transformer.wte.weight",
-            "blocks.{i}.ln1.w": "transformer.h.{i}.ln_1.weight",
-            "blocks.{i}.ln1.b": "transformer.h.{i}.ln_1.bias",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
                 source_key="transformer.h.{i}.attn.q_proj.weight",
@@ -52,14 +49,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="transformer.h.{i}.attn.out_proj.weight",
             ),
-            "blocks.{i}.mlp.in": "transformer.h.{i}.mlp.fc_in.weight",
-            "blocks.{i}.mlp.b_in": "transformer.h.{i}.mlp.fc_in.bias",
-            "blocks.{i}.mlp.out": "transformer.h.{i}.mlp.fc_out.weight",
-            "blocks.{i}.mlp.b_out": "transformer.h.{i}.mlp.fc_out.bias",
-            "ln_final.w": "transformer.ln_f.weight",
-            "ln_final.b": "transformer.ln_f.bias",
-            "unembed.u": "lm_head.weight",
-            "unembed.b_U": "lm_head.bias",
         }
 
         self.component_mapping = {
 
@@ -71,9 +71,6 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.eps_attr = "variance_epsilon"
 
         self.weight_processing_conversions = {
-            "embed.e": "model.embed_tokens.weight",
-            "blocks.{i}.ln1.w": "model.layers.{i}.input_layernorm.weight",
-            "blocks.{i}.ln2.w": "model.layers.{i}.post_attention_layernorm.weight",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.q_proj.weight",
@@ -96,11 +93,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
-            "blocks.{i}.mlp.in": "model.layers.{i}.mlp.up_proj.weight.T",
-            "blocks.{i}.mlp.gate": "model.layers.{i}.mlp.gate_proj.weight.T",
-            "blocks.{i}.mlp.out": "model.layers.{i}.mlp.down_proj.weight.T",
-            "ln_final.w": "model.norm.weight",
-            "unembed.u": "lm_head.weight.T",  # Not shared with embedding
         }
 
         self.component_mapping = {
 
@@ -31,12 +31,6 @@ def __init__(self, cfg: Any) -> None:
         super().__init__(cfg)
 
         self.weight_processing_conversions = {
-            "pos_embed.pos": "transformer.wpe.weight",
-            "embed.e": "transformer.wte.weight",
-            "blocks.{i}.ln1.w": "transformer.h.{i}.ln_1.weight",
-            "blocks.{i}.ln1.b": "transformer.h.{i}.ln_1.bias",
-            "blocks.{i}.ln2.w": "transformer.h.{i}.ln_2.weight",
-            "blocks.{i}.ln2.b": "transformer.h.{i}.ln_2.bias",
             "blocks.{i}.attn.q.weight": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion(
                     "d_model (3 n_head d_head) -> 3 n_head d_head d_model"
@@ -73,15 +67,6 @@ def __init__(self, cfg: Any) -> None:
                 ),
                 source_key="transformer.h.{i}.attn.c_proj.weight",
             ),
-            "blocks.{i}.attn.o.bias": "transformer.h.{i}.attn.c_proj.bias",
-            "blocks.{i}.mlp.in": "transformer.h.{i}.mlp.c_fc.weight",
-            "blocks.{i}.mlp.b_in": "transformer.h.{i}.mlp.c_fc.bias",
-            "blocks.{i}.mlp.out": "transformer.h.{i}.mlp.c_proj.weight",
-            "blocks.{i}.mlp.b_out": "transformer.h.{i}.mlp.c_proj.bias",
-            "unembed.u": "lm_head.weight",
-            "unembed.b_U": "lm_head.bias",
-            "ln_final.w": "transformer.ln_f.weight",
-            "ln_final.b": "transformer.ln_f.bias",
         }
 
         # Set up component mapping
 
@@ -45,9 +45,6 @@ def __init__(self, cfg: Any) -> None:
         self.cfg.uses_rms_norm = True
 
         self.weight_processing_conversions = {
-            "embed.e": "model.embed_tokens.weight",
-            "blocks.{i}.ln1.w": "model.layers.{i}.input_layernorm.weight",
-            "blocks.{i}.ln2.w": "model.layers.{i}.post_attention_layernorm.weight",
             "blocks.{i}.attn.q": ParamProcessingConversion(
                 tensor_conversion=RearrangeTensorConversion("(n h) m -> n m h", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.q_proj.weight",
@@ -68,11 +65,6 @@ def __init__(self, cfg: Any) -> None:
                 tensor_conversion=RearrangeTensorConversion("m (n h) -> n h m", n=self.cfg.n_heads),
                 source_key="model.layers.{i}.self_attn.o_proj.weight",
             ),
-            "blocks.{i}.mlp.in": "model.layers.{i}.mlp.up_proj.weight.T",
-            "blocks.{i}.mlp.gate": "model.layers.{i}.mlp.gate_proj.weight.T",
-            "blocks.{i}.mlp.out": "model.layers.{i}.mlp.down_proj.weight.T",
-            "ln_final.w": "model.norm.weight",
-            "unembed.u": "lm_head.weight.T",  # Not shared with embedding
         }
 
         self.component_mapping = {