foldl
diff --git a/‎models/adept.cpp‎
Lines changed: 4 additions & 4 deletions b/‎models/adept.cpp‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎models/allenai.cpp‎
Lines changed: 4 additions & 4 deletions b/‎models/allenai.cpp‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎models/alphageo.cpp‎
Lines changed: 2 additions & 2 deletions b/‎models/alphageo.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎models/baichuan.cpp‎
Lines changed: 5 additions & 2 deletions b/‎models/baichuan.cpp‎
Lines changed: 5 additions & 2 deletions
diff --git a/‎models/chatglm.cpp‎
Lines changed: 4 additions & 5 deletions b/‎models/chatglm.cpp‎
Lines changed: 4 additions & 5 deletions
diff --git a/‎models/cohere.cpp‎
Lines changed: 9 additions & 6 deletions b/‎models/cohere.cpp‎
Lines changed: 9 additions & 6 deletions
diff --git a/‎models/decilm.cpp‎
Lines changed: 7 additions & 6 deletions b/‎models/decilm.cpp‎
Lines changed: 7 additions & 6 deletions
diff --git a/‎models/deepseek.cpp‎
Lines changed: 11 additions & 5 deletions b/‎models/deepseek.cpp‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎models/gemma.cpp‎
Lines changed: 19 additions & 12 deletions b/‎models/gemma.cpp‎
Lines changed: 19 additions & 12 deletions
@@ -372,12 +372,12 @@ namespace fuyu
         void before_generate(const GenerationConfig &gen_config) override
         {
             std::vector<uint8_t> buf;
-            auto &emb = dynamic_cast<ModelClass *>(transformer)->word_embeddings;
-            visual.generate(gen_config, dynamic_cast<Tokenizer *>(tokenizer), ggml::type_of(emb.weight), buf);
+            auto emb = dynamic_cast<Embedding *>(dynamic_cast<ModelClass *>(transformer)->word_embeddings);
+            visual.generate(gen_config, dynamic_cast<Tokenizer *>(tokenizer), ggml::type_of(emb->weight), buf);
             if (buf.size() < 1) return;
 
-            size_t offset = emb.get_base_nbytes();
-            Backend::write_tensor_data(emb.weight, buf.data(), offset, buf.size());
+            size_t offset = emb->get_base_nbytes();
+            Backend::write_tensor_data(emb->weight, buf.data(), offset, buf.size());
         }
 
     public:
 
@@ -140,7 +140,7 @@ namespace moe
         void load(ModelLoader &loader) override
         {
             auto transformer = get_typed_transformer<ModelClass>();
-            loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
+            transformer->word_embeddings->load("model.embed_tokens.", &loader);
             for (int i = 0; i < config.num_hidden_layers; i++)
             {
                 std::string layer_prefix = "model.layers." + std::to_string(Base::layer_ids[i]) + '.';
@@ -165,7 +165,7 @@ namespace moe
                 loader.read_tensor(layer_prefix + "self_attn.q_norm.weight", transformer->layers[i].attention.q_norm.weight);
                 loader.read_tensor(layer_prefix + "self_attn.k_norm.weight", transformer->layers[i].attention.k_norm.weight);
             }
-            loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+            transformer->final_layernorm->load("model.norm.", &loader);
             loader.read_tensor("lm_head.weight", dynamic_cast<Linear *>(transformer->lm_head)->weight);
 
             CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
@@ -228,7 +228,7 @@ namespace dense
         void load(ModelLoader &loader) override
         {
             auto transformer = get_typed_transformer<ModelClass>();
-            loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
+            transformer->word_embeddings->load("model.embed_tokens.", &loader);
             for (int i = 0; i < config.num_hidden_layers; i++)
             {
                 std::string layer_prefix = "model.layers." + std::to_string(Base::layer_ids[i]) + '.';
@@ -251,7 +251,7 @@ namespace dense
                 loader.read_tensor(layer_prefix + "self_attn.q_norm.weight", transformer->layers[i].attention.q_norm.weight);
                 loader.read_tensor(layer_prefix + "self_attn.k_norm.weight", transformer->layers[i].attention.k_norm.weight);
             }
-            loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+            transformer->final_layernorm->load("model.norm.", &loader);
             loader.read_tensor("lm_head.weight", dynamic_cast<Linear *>(transformer->lm_head)->weight);
 
             CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
 
@@ -558,7 +558,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
     {
         auto transformer = get_typed_transformer<ModelClass>();
 
-        loader.read_tensor("model.embed_tokens.weight",     transformer->word_embeddings.weight);
+        transformer->word_embeddings->load("model.embed_tokens.", &loader);
 
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
@@ -578,7 +578,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
             loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", transformer->layers[i].attention.v_proj.weight);
         }
 
-        loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+        transformer->final_layernorm->load("model.norm.", &loader);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
             << "corrupted model weights";
 
@@ -345,7 +345,7 @@ namespace m1
     class ConditionalGeneration : public BaseModelForConditionalGeneration
     {
     public:
-        typedef HeterogeneousModel<BaseConfig, Embedding, RMSNorm> ModelClass;
+        typedef HeterogeneousModel ModelClass;
 
     public:
         ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type = MODEL_TYPE_BAICHUAN_M1)
@@ -377,7 +377,10 @@ namespace m1
                 }
             };
 
-            transformer = new ModelClass(&w_ctx_, config, false, create_layer);
+            transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                create_embedding<Embedding>(&w_ctx_, config),
+                create_final_norm<RMSNorm>(&w_ctx_, config),
+                create_lm_head(&w_ctx_, config, false), create_layer);
 
             for (int i = 0; i < config.num_hidden_layers; i++)
             {
 
@@ -187,7 +187,7 @@ namespace v1
     {
         TransformerClass *transformer = dynamic_cast<TransformerClass *>(this->transformer);
 
-        loader.read_tensor("transformer.word_embeddings.weight", transformer->word_embeddings.weight);
+        transformer->word_embeddings->load("transformer.word_embeddings.", &loader);
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
             std::string layer_prefix = "transformer.layers." + std::to_string(layer_ids[i]) + '.';
@@ -208,8 +208,7 @@ namespace v1
             loader.read_tensor(layer_prefix + "mlp.dense_4h_to_h.weight", transformer->layers[i].mlp.fc1.weight);
             loader.read_tensor(layer_prefix + "mlp.dense_4h_to_h.bias", transformer->layers[i].mlp.fc1.bias);
         }
-        loader.read_tensor("transformer.final_layernorm.weight", transformer->final_layernorm.weight);
-        loader.read_tensor("transformer.final_layernorm.bias", transformer->final_layernorm.bias);
+        transformer->final_layernorm->load("transformer.final_layernorm.", &loader);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
             << "corrupted model weights";
@@ -339,7 +338,7 @@ namespace v2
     void ConditionalGeneration::load(ModelLoader &loader)
     {
         TransformerClass *transformer = dynamic_cast<TransformerClass *>(this->transformer);
-        loader.read_tensor("transformer.embedding.word_embeddings.weight", transformer->word_embeddings.weight);
+        transformer->word_embeddings->load("transformer.embedding.word_embeddings.", &loader);
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
             std::string layer_prefix = "transformer.encoder.layers." + std::to_string(layer_ids[i]) + '.';
@@ -354,7 +353,7 @@ namespace v2
             loader.read_tensor(layer_prefix + "mlp.dense_h_to_4h.weight", transformer->layers[i].mlp.dense_h_to_4h.weight);
             loader.read_tensor(layer_prefix + "mlp.dense_4h_to_h.weight", transformer->layers[i].mlp.dense_4h_to_h.weight);
         }
-        loader.read_tensor("transformer.encoder.final_layernorm.weight", transformer->final_layernorm.weight);
+        transformer->final_layernorm->load("transformer.encoder.final_layernorm.", &loader);
         loader.read_tensor("transformer.output_layer.weight", dynamic_cast<Linear *>(transformer->lm_head)->weight);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
 
@@ -108,7 +108,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
     {
         auto transformer = get_typed_transformer<ModelClass>();
 
-        loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
+        transformer->word_embeddings->load("model.embed_tokens.", &loader);
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
             std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';
@@ -122,7 +122,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
             loader.read_tensor(layer_prefix + "self_attn.q_proj.weight", transformer->layers[i].attention.q_proj.weight);
             loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", transformer->layers[i].attention.v_proj.weight);
         }
-        loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+        transformer->final_layernorm->load("model.norm.", &loader);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
             << "corrupted model weights";
@@ -234,7 +234,7 @@ namespace v2
     class ConditionalGeneration : public BaseModelForConditionalGeneration
     {
     public:
-        typedef HeterogeneousModel<BaseConfig, Embedding, LayerNormNoBias> ModelClass;
+        typedef HeterogeneousModel ModelClass;
         typedef Cohere2SWABlock<SLIDING_WINDOW_LEN> Cohere2SWABlock4k;
 
     public:
@@ -266,7 +266,10 @@ namespace v2
                 }
             };
 
-            transformer = new ModelClass(&w_ctx_, config, nullptr, create_layer);
+            transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                    create_embedding<Embedding>(&w_ctx_, config),
+                    create_final_norm<LayerNormNoBias>(&w_ctx_, config),
+                    nullptr, create_layer);
 
             for (int i = 0; i < config.num_hidden_layers; i++)
             {
@@ -295,7 +298,7 @@ namespace v2
                 loader.read_tensor(layer_prefix + "self_attn.q_proj.weight", layer->attention.q_proj.weight);         \
                 loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", layer->attention.v_proj.weight);
 
-            loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
+            transformer->word_embeddings->load("model.embed_tokens.", &loader);
             for (int i = 0; i < config.num_hidden_layers; i++)
             {
                 std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';
@@ -310,7 +313,7 @@ namespace v2
                     LOAD_TENSORS();
                 }
             }
-            loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+            transformer->final_layernorm->load("model.norm.", &loader);
 
             CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
                 << "corrupted model weights: " << w_ctx_.get_used_mem() / ggml_tensor_overhead() << " != " << w_ctx_.get_mem_size() / ggml_tensor_overhead();
 
@@ -19,7 +19,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
 {
 public:
     typedef BaseModelForConditionalGeneration Base;
-    typedef HeterogeneousModel<Config, Embedding, RMSNorm> ModelClass;
+    typedef HeterogeneousModel ModelClass;
 
 public:
     ConditionalGeneration() = default;
@@ -63,8 +63,10 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
             }
         };
 
-        transformer = new ModelClass(
-            &w_ctx_, config, false, create_layer);
+        transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                    create_embedding<Embedding>(&w_ctx_, config),
+                    create_final_norm<RMSNorm>(&w_ctx_, config),
+                    create_lm_head(&w_ctx_, config, false), create_layer);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
             << "corrupted model weights: " << w_ctx_.get_used_mem() / ggml_tensor_overhead() << " vs "
@@ -74,8 +76,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
     void load(ModelLoader &loader) override
     {
         auto transformer = get_typed_transformer<ModelClass>();
-        loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
-
+        transformer->word_embeddings->load("model.embed_tokens.", &loader);
 
         #define LOAD_MLP()                                                                              \
             loader.read_tensor(layer_prefix + "mlp.down_proj.weight", layer->mlp.down_proj.weight);     \
@@ -107,7 +108,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
             }
 
         }
-        loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+        transformer->final_layernorm->load("model.norm.", &loader);
 
         #undef LOAD_MLP
 
 
@@ -139,7 +139,7 @@ namespace v1_moe
         typedef CombinedMLP<DeepSeekSparseMoE<NUM_EXPERTS, EFFECTIVE_EXPERTS_PER_TOK>, SiLUMLP> DeepSeekMoEMLP;
         typedef LMBlock1<RMSNorm, LlamaSelfAttention, RMSNorm, DeepSeekMoEMLP> DeepSeekMoEBlock;
         typedef BaseModelForConditionalGeneration Base;
-        typedef HeterogeneousModel<Config, Embedding, RMSNorm> ModelClass;
+        typedef HeterogeneousModel ModelClass;
     public:
         ConditionalGeneration0() = default;
 
@@ -184,7 +184,11 @@ namespace v1_moe
                 }
             };
 
-            auto transformer = new ModelClass(&w_ctx_, config, false, create_layer);
+            auto transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                create_embedding<Embedding>(&w_ctx_, config),
+                create_final_norm<RMSNorm>(&w_ctx_, config),
+                create_lm_head(&w_ctx_, config, false), create_layer);
+
             Base::transformer = transformer;
 
             #define config_rope(attention)     do { \
@@ -683,7 +687,7 @@ namespace v2_light
         typedef CombinedMLP<DeepSeekSparseMoE<NUM_EXPERTS, EFFECTIVE_EXPERTS_PER_TOK>, SiLUMLP> DeepSeekMoEMLP;
         typedef LMBlock1<RMSNorm, SpeedMLAttention, RMSNorm, DeepSeekMoEMLP> DeepSeek2MoEBlock;
         typedef BaseModelForConditionalGeneration Base;
-        typedef HeterogeneousModel<Config, Embedding, RMSNorm> ModelClass;
+        typedef HeterogeneousModel ModelClass;
     public:
         ConditionalGeneration0() = default;
 
@@ -735,8 +739,10 @@ namespace v2_light
                 }
             };
 
-            auto transformer = new ModelClass(
-                &w_ctx_, config, false, create_layer);
+            auto transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                create_embedding<Embedding>(&w_ctx_, config),
+                create_final_norm<RMSNorm>(&w_ctx_, config),
+                create_lm_head(&w_ctx_, config, false), create_layer);
             Base::transformer = transformer;
 
             float m = 1.0f;
 
@@ -105,7 +105,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
     {
         auto transformer = get_typed_transformer<ModelClass>();
 
-        loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
+        transformer->word_embeddings->load("model.embed_tokens.", &loader);
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
             std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';
@@ -120,7 +120,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
             loader.read_tensor(layer_prefix + "self_attn.q_proj.weight", transformer->layers[i].attention.q_proj.weight);
             loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", transformer->layers[i].attention.v_proj.weight);
         }
-        loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+        transformer->final_layernorm->load("model.norm.", &loader);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
             << "corrupted model weights";
@@ -257,7 +257,7 @@ template <class Layer> static void load_layer(ModelLoader &loader, const std::st
 class ConditionalGeneration : public BaseModelForConditionalGeneration
 {
 public:
-    typedef HeterogeneousModel<BaseConfig, Embedding, RMSNorm> ModelClass;
+    typedef HeterogeneousModel ModelClass;
 public:
     ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type = MODEL_TYPE_GEMMA2)
         : BaseModelForConditionalGeneration(type, config, runtime_config), config(config),
@@ -286,7 +286,11 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
             }
         };
 
-        transformer = new ModelClass(&w_ctx_, config, nullptr, create_layer);
+        transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                    create_embedding<Embedding>(&w_ctx_, config),
+                    create_final_norm<RMSNorm>(&w_ctx_, config),
+                    nullptr,
+                    create_layer);
 
         get_typed_transformer<ModelClass>()->logits_pp = &logits_pp;
 
@@ -309,7 +313,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
     {
         auto transformer = get_typed_transformer<ModelClass>();
 
-        loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);
+        transformer->word_embeddings->load("model.embed_tokens.", &loader);
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
             std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';
@@ -322,7 +326,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
                 load_layer<Gemma2FullBlock>(loader, layer_prefix, transformer->get_layer(i));
             }
         }
-        loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);
+        transformer->final_layernorm->load("model.norm.", &loader);
 
         CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())
             << "corrupted model weights";
@@ -763,7 +767,7 @@ template <class Layer> static void setup_layer(Block *block, const Config &confi
 class ConditionalGeneration : public BaseModelForConditionalGeneration
 {
 public:
-    typedef HeterogeneousModel<BaseConfig, Embedding, RMSNorm> ModelClass;
+    typedef HeterogeneousModel ModelClass;
 public:
     ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type = MODEL_TYPE_GEMMA3)
         : BaseModelForConditionalGeneration(type, config, runtime_config, 4096 * 2), config(config),
@@ -804,7 +808,10 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
         BlockParams::PadEmbedding padding(1024, 1024); // 4 media_emb
         _chat_encoder.MAX_PATCH_NUM = padding.get();
 
-        transformer = new ModelClass(&w_ctx_, config, nullptr, create_layer);
+        transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,
+                    create_embedding<Embedding>(&w_ctx_, config),
+                    create_final_norm<RMSNorm>(&w_ctx_, config),
+                    nullptr, create_layer);
 
         for (int i = 0; i < config.num_hidden_layers; i++)
         {
@@ -856,12 +863,12 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration
     void before_generate(const GenerationConfig &gen_config) override
     {
         std::vector<uint8_t> buf;
-        auto &emb = dynamic_cast<ModelClass *>(transformer)->word_embeddings;
-        visual.generate(gen_config, dynamic_cast<Tokenizer *>(tokenizer), ggml::type_of(emb.weight), buf);
+        auto emb = dynamic_cast<Embedding *>(dynamic_cast<ModelClass *>(transformer)->word_embeddings);
+        visual.generate(gen_config, dynamic_cast<Tokenizer *>(tokenizer), ggml::type_of(emb->weight), buf);
         if (buf.size() < 1) return;
 
-        size_t offset = emb.get_base_nbytes();
-        Backend::write_tensor_data(emb.weight, buf.data(), offset, buf.size());
+        size_t offset = emb->get_base_nbytes();
+        Backend::write_tensor_data(emb->weight, buf.data(), offset, buf.size());
     }
 
 public:
Original file line number	Diff line number	Diff line change
`@@ -140,7 +140,7 @@ namespace moe`
`140`	`140`	`void load(ModelLoader &loader) override`
`141`	`141`	`{`
`142`	`142`	`auto transformer = get_typed_transformer<ModelClass>();`
`143`		`- loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);`
	`143`	`+ transformer->word_embeddings->load("model.embed_tokens.", &loader);`
`144`	`144`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`145`	`145`	`{`
`146`	`146`	`std::string layer_prefix = "model.layers." + std::to_string(Base::layer_ids[i]) + '.';`
`@@ -165,7 +165,7 @@ namespace moe`
`165`	`165`	`loader.read_tensor(layer_prefix + "self_attn.q_norm.weight", transformer->layers[i].attention.q_norm.weight);`
`166`	`166`	`loader.read_tensor(layer_prefix + "self_attn.k_norm.weight", transformer->layers[i].attention.k_norm.weight);`
`167`	`167`	`}`
`168`		`- loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);`
	`168`	`+ transformer->final_layernorm->load("model.norm.", &loader);`
`169`	`169`	`loader.read_tensor("lm_head.weight", dynamic_cast<Linear *>(transformer->lm_head)->weight);`
`170`	`170`
`171`	`171`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
`@@ -228,7 +228,7 @@ namespace dense`
`228`	`228`	`void load(ModelLoader &loader) override`
`229`	`229`	`{`
`230`	`230`	`auto transformer = get_typed_transformer<ModelClass>();`
`231`		`- loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);`
	`231`	`+ transformer->word_embeddings->load("model.embed_tokens.", &loader);`
`232`	`232`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`233`	`233`	`{`
`234`	`234`	`std::string layer_prefix = "model.layers." + std::to_string(Base::layer_ids[i]) + '.';`
`@@ -251,7 +251,7 @@ namespace dense`
`251`	`251`	`loader.read_tensor(layer_prefix + "self_attn.q_norm.weight", transformer->layers[i].attention.q_norm.weight);`
`252`	`252`	`loader.read_tensor(layer_prefix + "self_attn.k_norm.weight", transformer->layers[i].attention.k_norm.weight);`
`253`	`253`	`}`
`254`		`- loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);`
	`254`	`+ transformer->final_layernorm->load("model.norm.", &loader);`
`255`	`255`	`loader.read_tensor("lm_head.weight", dynamic_cast<Linear *>(transformer->lm_head)->weight);`
`256`	`256`
`257`	`257`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
Original file line number	Diff line number	Diff line change
`@@ -558,7 +558,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration`
`558`	`558`	`{`
`559`	`559`	`auto transformer = get_typed_transformer<ModelClass>();`
`560`	`560`
`561`		`- loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);`
	`561`	`+ transformer->word_embeddings->load("model.embed_tokens.", &loader);`
`562`	`562`
`563`	`563`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`564`	`564`	`{`
`@@ -578,7 +578,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration`
`578`	`578`	`loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", transformer->layers[i].attention.v_proj.weight);`
`579`	`579`	`}`
`580`	`580`
`581`		`- loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);`
	`581`	`+ transformer->final_layernorm->load("model.norm.", &loader);`
`582`	`582`
`583`	`583`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
`584`	`584`	`<< "corrupted model weights";`
Original file line number	Diff line number	Diff line change
`@@ -345,7 +345,7 @@ namespace m1`
`345`	`345`	`class ConditionalGeneration : public BaseModelForConditionalGeneration`
`346`	`346`	`{`
`347`	`347`	`public:`
`348`		`- typedef HeterogeneousModel<BaseConfig, Embedding, RMSNorm> ModelClass;`
	`348`	`+ typedef HeterogeneousModel ModelClass;`
`349`	`349`
`350`	`350`	`public:`
`351`	`351`	`ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type = MODEL_TYPE_BAICHUAN_M1)`
`@@ -377,7 +377,10 @@ namespace m1`
`377`	`377`	`}`
`378`	`378`	`};`
`379`	`379`
`380`		`- transformer = new ModelClass(&w_ctx_, config, false, create_layer);`
	`380`	`+ transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,`
	`381`	`+ create_embedding<Embedding>(&w_ctx_, config),`
	`382`	`+ create_final_norm<RMSNorm>(&w_ctx_, config),`
	`383`	`+ create_lm_head(&w_ctx_, config, false), create_layer);`
`381`	`384`
`382`	`385`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`383`	`386`	`{`
Original file line number	Diff line number	Diff line change
`@@ -187,7 +187,7 @@ namespace v1`
`187`	`187`	`{`
`188`	`188`	`TransformerClass transformer = dynamic_cast<TransformerClass >(this->transformer);`
`189`	`189`
`190`		`- loader.read_tensor("transformer.word_embeddings.weight", transformer->word_embeddings.weight);`
	`190`	`+ transformer->word_embeddings->load("transformer.word_embeddings.", &loader);`
`191`	`191`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`192`	`192`	`{`
`193`	`193`	`std::string layer_prefix = "transformer.layers." + std::to_string(layer_ids[i]) + '.';`
`@@ -208,8 +208,7 @@ namespace v1`
`208`	`208`	`loader.read_tensor(layer_prefix + "mlp.dense_4h_to_h.weight", transformer->layers[i].mlp.fc1.weight);`
`209`	`209`	`loader.read_tensor(layer_prefix + "mlp.dense_4h_to_h.bias", transformer->layers[i].mlp.fc1.bias);`
`210`	`210`	`}`
`211`		`- loader.read_tensor("transformer.final_layernorm.weight", transformer->final_layernorm.weight);`
`212`		`- loader.read_tensor("transformer.final_layernorm.bias", transformer->final_layernorm.bias);`
	`211`	`+ transformer->final_layernorm->load("transformer.final_layernorm.", &loader);`
`213`	`212`
`214`	`213`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
`215`	`214`	`<< "corrupted model weights";`
`@@ -339,7 +338,7 @@ namespace v2`
`339`	`338`	`void ConditionalGeneration::load(ModelLoader &loader)`
`340`	`339`	`{`
`341`	`340`	`TransformerClass transformer = dynamic_cast<TransformerClass >(this->transformer);`
`342`		`- loader.read_tensor("transformer.embedding.word_embeddings.weight", transformer->word_embeddings.weight);`
	`341`	`+ transformer->word_embeddings->load("transformer.embedding.word_embeddings.", &loader);`
`343`	`342`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`344`	`343`	`{`
`345`	`344`	`std::string layer_prefix = "transformer.encoder.layers." + std::to_string(layer_ids[i]) + '.';`
`@@ -354,7 +353,7 @@ namespace v2`
`354`	`353`	`loader.read_tensor(layer_prefix + "mlp.dense_h_to_4h.weight", transformer->layers[i].mlp.dense_h_to_4h.weight);`
`355`	`354`	`loader.read_tensor(layer_prefix + "mlp.dense_4h_to_h.weight", transformer->layers[i].mlp.dense_4h_to_h.weight);`
`356`	`355`	`}`
`357`		`- loader.read_tensor("transformer.encoder.final_layernorm.weight", transformer->final_layernorm.weight);`
	`356`	`+ transformer->final_layernorm->load("transformer.encoder.final_layernorm.", &loader);`
`358`	`357`	`loader.read_tensor("transformer.output_layer.weight", dynamic_cast<Linear *>(transformer->lm_head)->weight);`
`359`	`358`
`360`	`359`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
Original file line number	Diff line number	Diff line change
`@@ -108,7 +108,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration`
`108`	`108`	`{`
`109`	`109`	`auto transformer = get_typed_transformer<ModelClass>();`
`110`	`110`
`111`		`- loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);`
	`111`	`+ transformer->word_embeddings->load("model.embed_tokens.", &loader);`
`112`	`112`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`113`	`113`	`{`
`114`	`114`	`std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';`
`@@ -122,7 +122,7 @@ class ConditionalGeneration : public BaseModelForConditionalGeneration`
`122`	`122`	`loader.read_tensor(layer_prefix + "self_attn.q_proj.weight", transformer->layers[i].attention.q_proj.weight);`
`123`	`123`	`loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", transformer->layers[i].attention.v_proj.weight);`
`124`	`124`	`}`
`125`		`- loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);`
	`125`	`+ transformer->final_layernorm->load("model.norm.", &loader);`
`126`	`126`
`127`	`127`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
`128`	`128`	`<< "corrupted model weights";`
`@@ -234,7 +234,7 @@ namespace v2`
`234`	`234`	`class ConditionalGeneration : public BaseModelForConditionalGeneration`
`235`	`235`	`{`
`236`	`236`	`public:`
`237`		`- typedef HeterogeneousModel<BaseConfig, Embedding, LayerNormNoBias> ModelClass;`
	`237`	`+ typedef HeterogeneousModel ModelClass;`
`238`	`238`	`typedef Cohere2SWABlock<SLIDING_WINDOW_LEN> Cohere2SWABlock4k;`
`239`	`239`
`240`	`240`	`public:`
`@@ -266,7 +266,10 @@ namespace v2`
`266`	`266`	`}`
`267`	`267`	`};`
`268`	`268`
`269`		`- transformer = new ModelClass(&w_ctx_, config, nullptr, create_layer);`
	`269`	`+ transformer = new ModelClass(&w_ctx_, config.num_hidden_layers, config.hidden_size,`
	`270`	`+ create_embedding<Embedding>(&w_ctx_, config),`
	`271`	`+ create_final_norm<LayerNormNoBias>(&w_ctx_, config),`
	`272`	`+ nullptr, create_layer);`
`270`	`273`
`271`	`274`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`272`	`275`	`{`
`@@ -295,7 +298,7 @@ namespace v2`
`295`	`298`	`loader.read_tensor(layer_prefix + "self_attn.q_proj.weight", layer->attention.q_proj.weight); \`
`296`	`299`	`loader.read_tensor(layer_prefix + "self_attn.v_proj.weight", layer->attention.v_proj.weight);`
`297`	`300`
`298`		`- loader.read_tensor("model.embed_tokens.weight", transformer->word_embeddings.weight);`
	`301`	`+ transformer->word_embeddings->load("model.embed_tokens.", &loader);`
`299`	`302`	`for (int i = 0; i < config.num_hidden_layers; i++)`
`300`	`303`	`{`
`301`	`304`	`std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';`
`@@ -310,7 +313,7 @@ namespace v2`
`310`	`313`	`LOAD_TENSORS();`
`311`	`314`	`}`
`312`	`315`	`}`
`313`		`- loader.read_tensor("model.norm.weight", transformer->final_layernorm.weight);`
	`316`	`+ transformer->final_layernorm->load("model.norm.", &loader);`
`314`	`317`
`315`	`318`	`CHATLLM_CHECK(w_ctx_.get_used_mem() == w_ctx_.get_mem_size())`
`316`	`319`	`<< "corrupted model weights: " << w_ctx_.get_used_mem() / ggml_tensor_overhead() << " != " << w_ctx_.get_mem_size() / ggml_tensor_overhead();`