refactor models (#612)

sufubao · shihaobai · web-flow · commit 1e1ee31f2c59 · 2024-11-21T23:12:00.000+08:00
Co-authored-by: baishihao &lt;baishihao@sensetime.com&gt;
diff --git a/lightllm/models/bloom/layer_infer/transformer_layer_infer.py b/lightllm/models/bloom/layer_infer/transformer_layer_infer.py
@@ -98,7 +98,7 @@ def _get_o(self, input, infer_state: InferStateInfo, layer_weight: BloomTransfor
         return o_tensor
 
     def _ffn(self, input, infer_state: InferStateInfo, layer_weight: BloomTransformerLayerWeight) -> torch.Tensor:
-        ffn1_out = layer_weight.up_proj.mm(input.view(-1, self.embed_dim_))
+        ffn1_out = layer_weight.gate_up_proj.mm(input.view(-1, self.embed_dim_))
         input = None
         gelu_out = torch.nn.functional.gelu(ffn1_out, approximate="tanh")
         ffn1_out = None
diff --git a/lightllm/models/bloom/layer_weights/transformer_layer_weight.py b/lightllm/models/bloom/layer_weights/transformer_layer_weight.py
@@ -49,46 +49,51 @@ def get_slopes_power_of_2(n):
 
 class BloomTransformerLayerWeight(LlamaTransformerLayerWeight):
     def __init__(self, layer_num, tp_rank, world_size, data_type, network_config, mode, quant_cfg=None):
-        super().__init__(layer_num, tp_rank, world_size, data_type, network_config, mode, quant_cfg, layer_prefix="h")
+        super().__init__(layer_num, tp_rank, world_size, data_type, network_config, mode, quant_cfg)
         return
 
-    def _init_config(self):
+    def _parse_config(self):
         self.n_embed = self.network_config_["n_embed"]
         self.n_head = self.network_config_["num_attention_heads"]
         self.n_inter = self.network_config_["n_embed"] * 4
         self.n_kv_head = self.network_config_["num_attention_heads"]
         self.head_dim = self.network_config_.get("head_dim", self.n_embed // self.n_head)
+        # 计算生成alibi
+        assert self.n_head % self.world_size_ == 0
+        tp_head_num = self.n_head // self.world_size_
+        tmp_alibi = generate_alibi(self.n_head, dtype=torch.float32)
+        self.tp_alibi = tmp_alibi[self.tp_rank_ * tp_head_num : (self.tp_rank_ + 1) * tp_head_num].contiguous().cuda()
 
     def _init_weight_names(self):
-        self._q_weight_name = f"{self.layer_name}.self_attention.q_proj.weight"
-        self._q_bias_name = f"{self.layer_name}.self_attention.q_proj.bias"
-        self._k_weight_name = f"{self.layer_name}.self_attention.k_proj.weight"
-        self._k_bias_name = f"{self.layer_name}.self_attention.k_proj.bias"
-        self._v_weight_name = f"{self.layer_name}.self_attention.v_proj.weight"
-        self._v_bias_name = f"{self.layer_name}.self_attention.v_proj.bias"
-        self._o_weight_name = f"{self.layer_name}.self_attention.o_proj.weight"
-        self._o_bias_name = f"{self.layer_name}.self_attention.o_proj.bias"
-
-        self._up_weight_name = f"{self.layer_name}.mlp.dense_h_to_4h.weight"
-        self._up_bias_name = f"{self.layer_name}.mlp.dense_h_to_4h.bias"
-        self._down_weight_name = f"{self.layer_name}.mlp.dense_4h_to_h.weight"
-        self._down_bias_name = f"{self.layer_name}.mlp.dense_4h_to_h.bias"
-
-        self.att_norm_weight_name = f"{self.layer_name}.input_layernorm.weight"
-        self.att_norm_bias_name = f"{self.layer_name}.input_layernorm.bias"
-        self.ffn_norm_weight_name = f"{self.layer_name}.post_attention_layernorm.weight"
-        self.ffn_norm_bias_name = f"{self.layer_name}.post_attention_layernorm.bias"
+        self._q_weight_name = f"h.{self.layer_num_}.self_attention.q_proj.weight"
+        self._q_bias_name = f"h.{self.layer_num_}.self_attention.q_proj.bias"
+        self._k_weight_name = f"h.{self.layer_num_}.self_attention.k_proj.weight"
+        self._k_bias_name = f"h.{self.layer_num_}.self_attention.k_proj.bias"
+        self._v_weight_name = f"h.{self.layer_num_}.self_attention.v_proj.weight"
+        self._v_bias_name = f"h.{self.layer_num_}.self_attention.v_proj.bias"
+        self._o_weight_name = f"h.{self.layer_num_}.self_attention.dense.weight"
+        self._o_bias_name = f"h.{self.layer_num_}.self_attention.dense.bias"
+
+        self._gate_up_weight_name = f"h.{self.layer_num_}.mlp.dense_h_to_4h.weight"
+        self._gate_up_bias_name = f"h.{self.layer_num_}.mlp.dense_h_to_4h.bias"
+        self._down_weight_name = f"h.{self.layer_num_}.mlp.dense_4h_to_h.weight"
+        self._down_bias_name = f"h.{self.layer_num_}.mlp.dense_4h_to_h.bias"
+
+        self._att_norm_weight_name = f"h.{self.layer_num_}.input_layernorm.weight"
+        self._att_norm_bias_name = f"h.{self.layer_num_}.input_layernorm.bias"
+        self._ffn_norm_weight_name = f"h.{self.layer_num_}.post_attention_layernorm.weight"
+        self._ffn_norm_bias_name = f"h.{self.layer_num_}.post_attention_layernorm.bias"
 
     def _preprocess_weight(self, weights):
-        qkv_weight_name = f"{self.layer_name}.self_attention.query_key_value.weight"
+        qkv_weight_name = f"h.{self.layer_num_}.self_attention.query_key_value.weight"
         if qkv_weight_name in weights:
             att_qkv_dense_weight = weights[qkv_weight_name].reshape(self.n_head, 3, -1, self.n_embed)
             weights[self._q_weight_name] = att_qkv_dense_weight[:, 0, :, :].reshape(-1, self.n_embed)
             weights[self._k_weight_name] = att_qkv_dense_weight[:, 1, :, :].reshape(-1, self.n_embed)
             weights[self._v_weight_name] = att_qkv_dense_weight[:, 2, :, :].reshape(-1, self.n_embed)
             del weights[qkv_weight_name]
 
-        qkv_bias_name = f"{self.layer_name}.self_attention.query_key_value.bias"
+        qkv_bias_name = f"h.{self.layer_num_}.self_attention.query_key_value.bias"
         if qkv_bias_name in weights:
             att_qkv_dense_bias = weights[qkv_bias_name].reshape(self.n_head, 3, -1)
             weights[self._q_bias_name] = att_qkv_dense_bias[:, 0, :].reshape(-1)
@@ -101,19 +106,10 @@ def load_hf_weights(self, weights):
         super().load_hf_weights(weights)
         return
 
-    def init_static_params(self):
-        # 计算生成alibi
-        head_num = self.network_config_["num_attention_heads"]
-        tp_head_num = head_num // self.world_size_
-        tmp_alibi = generate_alibi(head_num, dtype=torch.float32)
-        assert head_num % self.world_size_ == 0
-        self.tp_alibi = tmp_alibi[self.tp_rank_ * tp_head_num : (self.tp_rank_ + 1) * tp_head_num].contiguous().cuda()
-        return
-
     def _init_ffn(self):
         split_inter_size = self.n_inter // self.world_size_
-        self.up_proj = ROWMMWeight(
-            self._up_weight_name, self.data_type_, split_inter_size, bias_name=self._up_bias_name, wait_fuse=True
+        self.gate_up_proj = ROWMMWeight(
+            self._gate_up_weight_name, self.data_type_, split_inter_size, bias_name=self._gate_up_bias_name
         )
         self.down_proj = COLMMWeight(
             self._down_weight_name, self.data_type_, split_inter_size, bias_name=self._down_bias_name
diff --git a/lightllm/models/chatglm2/layer_weights/transformer_layer_weight.py b/lightllm/models/chatglm2/layer_weights/transformer_layer_weight.py
@@ -14,30 +14,35 @@ def __init__(self, layer_num, tp_rank, world_size, data_type, network_config, mo
             network_config,
             mode,
             quant_cfg,
-            layer_prefix="transformer.encoder.layers",
         )
         return
 
     def _preprocess_weight(self, weights):
         n_kv_embed = self.head_dim * self.n_kv_head
-
-        qkv_weight_name = f"{self.layer_name}.self_attention.query_key_value.weight"
+        qkv_weight_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.query_key_value.weight"
         if qkv_weight_name in weights:
             qkv_weight_ = weights[qkv_weight_name]
             weights[self._q_weight_name] = qkv_weight_[: self.n_embed, :]
             weights[self._k_weight_name] = qkv_weight_[self.n_embed : self.n_embed + n_kv_embed, :]
             weights[self._v_weight_name] = qkv_weight_[self.n_embed + n_kv_embed : self.n_embed + 2 * n_kv_embed, :]
             del weights[qkv_weight_name]
 
-        qkv_bias_name = f"{self.layer_name}.self_attention.query_key_value.bias"
+        qkv_bias_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.query_key_value.bias"
         if qkv_bias_name in weights:
             qkv_bias_ = weights[qkv_bias_name]
             weights[self._q_bias_name] = qkv_bias_[: self.n_embed]
             weights[self._k_bias_name] = qkv_bias_[self.n_embed : self.n_embed + n_kv_embed]
             weights[self._v_bias_name] = qkv_bias_[self.n_embed + n_kv_embed : self.n_embed + 2 * n_kv_embed]
             del weights[qkv_bias_name]
 
-    def _init_config(self):
+        gate_up_weight_name = f"transformer.encoder.layers.{self.layer_num_}.mlp.dense_h_to_4h.weight"
+        if gate_up_weight_name in weights:
+            gate_up_weight_ = weights[gate_up_weight_name]
+            weights[self._gate_weight_name] = gate_up_weight_[: self.n_inter, :]
+            weights[self._up_weight_name] = gate_up_weight_[self.n_inter : 2 * self.n_inter, :]
+            del weights[gate_up_weight_name]
+
+    def _parse_config(self):
         self.n_embed = self.network_config_["hidden_size"]
         self.n_head = self.network_config_["num_attention_heads"]
         self.n_inter = self.network_config_["ffn_hidden_size"]
@@ -49,11 +54,24 @@ def load_hf_weights(self, weights):
         super().load_hf_weights(weights)
         return
 
-    def _init_ffn(self):
-        split_inter_size = self.n_inter // self.world_size_
-        self.up_proj = ROWMMWeight(
-            self._up_weight_name, self.data_type_, split_inter_size, bias_name=self._up_bias_name, wait_fuse=True
-        )
-        self.down_proj = COLMMWeight(
-            self._down_weight_name, self.data_type_, split_inter_size, bias_name=self._down_bias_name
-        )
+    def _init_weight_names(self):
+        self._q_weight_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.q_proj.weight"
+        self._q_bias_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.q_proj.bias"
+        self._k_weight_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.k_proj.weight"
+        self._k_bias_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.k_proj.bias"
+        self._v_weight_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.v_proj.weight"
+        self._v_bias_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.v_proj.bias"
+        self._o_weight_name = f"transformer.encoder.layers.{self.layer_num_}.self_attention.dense.weight"
+        self._o_bias_name = None
+
+        self._gate_weight_name = f"transformer.encoder.layers.{self.layer_num_}.mlp.gate_proj.weight"
+        self._gate_bias_name = None
+        self._up_weight_name = f"transformer.encoder.layers.{self.layer_num_}.mlp.up_proj.weight"
+        self._up_bias_name = None
+        self._down_weight_name = f"transformer.encoder.layers.{self.layer_num_}.mlp.dense_4h_to_h.weight"
+        self._down_bias_name = None
+
+        self._att_norm_weight_name = f"transformer.encoder.layers.{self.layer_num_}.input_layernorm.weight"
+        self._att_norm_bias_name = None
+        self._ffn_norm_weight_name = f"transformer.encoder.layers.{self.layer_num_}.post_attention_layernorm.weight"
+        self._ffn_norm_bias_name = None
diff --git a/lightllm/models/cohere/layer_weights/transformer_layer_weight.py b/lightllm/models/cohere/layer_weights/transformer_layer_weight.py
@@ -10,15 +10,18 @@
 
 class CohereTransformerLayerWeight(LlamaTransformerLayerWeight):
     def __init__(self, layer_num, tp_rank, world_size, data_type, network_config, mode=[], quant_cfg=None):
-        self.use_qk_norm = network_config.get("use_qk_norm", False)
         super().__init__(layer_num, tp_rank, world_size, data_type, network_config, mode, quant_cfg)
         return
 
+    def _parse_config(self):
+        super()._parse_config()
+        self.use_qk_norm = self.network_config_.get("use_qk_norm", False)
+
     def _init_norm(self, weights):
         q_split_head = self.network_config_["num_attention_heads"] // self.world_size_
         k_split_head = self.network_config_["num_key_value_heads"] // self.world_size_
 
-        self.att_norm_weight_ = NormWeight(self.att_norm_weight_name, self.data_type_)
+        self.att_norm_weight_ = NormWeight(self._att_norm_weight_name, self.data_type_)
 
         if self.use_qk_norm:
             self.q_norm_weight_ = TpNormWeight(
diff --git a/lightllm/models/gemma_2b/layer_weights/transformer_layer_weight.py b/lightllm/models/gemma_2b/layer_weights/transformer_layer_weight.py
@@ -22,5 +22,5 @@ def _init_qkv(self):
         )
 
     def _init_norm(self):
-        self.att_norm_weight_ = GEMMANormWeight(self.att_norm_weight_name, self.data_type_)
-        self.ffn_norm_weight_ = GEMMANormWeight(self.ffn_norm_weight_name, self.data_type_)
+        self.att_norm_weight_ = GEMMANormWeight(self._att_norm_weight_name, self.data_type_)
+        self.ffn_norm_weight_ = GEMMANormWeight(self._ffn_norm_weight_name, self.data_type_)
diff --git a/lightllm/models/internlm2/layer_weights/transformer_layer_weight.py b/lightllm/models/internlm2/layer_weights/transformer_layer_weight.py
@@ -33,5 +33,5 @@ def _init_weight_names(self):
         self._gate_weight_name = f"model.layers.{self.layer_num_}.feed_forward.w1.weight"
         self._up_weight_name = f"model.layers.{self.layer_num_}.feed_forward.w3.weight"
         self._down_weight_name = f"model.layers.{self.layer_num_}.feed_forward.w2.weight"
-        self.att_norm_weight_name = f"model.layers.{self.layer_num_}.attention_norm.weight"
-        self.ffn_norm_weight_name = f"model.layers.{self.layer_num_}.ffn_norm.weight"
+        self._att_norm_weight_name = f"model.layers.{self.layer_num_}.attention_norm.weight"
+        self._ffn_norm_weight_name = f"model.layers.{self.layer_num_}.ffn_norm.weight"
diff --git a/lightllm/models/llama/layer_weights/transformer_layer_weight.py b/lightllm/models/llama/layer_weights/transformer_layer_weight.py
@@ -49,10 +49,10 @@ def _init_weight_names(self):
         self._down_weight_name = f"model.layers.{self.layer_num_}.mlp.down_proj.weight"
         self._down_bias_name = None
 
-        self.att_norm_weight_name = f"model.layers.{self.layer_num_}.input_layernorm.weight"
-        self.att_norm_bias_name = None
-        self.ffn_norm_weight_name = f"model.layers.{self.layer_num_}.post_attention_layernorm.weight"
-        self.ffn_norm_bias_name = None
+        self._att_norm_weight_name = f"model.layers.{self.layer_num_}.input_layernorm.weight"
+        self._att_norm_bias_name = None
+        self._ffn_norm_weight_name = f"model.layers.{self.layer_num_}.post_attention_layernorm.weight"
+        self._ffn_norm_bias_name = None
 
     def _init_qkv(self):
         q_split_n_embed = self.head_dim * self.n_head // self.world_size_
@@ -83,8 +83,8 @@ def _init_ffn(self):
 
     def _init_norm(self):
         self.att_norm_weight_ = NormWeight(
-            self.att_norm_weight_name, self.data_type_, bias_name=self.att_norm_bias_name
+            self._att_norm_weight_name, self.data_type_, bias_name=self._att_norm_bias_name
         )
         self.ffn_norm_weight_ = NormWeight(
-            self.ffn_norm_weight_name, self.data_type_, bias_name=self.ffn_norm_bias_name
+            self._ffn_norm_weight_name, self.data_type_, bias_name=self._ffn_norm_bias_name
         )
diff --git a/lightllm/models/mixtral/layer_weights/transformer_layer_weight.py b/lightllm/models/mixtral/layer_weights/transformer_layer_weight.py
@@ -2,7 +2,7 @@
 import math
 import numpy as np
 from lightllm.utils.log_utils import init_logger
-from lightllm.models.bloom.layer_weights.transformer_layer_weight import BloomTransformerLayerWeight
+from lightllm.models.llama.layer_weights.transformer_layer_weight import LlamaTransformerLayerWeight
 from lightllm.common.basemodel.layer_weights.meta_weights import (
     ROWMMWeight,
     COLMMWeight,
@@ -13,7 +13,7 @@
 logger = init_logger(__name__)
 
 
-class MixtralTransformerLayerWeight(BloomTransformerLayerWeight):
+class MixtralTransformerLayerWeight(LlamaTransformerLayerWeight):
     def __init__(self, layer_num, tp_rank, world_size, data_type, network_config, mode=[], quant_cfg=None):
         super().__init__(
             layer_num,
@@ -23,23 +23,20 @@ def __init__(self, layer_num, tp_rank, world_size, data_type, network_config, mo
             network_config,
             mode,
             quant_cfg=quant_cfg,
-            layer_prefix="model.layers",
         )
-
-        self._init_moe()
         return
 
-    def _init_config(self):
+    def _parse_config(self):
         super()._init_config()
         self.n_routed_experts = self.network_config_["num_local_experts"]
 
     def _init_weight_names(self):
         super()._init_weight_names()
-        self.moe_gate_weight_name = f"{self.layer_name}.mlp.gate.weight"
+        self.moe_gate_weight_name = f"model.layers.{self.layer_num_}.block_sparse_moe.gate.weight"
         self.moe_gate_bias_name = None
 
     def _init_ffn(self, weights):
-        pass
+        self._init_moe(weights)
 
     def _init_moe(self, weights):
         inter_size = self.network_config_["intermediate_size"]
@@ -53,7 +50,7 @@ def _init_moe(self, weights):
             gate_proj_name="w1",
             down_proj_name="w2",
             up_proj_name="w3",
-            weight_prefix=f"{self.layer_name}.block_sparse_moe.experts",
+            weight_prefix=f"model.layers.{self.layer_num_}.block_sparse_moe.experts",
             n_routed_experts=self.n_routed_experts,
             split_inter_size=split_inter_size,
             data_type=self.data_type_,
diff --git a/lightllm/models/qwen/layer_weights/transformer_layer_weight.py b/lightllm/models/qwen/layer_weights/transformer_layer_weight.py
@@ -45,5 +45,5 @@ def _init_weight_names(self):
         self._gate_weight_name = f"transformer.h.{self.layer_num_}.mlp.w2.weight"
         self._up_weight_name = f"transformer.h.{self.layer_num_}.mlp.w1.weight"
         self._down_weight_name = f"transformer.h.{self.layer_num_}.mlp.c_proj.weight"
-        self.att_norm_weight_name = f"transformer.h.{self.layer_num_}.ln_1.weight"
-        self.ffn_norm_weight_name = f"transformer.h.{self.layer_num_}.ln_2.weight"
+        self._att_norm_weight_name = f"transformer.h.{self.layer_num_}.ln_1.weight"
+        self._ffn_norm_weight_name = f"transformer.h.{self.layer_num_}.ln_2.weight"
diff --git a/lightllm/models/stablelm/layer_weights/transformer_layer_weight.py b/lightllm/models/stablelm/layer_weights/transformer_layer_weight.py
@@ -9,5 +9,5 @@ def __init__(self, layer_num, tp_rank, world_size, data_type, network_config, mo
 
     def _init_weight_names(self):
         super()._init_weight_names()
-        self.att_norm_bias_name = f"model.layers.{self.layer_num_}.input_layernorm.bias"
-        self.ffn_norm_bias_name = f"model.layers.{self.layer_num_}.post_attention_layernorm.bias"
+        self._att_norm_bias_name = f"model.layers.{self.layer_num_}.input_layernorm.bias"
+        self._ffn_norm_bias_name = f"model.layers.{self.layer_num_}.post_attention_layernorm.bias"
diff --git a/lightllm/models/starcoder/layer_weights/transformer_layer_weight.py b/lightllm/models/starcoder/layer_weights/transformer_layer_weight.py
diff --git a/lightllm/models/starcoder2/layer_weights/transformer_layer_weight.py b/lightllm/models/starcoder2/layer_weights/transformer_layer_weight.py

Original file line number	Diff line number	Diff line change
`@@ -22,5 +22,5 @@ def _init_qkv(self):`
`22`	`22`	`)`
`23`	`23`
`24`	`24`	`def _init_norm(self):`
`25`		`- self.att_norm_weight_ = GEMMANormWeight(self.att_norm_weight_name, self.data_type_)`
`26`		`- self.ffn_norm_weight_ = GEMMANormWeight(self.ffn_norm_weight_name, self.data_type_)`
	`25`	`+ self.att_norm_weight_ = GEMMANormWeight(self._att_norm_weight_name, self.data_type_)`
	`26`	`+ self.ffn_norm_weight_ = GEMMANormWeight(self._ffn_norm_weight_name, self.data_type_)`