keras-team · vulkomilev · Aug 20, 2025 · Aug 28, 2025 · Aug 28, 2025 · Aug 28, 2025
diff --git a/keras_hub/src/models/mistral/mistral_attention.py b/keras_hub/src/models/mistral/mistral_attention.py
@@ -45,6 +45,7 @@ def __init__(
         self._rope_scaling_factor = rope_scaling_factor
 
     def build(self, inputs_shape):
+        print("inputs_shape",inputs_shape)
         # Einsum variables:
         # b = batch size
         # q = query length
@@ -54,17 +55,18 @@ def build(self, inputs_shape):
         # v = num key/value heads
         # h = head dim
         self._hidden_dim = inputs_shape[-1]
+        print("self._hidden_dim // self._num_query_heads",self._hidden_dim , self._num_query_heads)
         self._head_dim = self._hidden_dim // self._num_query_heads
         self._inv_norm_factor = 1.0 / math.sqrt(self._head_dim)
-
+        print("(None, self._num_query_heads, self._head_dim)",(None, self._num_query_heads, self._head_dim))
         self._query_dense = keras.layers.EinsumDense(
             equation="bqm,muh->bquh",
             output_shape=(None, self._num_query_heads, self._head_dim),
             kernel_initializer=self._kernel_initializer,
             dtype=self.dtype_policy,
             name="query",
         )
-        self._query_dense.build(inputs_shape)
+        self._query_dense.build((None,None,4096))#inputs_shape
-        self._query_dense.build((None,None,4096))#inputs_shape
+        self._query_dense.build(inputs_shape)
-        self._query_dense.build((None,None,4096))#inputs_shape
+        self._query_dense.build(inputs_shape)
 
         self._key_dense = keras.layers.EinsumDense(
             equation="bkm,mvh->bkvh",
@@ -77,7 +79,7 @@ def build(self, inputs_shape):
             dtype=self.dtype_policy,
             name="key",
         )
-        self._key_dense.build(inputs_shape)
+        self._key_dense.build((None,None,4096))#input_shape
-        self._key_dense.build((None,None,4096))#input_shape
+        self._key_dense.build(inputs_shape)
-        self._key_dense.build((None,None,4096))#input_shape
+        self._key_dense.build(inputs_shape)
 
         self._value_dense = keras.layers.EinsumDense(
             equation="bkm,mvh->bkvh",
@@ -90,7 +92,7 @@ def build(self, inputs_shape):
             dtype=self.dtype_policy,
             name="value",
         )
-        self._value_dense.build(inputs_shape)
+        self._value_dense.build((None,None,4096))
-        self._value_dense.build((None,None,4096))
+        self._value_dense.build(inputs_shape)
-        self._value_dense.build((None,None,4096))
+        self._value_dense.build(inputs_shape)
 
         self._softmax = keras.layers.Softmax(
             axis=-1,
@@ -111,7 +113,7 @@ def build(self, inputs_shape):
             name="attention_output",
         )
         self._output_dense.build(
-            (None, None, self._num_query_heads, self._head_dim)
+            (None, None, self._num_query_heads, 128)#self._head_dim)
-            (None, None, self._num_query_heads, 128)#self._head_dim)
+            (None, None, self._num_query_heads, self._head_dim)
-            (None, None, self._num_query_heads, 128)#self._head_dim)
+            (None, None, self._num_query_heads, self._head_dim)
         )
 
         self.rotary_embedding_layer = RotaryEmbedding(

diff --git a/keras_hub/src/utils/transformers/convert_mistral.py b/keras_hub/src/utils/transformers/convert_mistral.py
@@ -50,7 +50,7 @@ def convert_weights(backbone, loader, transformers_config):
             hf_weight_key=f"model.layers.{index}.post_attention_layernorm.weight",
             hook_fn=lambda hf_tensor, _: hf_tensor.astype(np.float16),
         )
-
+        print("decoder_layer._self_attention_layer._query_dense.kernel",decoder_layer._self_attention_layer._query_dense.kernel,index)
         # Attention layers
         loader.port_weight(
             keras_variable=decoder_layer._self_attention_layer._query_dense.kernel,
@@ -59,6 +59,8 @@ def convert_weights(backbone, loader, transformers_config):
                 np.transpose(hf_tensor.astype(np.float16)), keras_shape
             ),
         )
+        print("decoder_layer._self_attention_layer._key_dense.kernel",decoder_layer._self_attention_layer._key_dense.kernel,index)
+
         loader.port_weight(
             keras_variable=decoder_layer._self_attention_layer._key_dense.kernel,
             hf_weight_key=f"model.layers.{index}.self_attn.k_proj.weight",
@@ -113,4 +115,4 @@ def convert_weights(backbone, loader, transformers_config):
 
 
 def convert_tokenizer(cls, preset, **kwargs):
-    return cls(get_file(preset, "tokenizer.model"), **kwargs)
+    return cls(get_file(preset, "tekken.json"),**kwargs)#)"tokenizer.model"), **kwargs)
-    return cls(get_file(preset, "tekken.json"),**kwargs)#)"tokenizer.model"), **kwargs)
+    return cls(get_file(preset, "tokenizer.model"), **kwargs)
-    return cls(get_file(preset, "tekken.json"),**kwargs)#)"tokenizer.model"), **kwargs)
+    return cls(get_file(preset, "tokenizer.model"), **kwargs)