update attention temp length metadata

CISC · web-flow · commit 05b52fa5ea2d · 2025-09-03T15:58:46.000+02:00
diff --git a/src/llama-hparams.h b/src/llama-hparams.h
@@ -136,8 +136,8 @@ struct llama_hparams {
     float f_attention_scale = 0.0f;
 
     // grok-2
-    float f_attn_out_scale  = 0.0f;
-    float f_attn_temp_len   = 0.0f;
+    float    f_attn_out_scale = 0.0f;
+    uint32_t attn_temp_length = 0;
 
     bool causal_attn   = true;
     bool use_alibi     = false;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -702,7 +702,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                 ml.get_key(LLM_KV_ROUTER_LOGIT_SOFTCAPPING,     hparams.f_router_logit_softcapping, false);
                 ml.get_key(LLM_KV_FINAL_LOGIT_SOFTCAPPING,      hparams.f_final_logit_softcapping, false);
 
-                ml.get_key(LLM_KV_ATTENTION_TEMPERATURE_LENGTH, hparams.f_attn_temp_len, false);
+                ml.get_key(LLM_KV_ATTENTION_TEMPERATURE_LENGTH, hparams.attn_temp_length, false);
 
                 switch (hparams.n_layer) {
                     case 64: type = LLM_TYPE_314B; break;