model : make rope_yarn_log_mul optional for deepseek2 (#14896)

gabriellarson · web-flow · commit 4762ad7316dc · 2025-07-27T11:18:37.000+03:00
* make rope_yarn_log_mul optional for deepseek2

* default rope_yarn_log_mul = 0.0f
diff --git a/src/llama-hparams.h b/src/llama-hparams.h
@@ -98,7 +98,7 @@ struct llama_hparams {
     float    rope_freq_scale_train;
     float    rope_freq_scale_train_swa;
     uint32_t n_ctx_orig_yarn;
-    float    rope_yarn_log_mul;
+    float    rope_yarn_log_mul = 0.0f;
 
     std::array<int, 4> rope_sections;
 
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1369,7 +1369,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                     // that have no expert_gating_func model parameter set
                     hparams.expert_gating_func = LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX;
                 }
-                ml.get_key(LLM_KV_ROPE_SCALING_YARN_LOG_MUL, hparams.rope_yarn_log_mul);
+                ml.get_key(LLM_KV_ROPE_SCALING_YARN_LOG_MUL, hparams.rope_yarn_log_mul, false);
 
                 switch (hparams.n_layer) {
                     case 27: type = LLM_TYPE_16B; break;

Original file line number	Diff line number	Diff line change
`@@ -1369,7 +1369,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {`
`1369`	`1369`	`// that have no expert_gating_func model parameter set`
`1370`	`1370`	`hparams.expert_gating_func = LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX;`
`1371`	`1371`	`}`
`1372`		`- ml.get_key(LLM_KV_ROPE_SCALING_YARN_LOG_MUL, hparams.rope_yarn_log_mul);`
	`1372`	`+ ml.get_key(LLM_KV_ROPE_SCALING_YARN_LOG_MUL, hparams.rope_yarn_log_mul, false);`
`1373`	`1373`
`1374`	`1374`	`switch (hparams.n_layer) {`
`1375`	`1375`	`case 27: type = LLM_TYPE_16B; break;`