Update src/llama-model.cpp

sammcj · CISC · web-flow · commit 07416e0a1de0 · 2025-08-04T17:38:24.000+10:00
Co-authored-by: Sigbjørn Skjæret &lt;sigbjorn.skjaeret@scala.com&gt;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -13494,7 +13494,7 @@ struct llm_build_glm4_moe : public llm_graph_context {
 
         // Only process up to last layer (skip final NextN layer)
         // Final layer tensors are loaded but not processed in forward pass
-        const int n_transformer_layers = n_layer - 1;
+        const int n_transformer_layers = n_layer - hparam.nextn_predict_layers;
         for (int il = 0; il < n_transformer_layers; ++il) {
             ggml_tensor * inpSA = inpL;