@@ -6369,6 +6369,8 @@ void llama_model::print_info() const {
63696369 LLAMA_LOG_INFO("%s: n_ff = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_ff(il); }, hparams.n_layer).c_str());
63706370 LLAMA_LOG_INFO("%s: n_expert = %u\n", __func__, hparams.n_expert);
63716371 LLAMA_LOG_INFO("%s: n_expert_used = %u\n", __func__, hparams.n_expert_used);
6372+ LLAMA_LOG_INFO("%s: n_expert_groups = %d\n", __func__, hparams.n_expert_groups);
6373+ LLAMA_LOG_INFO("%s: n_group_used = %d\n", __func__, hparams.n_group_used);
63726374 LLAMA_LOG_INFO("%s: causal attn = %d\n", __func__, hparams.causal_attn);
63736375 LLAMA_LOG_INFO("%s: pooling type = %d\n", __func__, hparams.pooling_type);
63746376 LLAMA_LOG_INFO("%s: rope type = %d\n", __func__, hparams.rope_type);
@@ -6469,8 +6471,6 @@ void llama_model::print_info() const {
64696471 LLAMA_LOG_INFO("%s: n_ff_exp = %d\n", __func__, hparams.n_ff_exp);
64706472 LLAMA_LOG_INFO("%s: n_ff_shexp = %d\n", __func__, hparams.n_ff_shexp);
64716473 LLAMA_LOG_INFO("%s: n_expert_shared = %d\n", __func__, hparams.n_expert_shared);
6472- LLAMA_LOG_INFO("%s: n_expert_groups = %d\n", __func__, hparams.n_expert_groups);
6473- LLAMA_LOG_INFO("%s: n_group_used = %d\n", __func__, hparams.n_group_used);
64746474 LLAMA_LOG_INFO("%s: expert_weights_scale = %.1f\n", __func__, hparams.expert_weights_scale);
64756475 LLAMA_LOG_INFO("%s: expert_weights_norm = %d\n", __func__, hparams.expert_weights_norm);
64766476 LLAMA_LOG_INFO("%s: expert_gating_func = %s\n", __func__, llama_expert_gating_func_name((llama_expert_gating_func_type) hparams.expert_gating_func));
@@ -19339,6 +19339,7 @@ struct llm_build_smallthinker : public llm_graph_context{
1933919339
1934019340 cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
1934119341 cb(cur, "result_norm", -1);
19342+ res->t_embd = cur;
1934219343
1934319344 // lm_head
1934419345 cur = build_lora_mm(model.output, cur);
0 commit comments