@@ -341,7 +341,7 @@ static results_perplexity perplexity_v2(llama_context * ctx, const common_params
341341 const int n_chunk = params.n_chunks < 0 ? n_chunk_max : std::min (params.n_chunks , n_chunk_max);
342342 const int n_batch = params.n_batch ;
343343
344- const int n_vocab = llama_vocab_n_vocab (vocab);
344+ const int n_vocab = llama_vocab_n_tokens (vocab);
345345
346346 int count = 0 ;
347347 double nll = 0.0 ;
@@ -491,7 +491,7 @@ static results_perplexity perplexity(llama_context * ctx, const common_params &
491491 const int n_chunk = params.n_chunks < 0 ? n_chunk_max : std::min (params.n_chunks , n_chunk_max);
492492 const int n_batch = params.n_batch ;
493493
494- const int n_vocab = llama_vocab_n_vocab (vocab);
494+ const int n_vocab = llama_vocab_n_tokens (vocab);
495495
496496 int count = 0 ;
497497 double nll = 0.0 ;
@@ -857,7 +857,7 @@ static void hellaswag_score(llama_context * ctx, const common_params & params) {
857857 const int n_ctx = llama_n_ctx (ctx);
858858 const int n_batch = params.n_batch ;
859859
860- const int n_vocab = llama_vocab_n_vocab (vocab);
860+ const int n_vocab = llama_vocab_n_tokens (vocab);
861861
862862 const int max_tasks_per_batch = 32 ;
863863 const int max_seq = std::min (4 *max_tasks_per_batch, (int ) llama_n_seq_max (ctx));
@@ -1141,7 +1141,7 @@ static void winogrande_score(llama_context * ctx, const common_params & params)
11411141 const int n_ctx = llama_n_ctx (ctx);
11421142 const int n_batch = params.n_batch ;
11431143
1144- const int n_vocab = llama_vocab_n_vocab (vocab);
1144+ const int n_vocab = llama_vocab_n_tokens (vocab);
11451145
11461146 const int max_tasks_per_batch = 128 ;
11471147 const int max_seq = std::min (2 *max_tasks_per_batch, (int ) llama_n_seq_max (ctx));
@@ -1495,7 +1495,7 @@ static void multiple_choice_score(llama_context * ctx, const common_params & par
14951495 const int n_ctx = llama_n_ctx (ctx);
14961496 const int n_batch = params.n_batch ;
14971497
1498- const int n_vocab = llama_vocab_n_vocab (vocab);
1498+ const int n_vocab = llama_vocab_n_tokens (vocab);
14991499
15001500 const int max_tasks_per_batch = 32 ;
15011501 const int max_seq = std::min (4 *max_tasks_per_batch, (int ) llama_n_seq_max (ctx));
@@ -1704,8 +1704,8 @@ static void kl_divergence(llama_context * ctx, const common_params & params) {
17041704 LOG_ERR (" %s: failed reading n_vocab, n_chunk from %s\n " , __func__, params.logits_file .c_str ());
17051705 return ;
17061706 }
1707- if (n_vocab != llama_vocab_n_vocab (vocab)) {
1708- LOG_ERR (" %s: inconsistent vocabulary (%d vs %d)\n " , __func__, n_vocab, llama_vocab_n_vocab (vocab));
1707+ if (n_vocab != llama_vocab_n_tokens (vocab)) {
1708+ LOG_ERR (" %s: inconsistent vocabulary (%d vs %d)\n " , __func__, n_vocab, llama_vocab_n_tokens (vocab));
17091709 }
17101710
17111711 std::vector<llama_token> tokens (size_t (n_ctx) * n_chunk);
0 commit comments