More cleanup

am17an · am17an · commit 4c5db30e1330 · 2025-07-14T12:37:17.000+08:00
diff --git a/examples/diffusion/diffusion-cli.cpp b/examples/diffusion/diffusion-cli.cpp
@@ -9,9 +9,9 @@
 #include "arg.h"
 #include "chat.h"
 #include "common.h"
+#include "diffusion.h"
 #include "llama.h"
 #include "log.h"
-#include "diffusion.h"
 
 static std::string format_input_text(const std::string & prompt, bool use_chat_template, llama_model * model) {
     if (!use_chat_template) {
@@ -36,7 +36,6 @@ struct callback_data {
     const common_params_diffusion * diff_params;
     const llama_vocab *             vocab;
     int32_t                         n_input;
-    llama_token                     mask_token_id;  // Store mask token separately since it's not in diffusion params
 };
 
 static bool diffusion_step_callback(int32_t step, int32_t total_steps, const llama_token * tokens, int32_t n_tokens,
@@ -46,8 +45,8 @@ static bool diffusion_step_callback(int32_t step, int32_t total_steps, const lla
     auto print_progress_bar = [](int32_t step, int32_t total_steps) {
         int progress_percent = (step * 100) / total_steps;
         int progress_bars    = (step * 50) / total_steps;
-        std::cerr << "diffusion step: " << step << "/" << total_steps << " [" << std::string(progress_bars, '=')
-                  << std::string(50 - progress_bars, ' ') << "] " << progress_percent << "%\n";
+        std::cerr << "\rdiffusion step: " << step << "/" << total_steps << " [" << std::string(progress_bars, '=')
+                  << std::string(50 - progress_bars, ' ') << "] " << progress_percent << "%";
     };
 
     if (data->diff_params->visual_mode) {
@@ -56,11 +55,13 @@ static bool diffusion_step_callback(int32_t step, int32_t total_steps, const lla
 
         print_progress_bar(step, total_steps);
 
+        std::cerr << "\n";
+
         std::string current_text = " ";
 
         for (int32_t i = data->n_input; i < n_tokens; i++) {
             std::string token_str;
-            if (tokens[i] != data->mask_token_id) {
+            if (tokens[i] != llama_vocab_mask(data->vocab)) {
                 char piece[256];
                 int  n_chars = llama_token_to_piece(data->vocab, tokens[i], piece, sizeof(piece), 0, false);
                 if (n_chars > 0) {
@@ -135,9 +136,8 @@ int main(int argc, char ** argv) {
     std::string         formatted_prompt = format_input_text(params.prompt, params.enable_chat_template, model);
 
     std::vector<llama_token> input_tokens = common_tokenize(vocab, formatted_prompt,
-                                                            true,  // add_special tokens
-                                                            true   // parse_special
-    );
+                                                            /*add special tokens*/ true,
+                                                            /*parse special*/ true);
     int                      n_input      = input_tokens.size();
 
     if (n_input >= params.n_ctx) {
@@ -148,14 +148,14 @@ int main(int argc, char ** argv) {
     }
 
     struct diffusion_params ldiff_params = diffusion_default_params();
-    ldiff_params.steps                  = params.diffusion.steps;
-    ldiff_params.eps                    = params.diffusion.eps;
-    ldiff_params.temperature            = params.sampling.temp;
-    ldiff_params.top_p                  = params.sampling.top_p;
-    ldiff_params.top_k                  = params.sampling.top_k;
-    ldiff_params.algorithm              = static_cast<enum diffusion_algorithm>(params.diffusion.algorithm);
-    ldiff_params.alg_temp               = params.diffusion.alg_temp;
-    ldiff_params.seed                   = params.sampling.seed;
+    ldiff_params.steps                   = params.diffusion.steps;
+    ldiff_params.eps                     = params.diffusion.eps;
+    ldiff_params.temperature             = params.sampling.temp;
+    ldiff_params.top_p                   = params.sampling.top_p;
+    ldiff_params.top_k                   = params.sampling.top_k;
+    ldiff_params.algorithm               = static_cast<enum diffusion_algorithm>(params.diffusion.algorithm);
+    ldiff_params.alg_temp                = params.diffusion.alg_temp;
+    ldiff_params.seed                    = params.sampling.seed;
 
     llama_token mask_token_id = llama_vocab_mask(vocab);
     GGML_ASSERT(mask_token_id != LLAMA_TOKEN_NULL);
@@ -169,38 +169,36 @@ int main(int argc, char ** argv) {
 
     ldiff_params.mask_token_id = mask_token_id;
 
-    callback_data cb_data = { &params.diffusion, vocab, n_input, mask_token_id };
+    callback_data cb_data = { &params.diffusion, vocab, n_input };
 
     ldiff_params.step_callback           = diffusion_step_callback;
     ldiff_params.step_callback_user_data = &cb_data;
 
-    int32_t       n_generated = 0;
+    int32_t n_generated = 0;
 
-    int64_t t1 = ggml_time_us();
-    llama_token * generated   = diffusion_generate(ctx, input_tokens.data(), n_input, params.diffusion.max_length,
-                                                   ldiff_params, &n_generated);
+    int64_t                  t1 = ggml_time_us();
+    std::vector<llama_token> output_tokens(params.diffusion.max_length);
+    diffusion_generate(ctx, input_tokens.data(), output_tokens.data(), n_input, params.diffusion.max_length,
+                       ldiff_params, &n_generated);
     int64_t t2 = ggml_time_us();
-    if (params.diffusion.visual_mode) {
-        std::cerr << "\033[2J\033[H";  // Clear screen and move cursor to top-left
-    } else {
-        std::cerr << "\r" << std::string(80, ' ') << "\r" << std::flush;
-    }
-
-    if (generated && n_generated > 0) {
-        std::vector<llama_token> output_tokens(generated + n_input, generated + n_generated);
 
+    if (n_generated > 0) {
+        if (params.diffusion.visual_mode) {
+            //clear screen and move cursor to top-left
+            std::cerr << "\033[2J\033[H";
+        }
+        output_tokens.erase(output_tokens.begin(), output_tokens.begin() + n_input);
         std::string output_data = common_detokenize(vocab, output_tokens, false);
-        std::cout << output_data << std::endl;
-
-        delete[] generated;
+        std::cout << "\n" << output_data << "\n";
     } else {
-        std::cerr << "Error: diffusion generation failed" << std::endl;
+        std::cerr << "Error: diffusion generation failed\n";
         llama_free(ctx);
         llama_model_free(model);
         return 1;
     }
 
-    std::cerr << "diffusion time: " << (t2 - t1)/1000.0 << "ms time per step: " << (t2 - t1)/1000.0/params.diffusion.steps << "ms" << std::endl;
+    std::cerr << "diffusion time: " << (t2 - t1) / 1000.0
+              << "ms time per step: " << (t2 - t1) / 1000.0 / params.diffusion.steps << "ms" << std::endl;
 
     llama_free(ctx);
     llama_model_free(model);
diff --git a/examples/diffusion/diffusion.cpp b/examples/diffusion/diffusion.cpp
@@ -1,13 +1,14 @@
 #include "diffusion.h"
-#include "llama.h"
-#include "log.h"
 
 #include <algorithm>
 #include <cmath>
 #include <limits>
 #include <random>
 #include <vector>
 
+#include "llama.h"
+#include "log.h"
+
 struct diffusion_params diffusion_default_params(void) {
     struct diffusion_params params = {};
     params.steps                   = 64;
@@ -24,30 +25,15 @@ struct diffusion_params diffusion_default_params(void) {
     return params;
 }
 
-llama_token * diffusion_generate(llama_context * ctx, const llama_token * input_tokens, int32_t n_input,
-                                 int32_t max_length, struct diffusion_params params, int32_t * n_generated) {
-    if (!ctx || !input_tokens || n_input <= 0 || max_length <= n_input) {
+void diffusion_generate(llama_context * ctx, const llama_token * input_tokens, llama_token * output_tokens,
+                        int32_t n_input, int32_t max_length, struct diffusion_params params, int32_t * n_generated) {
+    if (!ctx || !input_tokens || !output_tokens || n_input <= 0 || max_length <= n_input) {
         if (n_generated) {
             *n_generated = 0;
         }
-        return nullptr;
     }
 
     const llama_model * model = llama_get_model(ctx);
-    if (!model) {
-        if (n_generated) {
-            *n_generated = 0;
-        }
-        return nullptr;
-    }
-
-    llama_token * output_tokens = new llama_token[max_length];
-    if (!output_tokens) {
-        if (n_generated) {
-            *n_generated = 0;
-        }
-        return nullptr;
-    }
 
     // Initialize with input and pad with mask tokens
     std::copy(input_tokens, input_tokens + n_input, output_tokens);
@@ -107,25 +93,20 @@ llama_token * diffusion_generate(llama_context * ctx, const llama_token * input_
         if (ret != 0) {
             LOG_ERR("%s: failed to decode at step %d, ret = %d\n", __func__, step, ret);
             llama_batch_free(batch);
-            delete[] output_tokens;
-            if (n_generated) {
-                *n_generated = 0;
-            }
-            return nullptr;
+            return;
         }
 
         float * raw_logits = llama_get_logits(ctx);
         if (!raw_logits) {
             LOG_ERR("%s: failed to get logits at step %d\n", __func__, step);
             llama_batch_free(batch);
-            delete[] output_tokens;
             if (n_generated) {
                 *n_generated = 0;
             }
-            return nullptr;
+            return;
         }
 
-        auto get_logits_for_pos = [&](int32_t pos) -> const float* {
+        auto get_logits_for_pos = [&](int32_t pos) -> const float * {
             return pos == 0 ? raw_logits : raw_logits + (pos - 1) * n_vocab;
         };
 
@@ -148,16 +129,16 @@ llama_token * diffusion_generate(llama_context * ctx, const llama_token * input_
 
             for (int32_t pos : mask_positions) {
                 if (std::uniform_real_distribution<float>(0.0f, 1.0f)(rng) < p_transfer) {
-                    const float* pos_logits = get_logits_for_pos(pos);
+                    const float * pos_logits = get_logits_for_pos(pos);
                     for (int32_t token_id = 0; token_id < n_vocab; token_id++) {
-                        candidates[token_id].id = token_id;
+                        candidates[token_id].id    = token_id;
                         candidates[token_id].logit = pos_logits[token_id];
-                        candidates[token_id].p = 0.0f;
+                        candidates[token_id].p     = 0.0f;
                     }
 
                     llama_token_data_array cur_p = {
                         /* .data       = */ candidates.data(),
-                        /* .size       = */ (size_t)n_vocab,  // Reset size to full vocab
+                        /* .size       = */ (size_t) n_vocab,  // Reset size to full vocab
                         /* .selected   = */ -1,
                         /* .sorted     = */ false,
                     };
@@ -171,13 +152,13 @@ llama_token * diffusion_generate(llama_context * ctx, const llama_token * input_
             std::vector<llama_token>               sampled_tokens(mask_positions.size());
 
             for (size_t i = 0; i < mask_positions.size(); i++) {
-                int32_t pos        = mask_positions[i];
+                int32_t       pos        = mask_positions[i];
                 const float * pos_logits = get_logits_for_pos(pos);
 
                 for (int32_t token_id = 0; token_id < n_vocab; token_id++) {
                     candidates[token_id].logit = pos_logits[token_id];
-                    candidates[token_id].p = 0.0f;
-                    candidates[token_id].id = token_id;
+                    candidates[token_id].p     = 0.0f;
+                    candidates[token_id].id    = token_id;
                 }
 
                 llama_token_data_array cur_p = {
@@ -206,7 +187,6 @@ llama_token * diffusion_generate(llama_context * ctx, const llama_token * input_
 
                 sampled_tokens[i] = sampled_token;
                 confidences.emplace_back(confidence, i);
-
             }
 
             int32_t num_transfer =
@@ -284,6 +264,4 @@ llama_token * diffusion_generate(llama_context * ctx, const llama_token * input_
     if (n_generated) {
         *n_generated = max_length;
     }
-
-    return output_tokens;
 }
diff --git a/examples/diffusion/diffusion.h b/examples/diffusion/diffusion.h
@@ -6,13 +6,14 @@
 extern "C" {
 #endif
 
-typedef bool (*diffusion_step_callback_t)(int32_t step, int32_t total_steps, const llama_token * tokens, int32_t n_tokens, void * user_data);
+typedef bool (*diffusion_step_callback_t)(int32_t step, int32_t total_steps, const llama_token * tokens,
+                                          int32_t n_tokens, void * user_data);
 
 enum diffusion_algorithm {
-    DIFFUSION_ALG_ORIGIN = 0,
+    DIFFUSION_ALG_ORIGIN       = 0,
     DIFFUSION_ALG_MASKGIT_PLUS = 1,
-    DIFFUSION_ALG_TOPK_MARGIN = 2,
-    DIFFUSION_ALG_ENTROPY = 3,
+    DIFFUSION_ALG_TOPK_MARGIN  = 2,
+    DIFFUSION_ALG_ENTROPY      = 3,
 };
 
 struct diffusion_params {
@@ -31,13 +32,8 @@ struct diffusion_params {
 
 struct diffusion_params diffusion_default_params(void);
 
-llama_token * diffusion_generate(
-    llama_context *              ctx,
-    const llama_token *          input_tokens,
-    int32_t                      n_input,
-    int32_t                      max_length,
-    struct diffusion_params      params,
-    int32_t *                    n_generated);
+void diffusion_generate(llama_context * ctx, const llama_token * input_tokens, llama_token * output_tokens,
+                        int32_t n_input, int32_t max_length, struct diffusion_params params, int32_t * n_generated);
 
 #ifdef __cplusplus
 }
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -1,21 +1,17 @@
 #include "llama-context.h"
 
-#include <algorithm>
-#include <cinttypes>
-#include <cmath>
-#include <cstring>
-#include <limits>
-#include <random>
-#include <stdexcept>
-#include <vector>
-
 #include "llama-impl.h"
 #include "llama-batch.h"
 #include "llama-io.h"
 #include "llama-memory.h"
 #include "llama-mmap.h"
 #include "llama-model.h"
 
+#include <cinttypes>
+#include <cstring>
+#include <limits>
+#include <stdexcept>
+
 //
 // llama_context
 //