Added DRY sampling ggml-org/llama.cpp#6839

MaggotHATE · MaggotHATE · commit b011eabca39e · 2024-07-31T00:44:35.000+05:00
diff --git a/base/llama-addon.cpp b/base/llama-addon.cpp
@@ -380,4 +380,94 @@ void llama_sample_entropy_addon(struct llama_context * ctx, llama_token_data_arr
 #endif
 
     llama_set_time(ctx, t_start_sample_us);
+}
+
+void llama_sample_dry(llama_token_data_array * candidates, const llama_token * last_tokens, size_t last_tokens_size, float dry_base, float dry_multiplier, int dry_allowed_length, const llama_token * dry_seq_breakers, size_t dry_seq_breakers_size) {
+    // skip dry sampler if we don't have a previous token
+    if (last_tokens_size < 1) return;
+
+    // get the last token
+    auto last_token = last_tokens[last_tokens_size - 1];
+
+    // if last token is part of the sequence breakers, skip whole sampler
+    if (std::find(dry_seq_breakers, dry_seq_breakers + dry_seq_breakers_size, last_token) != dry_seq_breakers + dry_seq_breakers_size) {
+        return;
+    }
+
+    // create an unordered map of "next tokens" <-> max match length
+    std::unordered_map<llama_token, size_t> match_lengths;
+
+    // loop through each previous token (exclude the last token)
+    for (size_t i = 0; i < last_tokens_size - 1; ++i) {
+        // skip if the compare token is not the same as the last token
+        if (last_tokens[i] != last_token) {
+            continue;
+        }
+
+        // get the next token (i + 1 is always less than last_tokens_size)
+        auto next_token = last_tokens[i + 1];
+
+        // if next token is part of the sequence breakers, skip
+        if (std::find(dry_seq_breakers, dry_seq_breakers + dry_seq_breakers_size, next_token) != dry_seq_breakers + dry_seq_breakers_size) {
+            continue;
+        }
+
+        // try to extend the match backwards (match length starts at 1 because last token is already matched)
+        size_t match_length = 1;
+
+        // loop through the previous tokens
+        for (;; match_length++) {
+            // if we have reached the start of our last tokens, break
+            if (i < match_length) break;
+
+            // compare token starts at our prev index, going backwards by match length
+            auto compare_token = last_tokens[i - match_length];
+
+            // head token starts at the end of last tokens, going backwards by match length, minus 1 because we start at the last token itself
+            auto head_token = last_tokens[last_tokens_size - 1 - match_length];
+
+            // break out of the match if any tokens don't match
+            if (compare_token != head_token) {
+                break;
+            }
+
+            // if compare token is part of the sequence breakers, break out of the match
+            if (std::find(dry_seq_breakers, dry_seq_breakers + dry_seq_breakers_size, compare_token) != dry_seq_breakers + dry_seq_breakers_size) {
+                break;
+            }
+        }
+
+        // Check if the next token exists in the map
+        auto it = match_lengths.find(next_token);
+
+        if (it == match_lengths.end()) {
+            // Key does not exist, insert the new value
+            match_lengths[next_token] = match_length;
+        } else {
+            // Key exists, update it with the max of the new value or the existing value
+            it->second = std::max(it->second, match_length);
+        }
+    }
+
+    // apply penalties
+    for (const auto& pair : match_lengths) {
+        auto next_token = pair.first;
+        auto match_length = pair.second;
+
+        // if the match length is greater than or equal to our allowed length in config, we apply penalities
+        if (match_length >= (size_t)dry_allowed_length) {
+
+            // find our next token in the candidates->data
+            for (size_t i = 0; i < candidates->size; ++i) {
+                if (candidates->data[i].id == next_token) {
+                    // calculate the penalty
+                    float penalty = dry_multiplier * pow(dry_base, match_length - dry_allowed_length);
+
+                    // apply the dry penalty
+                    candidates->data[i].logit -= penalty;
+                    break;
+                }
+            }
+        }
+    }
 }
diff --git a/base/llama-addon.h b/base/llama-addon.h
@@ -39,3 +39,14 @@
                            float   temp,
                            float   smoothing_factor,
                            float   smoothing_curve);
+
+    ///  @details DRY sampler as described in: https://github.com/oobabooga/text-generation-webui/pull/5677
+    LLAMA_API void llama_sample_dry(
+          llama_token_data_array * candidates,
+               const llama_token * last_tokens,
+                          size_t   last_tokens_size,
+                           float   dry_base,
+                           float   dry_multiplier,
+                             int   dry_allowed_length,
+               const llama_token * dry_seq_breakers,
+                          size_t   dry_seq_breakers_size);
diff --git a/base/sampling.cpp b/base/sampling.cpp
@@ -189,14 +189,22 @@ llama_token llama_sampling_sample(
     const float   smoothing_factor  = params.smoothing_factor;
     const float   smoothing_curve   = params.smoothing_curve;
     const float   dynatemp_range    = params.dynatemp_range;
+    //repetition
     const int32_t penalty_last_n    = params.penalty_last_n < 0 ? params.n_prev : params.penalty_last_n;
     const float   penalty_repeat    = params.penalty_repeat;
     const float   penalty_freq      = params.penalty_freq;
     const float   penalty_present   = params.penalty_present;
     const float   penalty_threshold = params.penalty_threshold;
+    // DRY
+    const float     dry_multiplier        = params.dry_multiplier;
+    const float     dry_base              = params.dry_base;
+    const uint32_t  dry_allowed_length    = params.dry_allowed_length;
+    const uint32_t  dry_penalty_last_n    = params.dry_penalty_last_n;
+    // mirostat
     const int     mirostat          = params.mirostat;
     const float   mirostat_tau      = params.mirostat_tau;
     const float   mirostat_eta      = params.mirostat_eta;
+
     const bool    penalize_nl       = params.penalize_nl;
 
     auto & prev = ctx_sampling->prev;
@@ -248,6 +256,17 @@ llama_token llama_sampling_sample(
         }
     }
 
+    // apply DRY penalties
+    {
+        const int penalty_tokens_used_size = std::min(prev.size(), (size_t)dry_penalty_last_n);
+        if (penalty_tokens_used_size) {
+            llama_sample_dry(&cur_p,
+                        prev.data() + prev.size() - penalty_tokens_used_size,
+                        penalty_tokens_used_size, dry_base, dry_multiplier, dry_allowed_length,
+                        params.dry_seq_breakers.data(), params.dry_seq_breakers.size());
+        }
+    }
+
     if (ctx_sampling->grammar != NULL) {
         llama_grammar_sample(ctx_sampling->grammar, ctx_main, &cur_p);
     }
diff --git a/base/sampling.h b/base/sampling.h
@@ -53,6 +53,10 @@ typedef struct llama_sampling_params {
     float       mirostat_tau          = 5.00f;    // target entropy
     float       mirostat_eta          = 0.10f;    // learning rate
     bool        penalize_nl           = true;     // consider newlines as a repeatable token
+    float       dry_multiplier        = 0.0f;               // 0.0f = disabled, recommended value: 0.8f
+    float       dry_base              = 1.75f;
+    uint32_t    dry_allowed_length    = 2;
+    int32_t     dry_penalty_last_n    = -1;                 // DRY last n tokens to penalize (0 = disable penalty, -1 = context size)
     //std::string samplers_sequence     = "kfypmt"; // top_k, tail_free, typical_p, top_p, min_p, temp
     std::string samplers_sequence     = "kfysmt"; // top_k, tail_free, typical_p, top_p, min_p, temp
 
@@ -64,6 +68,7 @@ typedef struct llama_sampling_params {
     float       cfg_scale     = 1.f; // how strong is guidance
 
     std::unordered_map<llama_token, float> logit_bias; // logit bias for specific tokens
+    std::vector<llama_token> dry_seq_breakers; // sequence breakers for the DRY sampler
 } llama_sampling_params;
 
 // general sampler context
diff --git a/chat_plain.h b/chat_plain.h
@@ -505,6 +505,11 @@ class chat
         std::string name_penalty_threshold = fullnames ? "penalty_threshold" : "p_t";
         std::string name_penalty_freq = fullnames ? "penalty_freq" : "p_f";
         std::string name_penalty_present = fullnames ? "penalty_present" : "p_p";
+        //DRY
+        std::string name_dry_multiplier = fullnames ? "dry_multiplier" : "d_m";
+        std::string name_dry_base = fullnames ? "dry_base" : "d_b";
+        std::string name_dry_allowed_length = fullnames ? "dry_allowed_length" : "d_l";
+        std::string name_dry_penalty_last_n = fullnames ? "dry_penalty_last_n" : "d_n";
 
         std::string name_temp = fullnames ? "temp" : "T";
         std::string name_dynatemp_range = fullnames ? "dynatemp_range" : "dT";
@@ -520,12 +525,15 @@ class chat
         std::string name_top_p = fullnames ? "top_p" : "P";
         std::string name_min_p = fullnames ? "min_p" : "I";
 
-        if (params.sparams.penalty_repeat != paramsDefault.sparams.penalty_repeat) result += "->" + name_penalty_repeat + " = " + std::to_string(params.sparams.penalty_repeat); 
-        if (params.sparams.penalty_threshold != paramsDefault.sparams.penalty_threshold) result += "->" + name_penalty_threshold + " = " + std::to_string(params.sparams.penalty_threshold); 
-        if (params.sparams.penalty_freq != paramsDefault.sparams.penalty_freq) result += "->" + name_penalty_freq + " = " + std::to_string(params.sparams.penalty_freq); 
-        if (params.sparams.penalty_present != paramsDefault.sparams.penalty_present) result += "->" + name_penalty_present + " = " + std::to_string(params.sparams.penalty_present); 
-        
-        
+        if (params.sparams.penalty_repeat != paramsDefault.sparams.penalty_repeat) result += std::format("-> {} = {:.3f}", name_penalty_repeat, params.sparams.penalty_repeat);
+        if (params.sparams.penalty_threshold != paramsDefault.sparams.penalty_threshold) result += std::format("-> {} = {:.3f}", name_penalty_threshold, params.sparams.penalty_threshold); 
+        if (params.sparams.penalty_freq != paramsDefault.sparams.penalty_freq) result += std::format("-> {} = {:.3f}", name_penalty_freq, params.sparams.penalty_freq);
+        if (params.sparams.penalty_present != paramsDefault.sparams.penalty_present) result += std::format("-> {} = {:.3f}", name_penalty_present, params.sparams.penalty_present);
+        //DRY
+        if (params.sparams.dry_multiplier != paramsDefault.sparams.dry_multiplier) result += std::format("-> {} = {:.3f}", name_dry_multiplier, params.sparams.dry_multiplier);
+        if (params.sparams.dry_base != paramsDefault.sparams.dry_base) result += std::format("-> {} = {:.3f}", name_dry_base, params.sparams.dry_base); 
+        if (params.sparams.dry_allowed_length != paramsDefault.sparams.dry_allowed_length) result += std::format("-> {} = {}", name_dry_allowed_length, params.sparams.dry_allowed_length);
+        if (params.sparams.dry_penalty_last_n != paramsDefault.sparams.dry_penalty_last_n) result += std::format("-> {} = {}", name_dry_penalty_last_n, params.sparams.dry_penalty_last_n);
         // mirostat is special 
         if (params.sparams.mirostat != paramsDefault.sparams.mirostat) {
             if (params.sparams.dynatemp_range > 0) {
@@ -537,7 +545,7 @@ class chat
                 result += std::format("/{:.2f}*{:.2f}", params.sparams.smoothing_factor, params.sparams.smoothing_curve);
             }
             result += "-> " + name_mirostat + " = " + std::to_string(params.sparams.mirostat); 
-            result += std::format("; {} =  {:.2f}", name_mirostat_tau, params.sparams.mirostat_tau); 
+            result += std::format("; {} = {:.2f}", name_mirostat_tau, params.sparams.mirostat_tau); 
             result += std::format("; {} = {:.2f}", name_mirostat_eta, params.sparams.mirostat_eta);
         } else {
             for (auto s : params.sparams.samplers_sequence){
@@ -1517,14 +1525,14 @@ class chat
         
         
         if (input_echo) {
-            printf("-pei");
+            //printf("-pei");
             for (auto id : embd) { 
                 //std::string tknStr = llama_token_to_string(ctx, id); 
                 const std::string tknStr = llama_token_to_piece(ctx, id); 
                 //result += (std::string) tknStr;
                 result += tknStr;
                 //if (streaming) printf("%s", tknStr);
-                std::cout<<tknStr;
+                //std::cout<<tknStr;
             }
 
         }
@@ -1638,7 +1646,7 @@ class chat
 // initial (instruct) processing
     std::string process_prompt(bool consoleOutput = true, bool verbose = false) {
 
-        printf("Starting initial prompt processing...\n");
+        if (debug) printf("Starting initial prompt processing...\n");
 
         std::string result;
         //std::cout << " * " << std::endl;
@@ -1684,7 +1692,7 @@ class chat
                     if (verbose) {
                         if (!streaming) std::cout << result << " ";
 
-                        printf("Return generate: prompt processed\n");
+                        if (debug) printf("Return generate: prompt processed\n");
                     }
 
                     // get_speed();
diff --git a/include/jsonParams.h b/include/jsonParams.h
@@ -480,8 +480,8 @@ static void getParamsFromJson(nlohmann::json& config, gpt_params& params, bool h
     if (checkJString(config, "samplers_sequence")) params.sparams.samplers_sequence = config["samplers_sequence"];
     if (checkJString(config, "bos")) params.bos = config["bos"];
     if (checkJString(config, "eos")) params.eos = config["eos"];
-    
     if (checkJNum(config, "seed")) params.seed = config["seed"];
+    // threading
     if (checkJNum(config, "n_threads")) params.n_threads = config["n_threads"];
     if (checkJNum(config, "n_threads_batch")) params.n_threads_batch = config["n_threads_batch"];
     if (checkJNum(config, "n_gpu_layers")) params.n_gpu_layers = config["n_gpu_layers"];
@@ -493,7 +493,7 @@ static void getParamsFromJson(nlohmann::json& config, gpt_params& params, bool h
     if (checkJNum(config, "min_keep")) params.sparams.min_keep = config["min_keep"];
     if (checkJNum(config, "n_batch")) params.n_batch = config["n_batch"];
     if (checkJNum(config, "n_ubatch")) params.n_ubatch = config["n_ubatch"];
-    
+    //sampling
     load_param_num(config, "temp", params.sparams.temp, params.sparams.temp_func);
     load_param_num(config, "dynatemp_range", params.sparams.dynatemp_range, params.sparams.dynatemp_range_func);
 
@@ -507,14 +507,23 @@ static void getParamsFromJson(nlohmann::json& config, gpt_params& params, bool h
     //if (checkJNum(config, "p_step")) params.sparams.p_step = config["p_step"];
     load_param_num(config, "p_step", params.sparams.p_step, params.sparams.p_step_func);
     if (checkJNum(config, "tfs_z")) params.sparams.tfs_z = config["tfs_z"];
+    //penalties
     if (checkJNum(config, "repeat_penalty")) params.sparams.penalty_repeat = config["repeat_penalty"];
+    if (checkJNum(config, "penalty_repeat")) params.sparams.penalty_repeat = config["penalty_repeat"];
     if (checkJNum(config, "penalty_threshold")) params.sparams.penalty_threshold = config["penalty_threshold"];
     if (checkJNum(config, "frequency_penalty")) params.sparams.penalty_freq = config["frequency_penalty"];
     if (checkJNum(config, "presence_penalty")) params.sparams.penalty_present = config["presence_penalty"];
+    //DRY
+    if (checkJNum(config, "dry_multiplier")) params.sparams.dry_multiplier = config["dry_multiplier"];
+    if (checkJNum(config, "dry_base")) params.sparams.dry_base = config["dry_base"];
+    if (checkJNum(config, "dry_allowed_length")) params.sparams.dry_allowed_length = config["dry_allowed_length"];
+    if (checkJNum(config, "dry_penalty_last_n")) params.sparams.dry_penalty_last_n = config["dry_penalty_last_n"];
+    //mirostat
     if (checkJNum(config, "mirostat")) params.sparams.mirostat = config["mirostat"];
     if (checkJNum(config, "mirostat_tau")) params.sparams.mirostat_tau = config["mirostat_tau"];
     if (checkJNum(config, "mirostat_eta")) params.sparams.mirostat_eta = config["mirostat_eta"];
     //if (config["color"].is_boolean()) params.use_color = config["color"];
+    // misc
     if (config["penalize_nl"].is_boolean()) params.sparams.penalize_nl = config["penalize_nl"];
     if (config["use_mmap"].is_boolean()) params.use_mmap = config["use_mmap"];
     if (config["flash_attn"].is_boolean()) params.flash_attn = config["flash_attn"];
diff --git a/thread_chat.h b/thread_chat.h