Nexesenex
diff --git a/‎common/common.cpp‎
Lines changed: 1 addition & 8 deletions b/‎common/common.cpp‎
Lines changed: 1 addition & 8 deletions
diff --git a/‎common/common.h‎
Lines changed: 1 addition & 2 deletions b/‎common/common.h‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 0 additions & 22 deletions b/‎ggml/include/ggml.h‎
Lines changed: 0 additions & 22 deletions
diff --git a/‎ggml/src/ggml-cuda.cu‎
Lines changed: 2 additions & 50 deletions b/‎ggml/src/ggml-cuda.cu‎
Lines changed: 2 additions & 50 deletions
@@ -1106,10 +1106,6 @@ bool gpt_params_find_arg(int argc, char ** argv, const std::string & arg, gpt_pa
         params.fused_mmad = false;
         return true;
     }
-    if (arg == "-no-rcache" || arg == "--no-rope-cache") {
-        params.rope_cache = false;
-        return true;
-    }
     if (arg == "-ser" || arg == "--smart-expert-reduction") {
         CHECK_ARG
         auto values = string_split_pairs<int,float>(argv[i], ',');
@@ -1918,7 +1914,6 @@ void gpt_params_print_usage(int /*argc*/, char ** argv, const gpt_params & param
     options.push_back({ "*",           "-ger,  --grouped-expert-routing", "enable grouped expert routing (default: %s)", params.grouped_expert_routing ? "enabled" : "disabled" });
     options.push_back({ "*",           "-no-fug, --no-fused-up-gate",   "disaable fused up-gate (default: %s)", params.fused_up_gate ? "enabled" : "disabled" });
     options.push_back({ "*",           "-no-mmad, --no-fused-mul-multiadd", "disaable fused mul-multi_add (default: %s)", params.fused_mmad? "enabled" : "disabled" });
-    options.push_back({ "*",           "-no-rcache, --no-rope-cache",   "disaable RoPE cache (default: %s)", params.rope_cache ? "enabled" : "disabled" });
     options.push_back({ "*",         "-ser,  --smart-expert-reduction,","experts reduction (default: %d,%g)", params.min_experts, params.thresh_experts});
     options.push_back({ "*",         "-mqkv,  --merge-qkv,",            "merge Q,K,V (default: %d)", params.merge_qkv});
     options.push_back({ "*",           "-p,    --prompt PROMPT",        "prompt to start generation with\n"
@@ -2892,7 +2887,6 @@ struct llama_context_params llama_context_params_from_gpt_params(const gpt_param
     cparams.grouped_expert_routing = params.grouped_expert_routing;
     cparams.fused_up_gate     = params.fused_up_gate;
     cparams.fused_mmad        = params.fused_mmad;
-    cparams.rope_cache        = params.rope_cache;
     cparams.min_experts       = params.min_experts;
     cparams.thresh_experts    = params.thresh_experts;
     cparams.only_active_experts = params.only_active_exps;
@@ -4011,8 +4005,7 @@ void yaml_dump_non_result_info(FILE * stream, const gpt_params & params, const l
     fprintf(stream, "fused_moe: %s # default: false\n", params.fused_moe_up_gate ? "true" : "false");
     fprintf(stream, "grouped_expert_routing: %s # default: false\n", params.grouped_expert_routing ? "true" : "false");
     fprintf(stream, "fused_up_gate: %s # default: true\n", params.fused_up_gate ? "true" : "false");
-    fprintf(stream, "fused_mmad: %s # default: true\n", params.fused_mmad ? "true" : "false");
-    fprintf(stream, "rope_cache: %s # default: true\n", params.rope_cache ? "true" : "false");
+    fprintf(stream, "fused_mmad: %s # default: true\n", params.fused_mmad? "true" : "false");
     fprintf(stream, "ser: %d,%g # defaulr: -1,0\n", params.min_experts, params.thresh_experts);
     fprintf(stream, "temp: %f # default: 0.8\n", sparams.temp);
 
 
@@ -112,7 +112,7 @@ enum common_reasoning_format {
 enum common_webui {
     COMMON_WEBUI_NONE,
     COMMON_WEBUI_AUTO,
-    COMMON_WEBUI_LLAMACPP,
+    COMMON_WEBUI_LLAMACPP,  
 };
 
 common_webui common_webui_from_name(const std::string& format);
@@ -249,7 +249,6 @@ struct gpt_params {
     bool fused_up_gate     = true;  // fused up*unary(gate) op
     bool fused_mmad        = true;  // fused mul+multi_add op
     bool grouped_expert_routing = false; // if to use grouped expert routing (BailingMoeV2 arch)
-    bool rope_cache        = true;  // if to use RoPE cache (for supported models)
     int  min_experts       = -1;
     float thresh_experts   = 0;
 
 
@@ -640,8 +640,6 @@ extern "C" {
         GGML_OP_SOFT_MAX_BACK,
         GGML_OP_ROPE,
         GGML_OP_ROPE_BACK,
-        GGML_OP_ROPE_CACHE,
-        GGML_OP_ROPE_FAST,
         GGML_OP_CLAMP,
         GGML_OP_CONV_TRANSPOSE_1D,
         GGML_OP_IM2COL,
@@ -2023,26 +2021,6 @@ extern "C" {
             float                 beta_fast,
             float                 beta_slow);
 
-    GGML_API struct ggml_tensor * ggml_rope_cache(
-            struct ggml_context * ctx,
-            struct ggml_tensor  * b,
-            struct ggml_tensor  * c,
-            int                   ne0,
-            int                   n_dims,
-            int                   mode,
-            int                   n_ctx_orig,
-            float                 freq_base,
-            float                 freq_scale,
-            float                 ext_factor,
-            float                 attn_factor,
-            float                 beta_fast,
-            float                 beta_slow);
-
-    GGML_API struct ggml_tensor * ggml_rope_fast(
-            struct ggml_context * ctx,
-            struct ggml_tensor  * a,
-            struct ggml_tensor  * b);
-
     // clamp
     // in-place, returns view(a)
     GGML_API struct ggml_tensor * ggml_clamp(
 
@@ -3062,7 +3062,6 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
 
     auto next = i < cgraph->n_nodes - 1 ? cgraph->nodes[i+1] : nullptr;
 
-    //printf("%4d %s(%s)\n", i, ggml_op_name(dst->op), dst->name);
     switch (dst->op) {
         case GGML_OP_ARGMAX:
             ggml_cuda_argmax(ctx, dst);
@@ -3097,6 +3096,7 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
                 ggml_are_same_shape(dst, cgraph->nodes[i+1]->src[1]) &&
                 cgraph->nodes[i+1] == cgraph->nodes[i+2]->src[0] &&
                 ops_are_same_device(cgraph, i, i+2)) {
+                //printf("Fusing add->add->fused_rms of %s, %s, %s\n", dst->name, cgraph->nodes[i+1]->name, cgraph->nodes[i+2]->name);
                 ggml_cuda_op_fused_add_add_rms_norm(ctx, dst, cgraph->nodes[i+1], cgraph->nodes[i+2]);
                 i += 2;
             }
@@ -3244,27 +3244,7 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
             ggml_cuda_op_rms_norm(ctx, dst);
             break;
         case GGML_OP_FUSED_RMS_NORM:
-            //if (i + 6 < cgraph->n_nodes) {
-            //    printf("=== Fused rms_norm(%s)\n", dst->name);
-            //    for (int j = 1; j <= 6; ++j) printf("    %s(%s)\n", ggml_op_name(cgraph->nodes[i+j]->op), cgraph->nodes[i+j]->name);
-            //}
-            if (ENABLE_FUSION && i + 4 < cgraph->n_nodes &&
-                cgraph->nodes[i+1]->op == GGML_OP_VIEW &&
-                cgraph->nodes[i+2]->op == GGML_OP_FUSED_RMS_NORM &&
-                cgraph->nodes[i+3]->op == GGML_OP_ROPE_FAST &&
-                cgraph->nodes[i+4]->op == GGML_OP_ROPE_FAST &&
-                ggml_cuda_op_fused_rms_rope_fast(ctx, cgraph->nodes[i+3], cgraph->nodes[i+4])) {
-                i += 4;
-            }
-            else if (ENABLE_FUSION && i + 4 < cgraph->n_nodes &&
-                cgraph->nodes[i+1]->op == GGML_OP_ROPE_FAST &&
-                cgraph->nodes[i+2]->op == GGML_OP_RESHAPE &&
-                cgraph->nodes[i+3]->op == GGML_OP_FUSED_RMS_NORM &&
-                cgraph->nodes[i+4]->op == GGML_OP_ROPE_FAST &&
-                ggml_cuda_op_fused_rms_rope_fast(ctx, cgraph->nodes[i+1], cgraph->nodes[i+4])) {
-                i += 4;
-            }
-            else if (ENABLE_FUSION && i + 2 < cgraph->n_nodes &&
+            if (i + 2 < cgraph->n_nodes &&
                 cgraph->nodes[i+1]->op == GGML_OP_VIEW &&
                 cgraph->nodes[i+2]->op == GGML_OP_FUSED_RMS_NORM &&
                 dst->ne[2] == 1 && cgraph->nodes[i+2]->ne[2] == 1) {
@@ -3338,32 +3318,6 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
         case GGML_OP_ROPE_BACK:
             ggml_cuda_op_rope_back(ctx, dst);
             break;
-        case GGML_OP_ROPE_FAST:
-            if (ENABLE_FUSION && i + 3 < cgraph->n_nodes &&
-               (cgraph->nodes[i+1]->op == GGML_OP_RESHAPE || cgraph->nodes[i+1]->op == GGML_OP_VIEW) &&
-               (cgraph->nodes[i+2]->op == GGML_OP_RESHAPE || cgraph->nodes[i+2]->op == GGML_OP_VIEW) &&
-                cgraph->nodes[i+3]->op == GGML_OP_ROPE_FAST &&
-                ggml_cuda_op_fused_rope_fast(ctx, dst, cgraph->nodes[i+3])) {
-                i += 3;
-            }
-            else if (ENABLE_FUSION && i + 2 < cgraph->n_nodes &&
-               (cgraph->nodes[i+1]->op == GGML_OP_RESHAPE || cgraph->nodes[i+1]->op == GGML_OP_VIEW) &&
-                cgraph->nodes[i+2]->op == GGML_OP_ROPE_FAST &&
-                ggml_cuda_op_fused_rope_fast(ctx, dst, cgraph->nodes[i+2])) {
-                i += 2;
-            }
-            else if (ENABLE_FUSION && i + 1 < cgraph->n_nodes &&
-                cgraph->nodes[i+1]->op == GGML_OP_ROPE_FAST   &&
-                ggml_cuda_op_fused_rope_fast(ctx, dst, cgraph->nodes[i+1])) {
-                i += 1;
-            }
-            else {
-                ggml_cuda_op_rope_fast(ctx, dst);
-            }
-            break;
-        case GGML_OP_ROPE_CACHE:
-            ggml_cuda_op_rope_cache(ctx, dst);
-            break;
         case GGML_OP_IM2COL:
             ggml_cuda_op_im2col(ctx, dst);
             break;
@@ -4423,8 +4377,6 @@ GGML_CALL static bool ggml_backend_cuda_supports_op(ggml_backend_t backend, cons
         case GGML_OP_SOFT_CAP_MAX:
         case GGML_OP_ROPE:
         case GGML_OP_ROPE_BACK:
-        case GGML_OP_ROPE_FAST:
-        case GGML_OP_ROPE_CACHE:
             return true;
         //case GGML_OP_ROPE:
         //    return ggml_is_contiguous(op->src[0]);