ggml-org
diff --git a/‎src/CMakeLists.txt‎
Lines changed: 2 additions & 2 deletions b/‎src/CMakeLists.txt‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/llama-arch.cpp‎
Lines changed: 1 addition & 1 deletion b/‎src/llama-arch.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/llama-arch.h‎
Lines changed: 1 addition & 1 deletion b/‎src/llama-arch.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/llama-graph.cpp‎
Lines changed: 9 additions & 9 deletions b/‎src/llama-graph.cpp‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎src/llama-graph.h‎
Lines changed: 8 additions & 8 deletions b/‎src/llama-graph.h‎
Lines changed: 8 additions & 8 deletions
@@ -22,9 +22,9 @@ add_library(llama
             llama-io.cpp
             llama-kv-cache-unified.cpp
             llama-kv-cache-unified-iswa.cpp
-            llama-kv-cache-recurrent.cpp
-            llama-kv-cache-hybrid-recurrent.cpp
             llama-memory.cpp
+            llama-memory-hybrid.cpp
+            llama-memory-recurrent.cpp
             llama-mmap.cpp
             llama-model-loader.cpp
             llama-model-saver.cpp
 
@@ -1831,7 +1831,7 @@ bool llm_arch_is_recurrent(const llm_arch & arch) {
     }
 }
 
-bool llm_arch_is_hybrid_recurrent(const llm_arch & arch) {
+bool llm_arch_is_hybrid(const llm_arch & arch) {
     // TODO: There are currently no hybrid models! Once there are, this will be
     //  the place to identify them
     switch (arch) {
 
@@ -442,4 +442,4 @@ llm_arch llm_arch_from_string(const std::string & name);
 const llm_tensor_info & llm_tensor_info_for(llm_tensor tensor);
 
 bool llm_arch_is_recurrent(const llm_arch& arch);
-bool llm_arch_is_hybrid_recurrent(const llm_arch& arch);
+bool llm_arch_is_hybrid   (const llm_arch& arch);
@@ -6,8 +6,8 @@
 
 #include "llama-kv-cache-unified.h"
 #include "llama-kv-cache-unified-iswa.h"
-#include "llama-kv-cache-recurrent.h"
-#include "llama-kv-cache-hybrid-recurrent.h"
+#include "llama-memory-hybrid.h"
+#include "llama-memory-recurrent.h"
 
 #include <cassert>
 #include <cmath>
@@ -1050,7 +1050,7 @@ ggml_tensor * llm_graph_context::build_pos_bias(ggml_tensor * pos_bucket, ggml_t
 }
 
 llm_graph_input_mem_hybrid * llm_graph_context::build_inp_mem_hybrid() const {
-    const auto * kv_state = static_cast<const llama_kv_cache_hybrid_recurrent_state *>(mstate);
+    const auto * kv_state = static_cast<const llama_memory_hybrid_state *>(mstate);
 
     auto inp = std::make_unique<llm_graph_input_mem_hybrid>(hparams, cparams, kv_state);
 
@@ -1447,7 +1447,7 @@ ggml_tensor * llm_graph_context::build_attn(
     ggml_build_forward_expand(gf, k_cur);
     ggml_build_forward_expand(gf, v_cur);
 
-    const auto * kv_state = static_cast<const llama_kv_cache_hybrid_recurrent_state *>(mstate)->get_state_attn();
+    const auto * kv_state = static_cast<const llama_memory_hybrid_state *>(mstate)->get_state_attn();
 
     // store to KV cache
     {
@@ -1553,7 +1553,7 @@ ggml_tensor * llm_graph_context::build_rs(
 }
 
 llm_graph_input_rs * llm_graph_context::build_rs_inp() const {
-    const auto * kv_state = static_cast<const llama_kv_cache_recurrent_state *>(mstate);
+    const auto * kv_state = static_cast<const llama_memory_recurrent_state *>(mstate);
 
     auto inp = std::make_unique<llm_graph_input_rs>(kv_state);
 
@@ -1572,7 +1572,7 @@ ggml_tensor * llm_graph_context::build_rs(
             int32_t   state_size,
             int32_t   n_seqs,
                bool   avoid_copies) const {
-    const auto * kv_state = static_cast<const llama_kv_cache_recurrent_state *>(mstate);
+    const auto * kv_state = static_cast<const llama_memory_recurrent_state *>(mstate);
 
     return build_rs(gf, s, inp->s_copy, state_size, n_seqs, kv_state->get_n_kv(), kv_state->get_head(), kv_state->get_size(), kv_state->get_rs_z(), avoid_copies);
 }
@@ -1584,7 +1584,7 @@ ggml_tensor * llm_graph_context::build_rs(
             int32_t   state_size,
             int32_t   n_seqs,
                bool   avoid_copies) const {
-    const auto * kv_state = static_cast<const llama_kv_cache_hybrid_recurrent_state *>(mstate)->get_state_recurrent();
+    const auto * kv_state = static_cast<const llama_memory_hybrid_state *>(mstate)->get_state_recurrent();
 
     return build_rs(gf, s, inp->s_copy, state_size, n_seqs, kv_state->get_n_kv(), kv_state->get_head(), kv_state->get_size(), kv_state->get_rs_z(), avoid_copies);
 }
@@ -1594,7 +1594,7 @@ ggml_tensor * llm_graph_context::build_rwkv_token_shift_load(
            ggml_cgraph * gf,
     const llama_ubatch & ubatch,
                  int   il) const {
-    const auto * kv_state = static_cast<const llama_kv_cache_recurrent_state *>(mstate);
+    const auto * kv_state = static_cast<const llama_memory_recurrent_state *>(mstate);
 
     const auto token_shift_count = hparams.token_shift_count;
 
@@ -1615,7 +1615,7 @@ ggml_tensor * llm_graph_context::build_rwkv_token_shift_store(
          ggml_tensor * token_shift,
   const llama_ubatch & ubatch,
                  int   il) const {
-    const auto * kv_state = static_cast<const llama_kv_cache_recurrent_state *>(mstate);
+    const auto * kv_state = static_cast<const llama_memory_recurrent_state *>(mstate);
 
     const auto token_shift_count = hparams.token_shift_count;
     const auto n_embd = hparams.n_embd;
 
@@ -21,8 +21,8 @@ struct llama_memory_state_i;
 
 class llama_kv_cache_unified_state;
 class llama_kv_cache_unified_iswa_state;
-class llama_kv_cache_recurrent_state;
-class llama_kv_cache_hybrid_recurrent_state;
+class llama_memory_recurrent_state;
+class llama_memory_hybrid_state;
 
 // certain models (typically multi-modal) can produce different types of graphs
 enum llm_graph_type {
@@ -191,14 +191,14 @@ class llm_graph_input_cls : public llm_graph_input_i {
 
 class llm_graph_input_rs : public llm_graph_input_i {
 public:
-    llm_graph_input_rs(const llama_kv_cache_recurrent_state * kv_state) : kv_state(kv_state) {}
+    llm_graph_input_rs(const llama_memory_recurrent_state * kv_state) : kv_state(kv_state) {}
     virtual ~llm_graph_input_rs() = default;
 
     void set_input(const llama_ubatch * ubatch) override;
 
     ggml_tensor * s_copy; // I32 [kv_size]
 
-    const llama_kv_cache_recurrent_state * kv_state;
+    const llama_memory_recurrent_state * kv_state;
 };
 
 class llm_graph_input_cross_embd : public llm_graph_input_i {
@@ -306,7 +306,7 @@ class llm_graph_input_mem_hybrid : public llm_graph_input_i {
     llm_graph_input_mem_hybrid(
             const llama_hparams & hparams,
             const llama_cparams & cparams,
-            const llama_kv_cache_hybrid_recurrent_state * kv_state) :
+            const llama_memory_hybrid_state * kv_state) :
         hparams(hparams),
         cparams(cparams),
         kv_state(kv_state) {
@@ -325,7 +325,7 @@ class llm_graph_input_mem_hybrid : public llm_graph_input_i {
     const llama_hparams & hparams;
     const llama_cparams & cparams;
 
-    const llama_kv_cache_hybrid_recurrent_state * kv_state;
+    const llama_memory_hybrid_state * kv_state;
 };
 
 //
@@ -635,11 +635,11 @@ struct llm_graph_context {
     //
 
     // TODO: avoid notion of "kv"
-    // TODO: move this implementation to llama_kv_cache_recurrent.
+    // TODO: move this implementation to llama_memory_recurrent.
     //       this is analogous to llama_kv_cache_unified::cpy_k / cpy_v
     //       when moving, avoid passing `ggml_cgraph` - only pass `ggml_context`. would likely need to split the
     //         implementation in 2 separate methods. the goal is to avoid calling `ggml_build_forward_expand` in
-    //         `llama_kv_cache_recurrent`
+    //         `llama_memory_recurrent`
     ggml_tensor * build_rs(
             ggml_cgraph * gf,
             ggml_tensor * s,
Original file line number	Diff line number	Diff line change
`@@ -1831,7 +1831,7 @@ bool llm_arch_is_recurrent(const llm_arch & arch) {`
`1831`	`1831`	`}`
`1832`	`1832`	`}`
`1833`	`1833`
`1834`		`-bool llm_arch_is_hybrid_recurrent(const llm_arch & arch) {`
	`1834`	`+bool llm_arch_is_hybrid(const llm_arch & arch) {`
`1835`	`1835`	`// TODO: There are currently no hybrid models! Once there are, this will be`
`1836`	`1836`	`// the place to identify them`
`1837`	`1837`	`switch (arch) {`