InfiniTensor
diff --git a/‎include/infinicore/ops.hpp‎
Lines changed: 1 addition & 0 deletions b/‎include/infinicore/ops.hpp‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎include/infinicore/ops/reshape_and_cache.hpp‎
Lines changed: 21 additions & 0 deletions b/‎include/infinicore/ops/reshape_and_cache.hpp‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎include/infiniop.h‎
Lines changed: 1 addition & 0 deletions b/‎include/infiniop.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎include/infiniop/ops/reshape_and_cache.h‎
Lines changed: 39 additions & 0 deletions b/‎include/infiniop/ops/reshape_and_cache.h‎
Lines changed: 39 additions & 0 deletions
diff --git a/‎python/infinicore/nn/functional/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎python/infinicore/nn/functional/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎python/infinicore/nn/functional/reshape_and_cache.py‎
Lines changed: 25 additions & 0 deletions b/‎python/infinicore/nn/functional/reshape_and_cache.py‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎python/infinicore/tensor.py‎
Lines changed: 2 additions & 1 deletion b/‎python/infinicore/tensor.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/infinicore/ops/reshape_and_cache/reshape_and_cache.cc‎
Lines changed: 48 additions & 0 deletions b/‎src/infinicore/ops/reshape_and_cache/reshape_and_cache.cc‎
Lines changed: 48 additions & 0 deletions
diff --git a/‎src/infinicore/ops/reshape_and_cache/reshape_and_cache_infiniop.cc‎
Lines changed: 79 additions & 0 deletions b/‎src/infinicore/ops/reshape_and_cache/reshape_and_cache_infiniop.cc‎
Lines changed: 79 additions & 0 deletions
diff --git a/‎src/infinicore/pybind11/ops.hpp‎
Lines changed: 2 additions & 0 deletions b/‎src/infinicore/pybind11/ops.hpp‎
Lines changed: 2 additions & 0 deletions
@@ -15,6 +15,7 @@
 #include "ops/paged_caching.hpp"
 #include "ops/random_sample.hpp"
 #include "ops/rearrange.hpp"
+#include "ops/reshape_and_cache.hpp"
 #include "ops/rms_norm.hpp"
 #include "ops/rope.hpp"
 #include "ops/silu.hpp"
 
@@ -0,0 +1,21 @@
+#pragma once
+
+#include "../device.hpp"
+#include "../graph/graph.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+
+INFINICORE_GRAPH_OP_CLASS(ReshapeAndCache, Tensor &, Tensor &, Tensor &, Tensor &, Tensor &,
+                          const std::string &, Tensor &, Tensor &);
+
+void reshape_and_cache(Tensor &key,          // [num_tokens, num_heads, head_size]
+                       Tensor &value,        // [num_tokens, num_heads, head_size]
+                       Tensor &key_cache,    // [num_blocks, num_heads, head_size/x, block_size, x]
+                       Tensor &value_cache,  // [num_blocks, num_heads, head_size, block_size]
+                       Tensor &slot_mapping, // [num_tokens]
+                       const std::string &kv_cache_dtype,
+                       Tensor &k_scale,
+                       Tensor &v_scale);
+
+} // namespace infinicore::op
@@ -26,6 +26,7 @@
 #include "infiniop/ops/random_sample.h"
 #include "infiniop/ops/rearrange.h"
 #include "infiniop/ops/relu.h"
+#include "infiniop/ops/reshape_and_cache.h"
 #include "infiniop/ops/rms_norm.h"
 #include "infiniop/ops/rope.h"
 #include "infiniop/ops/sigmoid.h"
 
@@ -0,0 +1,39 @@
+#ifndef __INFINIOP_RESHAPE_AND_CACHE_API_H__
+#define __INFINIOP_RESHAPE_AND_CACHE_API_H__
+
+#include "../operator_descriptor.h"
+#include <stdint.h>
+
+typedef struct InfiniopDescriptor *infiniopReshapeAndCacheDescriptor_t;
+
+__C __export infiniStatus_t infiniopCreateReshapeAndCacheDescriptor(
+    infiniopHandle_t handle,
+    infiniopReshapeAndCacheDescriptor_t *desc_ptr,
+    infiniopTensorDescriptor_t key_desc,
+    infiniopTensorDescriptor_t value_desc,
+    infiniopTensorDescriptor_t key_cache_desc,
+    infiniopTensorDescriptor_t value_cache_desc,
+    infiniopTensorDescriptor_t slot_mapping_desc,
+    const char *kv_cache_dtype);
+
+__C __export infiniStatus_t infiniopGetReshapeAndCacheWorkspaceSize(
+    infiniopReshapeAndCacheDescriptor_t desc, size_t *size);
+
+__C __export infiniStatus_t infiniopReshapeAndCache(
+    infiniopReshapeAndCacheDescriptor_t desc,
+    void *workspace,
+    size_t workspace_size,
+    void *key,
+    void *value,
+    void *key_cache,
+    void *value_cache,
+    const void *slot_mapping,
+    const char *kv_cache_dtype,
+    void *k_scale,
+    void *v_scale,
+    void *stream);
+
+__C __export infiniStatus_t infiniopDestroyReshapeAndCacheDescriptor(
+    infiniopReshapeAndCacheDescriptor_t desc);
+
+#endif // __INFINIOP_RESHAPE_AND_CACHE_API_H__
@@ -8,6 +8,7 @@
 from .rope import RopeAlgo, rope
 from .silu import silu
 from .swiglu import swiglu
+from .reshape_and_cache import reshape_and_cache
 
 __all__ = [
     "causal_softmax",
@@ -21,4 +22,5 @@
     "silu",
     "swiglu",
     "paged_attention_v2",
+    "reshape_and_cache",
 ]
@@ -0,0 +1,25 @@
+from infinicore.lib import _infinicore
+from infinicore.tensor import Tensor, empty
+
+
+
+def reshape_and_cache(
+    key: Tensor,
+    value: Tensor,
+    key_cache: Tensor,
+    value_cache: Tensor,
+    slot_mapping: Tensor,
+    kv_cache_dtype:str,
+    k_scale: Tensor,
+    v_scale: Tensor ,
+):
+    _infinicore.reshape_and_cache(
+        key._underlying,
+        value._underlying,
+        key_cache._underlying,
+        value_cache._underlying,
+        slot_mapping._underlying,
+        kv_cache_dtype,
+        k_scale._underlying,
+        v_scale._underlying,
+    )
@@ -185,9 +185,10 @@ def from_torch(torch_tensor) -> Tensor:
     infini_type = to_infinicore_dtype(torch_tensor.dtype)
     infini_device = infinicore.device(torch_tensor.device.type, 0)
     return Tensor(
-        _infinicore.from_blob(
+        _infinicore.strided_from_blob(
             torch_tensor.data_ptr(),
             list(torch_tensor.shape),
+            list(torch_tensor.stride()),
             dtype=infini_type._underlying,
             device=infini_device._underlying,
         ),
 
@@ -0,0 +1,48 @@
+#include "infinicore/ops/reshape_and_cache.hpp"
+#include "../../utils.hpp"
+
+namespace infinicore::op {
+
+INFINICORE_GRAPH_OP_DISPATCHERS_IMPL(ReshapeAndCache);
+
+ReshapeAndCache::ReshapeAndCache(Tensor &key,
+                                 Tensor &value,
+                                 Tensor &key_cache,
+                                 Tensor &value_cache,
+                                 Tensor &slot_mapping,
+                                 const std::string &kv_cache_dtype,
+                                 Tensor &k_scale,
+                                 Tensor &v_scale) {
+    INFINICORE_ASSERT_TENSORS_SAME_DEVICE(key, value, key_cache, value_cache, slot_mapping);
+    INFINICORE_GRAPH_OP_DISPATCH(key->device().getType(),
+                                 key, value, key_cache, value_cache, slot_mapping,
+                                 kv_cache_dtype, k_scale, v_scale);
+}
+
+void ReshapeAndCache::execute(Tensor &key,
+                              Tensor &value,
+                              Tensor &key_cache,
+                              Tensor &value_cache,
+                              Tensor &slot_mapping,
+                              const std::string &kv_cache_dtype,
+                              Tensor &k_scale,
+                              Tensor &v_scale) {
+    INFINICORE_GRAPH_OP_RECORD_OR_RUN(
+        ReshapeAndCache,
+        key, value, key_cache, value_cache, slot_mapping,
+        kv_cache_dtype, k_scale, v_scale);
+}
+
+void reshape_and_cache(Tensor &key,          // [num_tokens, num_heads, head_size]
+                       Tensor &value,        // [num_tokens, num_heads, head_size]
+                       Tensor &key_cache,    // [num_blocks, num_heads, head_size/x, block_size, x]
+                       Tensor &value_cache,  // [num_blocks, num_heads, head_size, block_size]
+                       Tensor &slot_mapping, // [num_tokens]
+                       const std::string &kv_cache_dtype,
+                       Tensor &k_scale,
+                       Tensor &v_scale) {
+    ReshapeAndCache::execute(key, value, key_cache, value_cache, slot_mapping,
+                             kv_cache_dtype, k_scale, v_scale);
+}
+
+} // namespace infinicore::op
@@ -0,0 +1,79 @@
+#include "infinicore/ops/reshape_and_cache.hpp"
+
+#include "../infiniop_impl.hpp"
+
+namespace infinicore::op::reshape_and_cache_impl::infiniop {
+
+INFINIOP_CACHABLE_DESCRIPTOR(Descriptor, ReshapeAndCache, 100);
+
+struct PlannedMeta {
+    std::shared_ptr<Descriptor> descriptor;
+    graph::GraphTensor workspace;
+    graph::GraphTensor key;
+    graph::GraphTensor value;
+    graph::GraphTensor key_cache;
+    graph::GraphTensor value_cache;
+    graph::GraphTensor slot_mapping;
+    graph::GraphTensor k_scale;
+    graph::GraphTensor v_scale;
+    std::string kv_cache_dtype;
+};
+
+void *plan(Tensor &key,
+           Tensor &value,
+           Tensor &key_cache,
+           Tensor &value_cache,
+           Tensor &slot_mapping,
+           const std::string &kv_cache_dtype,
+           Tensor &k_scale,
+           Tensor &v_scale) {
+    size_t seed = hash_combine(key, value, key_cache, value_cache, slot_mapping);
+
+    INFINIOP_CACHABLE_DESCRIPTOR_GET_OR_CREATE(
+        Descriptor, descriptor, ReshapeAndCache,
+        seed,
+        key->desc(), value->desc(), key_cache->desc(), value_cache->desc(),
+        slot_mapping->desc(), kv_cache_dtype.c_str());
+
+    INFINIOP_WORKSPACE_TENSOR(workspace, ReshapeAndCache, descriptor);
+
+    return new PlannedMeta{
+        descriptor,
+        graph::GraphTensor(workspace),
+        graph::GraphTensor(key),
+        graph::GraphTensor(value),
+        graph::GraphTensor(key_cache),
+        graph::GraphTensor(value_cache),
+        graph::GraphTensor(slot_mapping),
+        graph::GraphTensor(k_scale),
+        graph::GraphTensor(v_scale),
+        kv_cache_dtype};
+}
+
+void run(void *planned_meta) {
+    auto *p = reinterpret_cast<PlannedMeta *>(planned_meta);
+
+    INFINICORE_CHECK_ERROR(
+        infiniopReshapeAndCache(
+            p->descriptor->desc,
+            p->workspace->data(),
+            p->workspace->numel(),
+            p->key->data(),
+            p->value->data(),
+            p->key_cache->data(),
+            p->value_cache->data(),
+            p->slot_mapping->data(),
+            p->kv_cache_dtype.c_str(),
+            p->k_scale->data(),
+            p->v_scale->data(),
+            context::getStream()));
+}
+
+void cleanup(void **planned_meta_ptr) {
+    delete *reinterpret_cast<PlannedMeta **>(planned_meta_ptr);
+    *planned_meta_ptr = nullptr;
+}
+
+INFINICORE_GRAPH_OP_REGISTER_ALLDEVICE(ReshapeAndCache, &plan, &run, &cleanup);
+
+} // namespace infinicore::op::reshape_and_cache_impl::infiniop
@@ -16,6 +16,7 @@
 #include "ops/paged_attention_prefill.hpp"
 #include "ops/paged_attention_v2.hpp"
 #include "ops/paged_caching.hpp"
+#include "ops/reshape_and_cache.hpp"
 #include "ops/random_sample.hpp"
 #include "ops/rearrange.hpp"
 #include "ops/rms_norm.hpp"
@@ -41,6 +42,7 @@ inline void bind(py::module &m) {
     bind_paged_attention_v2(m);
     bind_paged_attention_prefill(m);
     bind_paged_caching(m);
+    bind_reshape_and_cache(m);
     bind_random_sample(m);
     bind_rearrange(m);
     bind_rms_norm(m);