ggml-org
diff --git a/‎ggml/src/ggml-cann/aclnn_ops.h‎
Lines changed: 161 additions & 70 deletions b/‎ggml/src/ggml-cann/aclnn_ops.h‎
Lines changed: 161 additions & 70 deletions
@@ -651,8 +651,126 @@ void ggml_cann_conv_transpose_1d(ggml_backend_cann_context& ctx, ggml_tensor* ds
  */
 void ggml_cann_elu(ggml_backend_cann_context& ctx, ggml_tensor* dst);
 
+using AnyAclResource = std::unique_ptr<void, std::function<void(void*)>>;
+
+template<typename T>
+struct AclResourceTraits;
+template<>
+struct AclResourceTraits<aclTensor> {
+    static void destroy(void* p) {
+        ACL_CHECK(aclDestroyTensor(static_cast<aclTensor*>(p)));
+    }
+};
+template<>
+struct AclResourceTraits<aclIntArray> {
+    static void destroy(void* p) {
+        ACL_CHECK(aclDestroyIntArray(static_cast<aclIntArray*>(p)));
+    }
+};
+template<>
+struct AclResourceTraits<aclScalar> {
+    static void destroy(void* p) {
+        ACL_CHECK(aclDestroyScalar(static_cast<aclScalar*>(p)));
+    }
+};
+template<>
+struct AclResourceTraits<aclTensorList> {
+    static void destroy(void* p) {
+        ACL_CHECK(aclDestroyTensorList(static_cast<aclTensorList*>(p)));
+    }
+};
+
+template<typename T>
+AnyAclResource make_acl_resource(T* ptr) {
+    return AnyAclResource(
+        static_cast<void*>(ptr),
+        [](void* p) {
+            AclResourceTraits<T>::destroy(p);
+        }
+    );
+}
+
+template<typename... Args>
+void register_acl_resources(std::vector<AnyAclResource>& vec, Args*... args) {
+    (vec.emplace_back(make_acl_resource(args)), ...);
+}
+
+class aclnn_task : public cann_task {
+    public:
+        aclnn_task(aclnn_func_t aclnn_func, void * workspace_addr, uint64_t workspace_size, aclOpExecutor * executor,
+                   aclrtStream stream) :
+            aclnn_func_(aclnn_func),
+            workspace_addr_(workspace_addr),
+            workspace_size_(workspace_size),
+            executor_(executor),
+            stream_(stream) {}
+        virtual void run_task() override {
+            ACL_CHECK(aclnn_func_(workspace_addr_, workspace_size_, executor_, stream_));
+        }
+    private:
+        aclnn_func_t aclnn_func_;
+        void *          workspace_addr_;
+        uint64_t        workspace_size_;
+        aclOpExecutor * executor_;
+        aclrtStream     stream_;
+};
+    
+class resource_task : public cann_task {
+public:
+    resource_task(std::vector<AnyAclResource>&& resources){
+        resource_ = std::move(resources);
+    }
+
+    virtual void run_task() override {
+        resource_.clear();
+    }
+private:
+    std::vector<AnyAclResource> resource_;
+};
+
+class free_ptr_task : public cann_task {
+public:
+    free_ptr_task(void* ptr) : ptr_(ptr) {}
+
+    virtual void run_task() override {
+        free(ptr_);
+    }
+private:
+    void* ptr_;
+};
+
+class async_memcpy_task : public cann_task {
+public:
+    async_memcpy_task(void* dst, const void* src, size_t size, aclrtMemcpyKind kind, aclrtStream stream)
+        : dst_(dst), src_(src), size_(size), kind_(kind), stream_(stream) {}
+
+    virtual void run_task() override {
+        
+        ACL_CHECK(aclrtMemcpyAsync(dst_, size_, src_, size_, kind_, stream_));
+    }
+private:
+    void* dst_;
+    const void* src_;
+    size_t size_;
+    aclrtMemcpyKind kind_;
+    aclrtStream stream_;
+};
+
+class async_memset_task : public cann_task {
+    public:
+    async_memset_task(void* buffer, size_t size, int32_t value, aclrtStream stream)
+            : buffer_(buffer), size_(size), value_(value), stream_(stream) {}
+    
+        virtual void run_task() override {
+            ACL_CHECK(aclrtMemsetAsync(buffer_, size_, value_, size_, stream_));
+        }
+    private:
+        void* buffer_;
+        size_t size_;
+        int32_t value_;
+        aclrtStream stream_;
+};
 
-//#define ASYNC_SUBMIT
 /**
  * @brief Launches an asynchronous task using the memory allocator.
  *
@@ -670,94 +788,67 @@ void ggml_cann_elu(ggml_backend_cann_context& ctx, ggml_tensor* dst);
  * other task before this asynchronous task ends, because all tasks in the
  * same stream are executed in queue order.
  */
-#ifdef ASYNC_SUBMIT
-#define GGML_CANN_CALL_ACLNN_OP(CTX, OP_NAME, ...)                                              \
-    do {                                                                                        \
-        uint64_t        workspaceSize = 0;                                                      \
-        aclOpExecutor * executor;                                                               \
-        void *          workspaceAddr = nullptr;                                                \
-        ACL_CHECK(aclnn##OP_NAME##GetWorkspaceSize(__VA_ARGS__, &workspaceSize, &executor));    \
-        /* workspace should alloced in main thread to keep malloc order when using vmm. */      \
-        if (workspaceSize > 0) {                                                                \
-            ggml_cann_pool_alloc workspace_allocator(CTX.pool(), workspaceSize);                \
-            workspaceAddr = workspace_allocator.get();                                          \
-        }                                                                                       \
-        auto task = std::make_unique<aclnn_task>(aclnn##OP_NAME, workspaceAddr,                 \
-            workspaceSize, executor, CTX.stream());                                             \
-        CTX.task_queue.submit_task(std::move(task));                                            \
+
+#define GGML_CANN_CALL_ACLNN_OP(CTX, OP_NAME, ...)                                          \
+    do {                                                                                    \
+        uint64_t        workspaceSize = 0;                                                  \
+        aclOpExecutor * executor;                                                           \
+        void *          workspaceAddr = nullptr;                                            \
+        ACL_CHECK(aclnn##OP_NAME##GetWorkspaceSize(__VA_ARGS__, &workspaceSize, &executor));\
+        /* workspace should alloced in main thread to keep malloc order when using vmm. */  \
+        if (workspaceSize > 0) {                                                            \
+            ggml_cann_pool_alloc workspace_allocator(CTX.pool(), workspaceSize);            \
+            workspaceAddr = workspace_allocator.get();                                      \
+        }                                                                                   \
+        if (CTX.async_mode) {                                                               \
+            auto task =                                                                     \
+                std::make_unique<aclnn_task>(aclnn##OP_NAME, workspaceAddr, workspaceSize,  \
+                    executor, CTX.stream()); \
+            CTX.task_queue.submit_task(std::move(task));                                    \
+        } else {                                                                            \
+            ACL_CHECK(aclnn##OP_NAME(workspaceAddr, workspaceSize, executor, CTX.stream()));\
+        }                                                                                   \
     } while (0)
 
 template <typename... Args> 
 void ggml_cann_release_resources(ggml_backend_cann_context & ctx, Args &&... args) {
     std::vector<AnyAclResource> resources;
     register_acl_resources(resources, std::forward<Args>(args)...);
-    auto task = std::make_unique<resource_task>(std::move(resources));
-    ctx.task_queue.submit_task(std::move(task));
-}
-
-inline void ggml_cann_async_free(ggml_backend_cann_context * ctx, void * ptr) {
-    auto task = std::make_unique<free_ptr_task>(ptr);
-    ctx->task_queue.submit_task(std::move(task));
+    if(ctx.async_mode) {
+        auto task = std::make_unique<resource_task>(std::move(resources));
+        ctx.task_queue.submit_task(std::move(task));
+    }
 }
 
 inline void ggml_cann_async_memcpy(ggml_backend_cann_context & ctx, void * dst,
                                    const void * src, size_t len, aclrtMemcpyKind kind) {
-    auto task = std::make_unique<async_memcpy_task>(dst, const_cast<void *>(src), len, kind, ctx.stream());
-    ctx.task_queue.submit_task(std::move(task));
-}
-
-inline void ggml_cann_async_memcpy(ggml_backend_cann_context * ctx, void * dst,
-                                   const void * src, size_t len, aclrtMemcpyKind kind) {
-    auto task = std::make_unique<async_memcpy_task>(dst, const_cast<void *>(src), len, kind, ctx->stream());
-    ctx->task_queue.submit_task(std::move(task));
-}
-
-inline void ggml_cann_async_memset(ggml_backend_cann_context & ctx, void * buffer,
-                                   size_t size, int value) {
-    auto task = std::make_unique<async_memset_task>(buffer, size, value, ctx.stream());
-    ctx.task_queue.submit_task(std::move(task));
-}
-#else
-#define GGML_CANN_CALL_ACLNN_OP(CTX, OP_NAME, ...)                                                        \
-    do {                                                                                                  \
-        uint64_t        workspaceSize = 0;                                                                \
-        aclOpExecutor * executor;                                                                         \
-        void *          workspaceAddr = nullptr;                                                          \
-        ACL_CHECK(aclnn##OP_NAME##GetWorkspaceSize(__VA_ARGS__, &workspaceSize, &executor));              \
-        if (workspaceSize > 0) {                                                                          \
-            ggml_cann_pool_alloc workspace_allocator(CTX.pool(), workspaceSize);                          \
-            workspaceAddr = workspace_allocator.get();                                                    \
-        }                                                                                                 \
-        ACL_CHECK(aclnn##OP_NAME(workspaceAddr, workspaceSize, executor, CTX.stream()));                  \
-    } while (0)
-
-template <typename... Args>
-void ggml_cann_release_resources(ggml_backend_cann_context & ctx, Args &&... args) {
-    GGML_UNUSED(ctx);
-    std::vector<AnyAclResource> resources;
-    register_acl_resources(resources, std::forward<Args>(args)...);
-}
-
-inline void ggml_cann_async_free(ggml_backend_cann_context * ctx, void * ptr) {
-    ACL_CHECK(aclrtSynchronizeStream(ctx->stream()));
-    free(ptr);
-}
-
-inline void ggml_cann_async_memcpy(ggml_backend_cann_context & ctx, void * dst,
-                                  const void * src, size_t len, aclrtMemcpyKind kind) {
-    ACL_CHECK(aclrtMemcpyAsync(dst, len, src, len, kind, ctx.stream()));
+    if (ctx.async_mode) {
+        auto task = std::make_unique<async_memcpy_task>(dst, const_cast<void *>(src), len, kind, ctx.stream());
+        ctx.task_queue.submit_task(std::move(task));
+    } else {
+        ACL_CHECK(aclrtMemcpyAsync(dst, len, src, len, kind, ctx.stream()));
+    }
 }
 
 inline void ggml_cann_async_memcpy(ggml_backend_cann_context * ctx, void * dst,
                                    const void * src, size_t len, aclrtMemcpyKind kind) {
-    ACL_CHECK(aclrtMemcpyAsync(dst, len, src, len, kind, ctx->stream()));
+    if (ctx->async_mode) {
+        auto task = std::make_unique<async_memcpy_task>(dst, const_cast<void *>(src), len, kind, ctx->stream());
+        ctx->task_queue.submit_task(std::move(task));
+    } else {
+        ACL_CHECK(aclrtMemcpyAsync(dst, len, src, len, kind, ctx->stream()));
+    }
 }
 
 inline void ggml_cann_async_memset(ggml_backend_cann_context & ctx, void * buffer,
                                    size_t size, int value) {
-    ACL_CHECK(aclrtMemsetAsync(buffer, size, value, size, ctx.stream()));
+    if (ctx.async_mode) {
+        auto task = std::make_unique<async_memset_task>(buffer, size, value, ctx.stream());
+        ctx.task_queue.submit_task(std::move(task));
+    } else {
+        ACL_CHECK(aclrtMemsetAsync(buffer, size, value, size, ctx.stream()));
+    }
 }
-#endif
 
 /**
  * @brief Applies a element-wise operation to two input tensors using the CANN