UCT/GDA: Collapsed CQ - 2

Artemy-Mellanox · Artemy-Mellanox · commit f00182ead71b · 2025-10-25T13:05:22.000Z
diff --git a/src/uct/ib/mlx5/gdaki/gdaki.c b/src/uct/ib/mlx5/gdaki/gdaki.c
@@ -184,6 +184,14 @@ static UCS_CLASS_INIT_FUNC(uct_rc_gdaki_ep_t, const uct_ep_params_t *params)
     dev_ep.cqe_num   = cq_attr.cq_size;
     dev_ep.sq_db     = self->sq_db;
 
+    status = UCT_CUDADRV_FUNC_LOG_ERR(
+            cuMemsetD8((CUdeviceptr)UCS_PTR_BYTE_OFFSET(self->ep_gpu,
+                                                        cq_attr.umem_offset),
+                       0xff, cq_attr.umem_len));
+    if (status != UCS_OK) {
+        goto err_dev_ep;
+    }
+
     status = UCT_CUDADRV_FUNC_LOG_ERR(
             cuMemcpyHtoD((CUdeviceptr)self->ep_gpu, &dev_ep, sizeof(dev_ep)));
     if (status != UCS_OK) {
diff --git a/src/uct/ib/mlx5/gdaki/gdaki.cuh b/src/uct/ib/mlx5/gdaki/gdaki.cuh
@@ -93,13 +93,49 @@ template<ucs_device_level_t level> UCS_F_DEVICE void uct_rc_mlx5_gda_sync(void)
     }
 }
 
+UCS_F_DEVICE uint16_t uct_rc_mlx5_gda_bswap16(uint16_t x)
+{
+    uint32_t ret;
+    asm volatile("{\n\t"
+                 ".reg .b32 mask;\n\t"
+                 ".reg .b32 ign;\n\t"
+                 "mov.b32 mask, 0x1;\n\t"
+                 "prmt.b32 %0, %1, ign, mask;\n\t"
+                 "}"
+                 : "=r"(ret)
+                 : "r"((uint32_t)x));
+    return ret;
+}
+
+UCS_F_DEVICE void uct_rc_mlx5_gda_read_cqe(uct_rc_gdaki_dev_ep_t *ep,
+                                           uint16_t *wqe_cnt, uint8_t *opcode)
+{
+    auto *cqe64        = reinterpret_cast<mlx5_cqe64*>(ep->cqe_daddr);
+    uint32_t *data_ptr = (uint32_t*)&cqe64->wqe_counter;
+    uint32_t data      = READ_ONCE(*data_ptr);
+
+    *wqe_cnt = uct_rc_mlx5_gda_bswap16(data);
+    if (opcode != NULL) {
+        *opcode = data >> 28;
+    }
+}
+
+UCS_F_DEVICE uint64_t uct_rc_mlx5_gda_calc_pi(uct_rc_gdaki_dev_ep_t *ep,
+                                              uint16_t wqe_cnt)
+{
+    uint64_t rsvd_idx = READ_ONCE(ep->sq_rsvd_index);
+    return rsvd_idx - ((rsvd_idx - wqe_cnt) & 0xffff);
+}
+
+
 UCS_F_DEVICE uint64_t uct_rc_mlx5_gda_max_alloc_wqe_base(
     uct_rc_gdaki_dev_ep_t *ep, unsigned count)
 {
-    /* TODO optimize by including sq_wqe_num in qp->sq_wqe_pi and updating it
-       when processing a new completion */
-    uint64_t pi = doca_gpu_dev_verbs_atomic_read<uint64_t,
-            DOCA_GPUNETIO_VERBS_RESOURCE_SHARING_MODE_GPU>(&ep->sq_wqe_pi);
+    uint16_t wqe_cnt;
+    uint64_t pi;
+
+    uct_rc_mlx5_gda_read_cqe(ep, &wqe_cnt, NULL);
+    pi = uct_rc_mlx5_gda_calc_pi(ep, wqe_cnt);
     return pi + ep->sq_wqe_num + 1 - count;
 }
 
@@ -501,20 +537,6 @@ UCS_F_DEVICE ucs_status_t uct_rc_mlx5_gda_ep_put_multi_partial(
     return UCS_INPROGRESS;
 }
 
-UCS_F_DEVICE uint16_t uct_rc_mlx5_gda_bswap16(uint16_t x)
-{
-    uint32_t ret;
-    asm volatile("{\n\t"
-                 ".reg .b32 mask;\n\t"
-                 ".reg .b32 ign;\n\t"
-                 "mov.b32 mask, 0x1;\n\t"
-                 "prmt.b32 %0, %1, ign, mask;\n\t"
-                 "}"
-                 : "=r"(ret)
-                 : "r"((uint32_t)x));
-    return ret;
-}
-
 UCS_F_DEVICE void
 uct_rc_mlx5_gda_qedump(const char *pfx, void *buff, ssize_t len)
 {
@@ -532,70 +554,9 @@ uct_rc_mlx5_gda_qedump(const char *pfx, void *buff, ssize_t len)
     }
 }
 
-UCS_F_DEVICE int uct_rc_mlx5_gda_trylock(int *lock) {
-    if (atomicCAS(lock, 0, 1) == 0) {
-        doca_gpu_dev_verbs_fence_acquire<DOCA_GPUNETIO_VERBS_SYNC_SCOPE_GPU>();
-        return 1;
-    }
-
-    return 0;
-}
-
-UCS_F_DEVICE void uct_rc_mlx5_gda_unlock(int *lock) {
-    cuda::atomic_ref<int, cuda::thread_scope_device> lock_aref(*lock);
-    lock_aref.store(0, cuda::std::memory_order_release);
-}
-
-UCS_F_DEVICE void uct_rc_mlx5_gda_progress_thread(uct_rc_gdaki_dev_ep_t *ep)
-{
-    if (!uct_rc_mlx5_gda_trylock(&ep->cq_lock)) {
-        return;
-    }
-
-    void *cqe                = ep->cqe_daddr;
-    auto *cqe64              = reinterpret_cast<mlx5_cqe64*>(cqe);
-
-    uint8_t opcode   = cqe64->op_own >> DOCA_GPUNETIO_VERBS_MLX5_CQE_OPCODE_SHIFT;
-    uint16_t wqe_cnt = uct_rc_mlx5_gda_bswap16(cqe64->wqe_counter);
-    uint16_t wqe_idx = wqe_cnt & (ep->sq_wqe_num - 1);
-
-    uint64_t sq_wqe_pi = ep->sq_wqe_pi;
-    sq_wqe_pi          = ((wqe_cnt - sq_wqe_pi) & 0xffff) + sq_wqe_pi;
-
-    if (opcode != MLX5_CQE_REQ_ERR) {
-        ep->sq_wqe_pi = sq_wqe_pi;
-        uct_rc_mlx5_gda_unlock(&ep->cq_lock);
-        return;
-    }
-
-    auto err_cqe = reinterpret_cast<mlx5_err_cqe_ex*>(cqe64);
-    auto wqe_ptr = uct_rc_mlx5_gda_get_wqe_ptr(ep, wqe_idx);
-    ucs_device_error("CQE with syndrome:%x vendor:%x hw:%x "
-                     "wqe_idx:0x%x qp:0x%x",
-                     err_cqe->syndrome, err_cqe->vendor_err_synd,
-                     err_cqe->hw_err_synd, wqe_idx,
-                     doca_gpu_dev_verbs_bswap32(err_cqe->s_wqe_opcode_qpn) &
-                             0xffffff);
-    uct_rc_mlx5_gda_qedump("WQE", wqe_ptr, 64);
-    uct_rc_mlx5_gda_qedump("CQE", cqe64, 64);
-    ep->sq_wqe_pi = sq_wqe_pi | UCT_RC_GDA_WQE_ERR;
-
-    uct_rc_mlx5_gda_unlock(&ep->cq_lock);
-}
-
 template<ucs_device_level_t level>
 UCS_F_DEVICE void uct_rc_mlx5_gda_ep_progress(uct_device_ep_h tl_ep)
 {
-    uct_rc_gdaki_dev_ep_t *ep = (uct_rc_gdaki_dev_ep_t*)tl_ep;
-    unsigned num_lanes;
-    unsigned lane_id;
-
-    uct_rc_mlx5_gda_exec_init<level>(lane_id, num_lanes);
-    if (lane_id == 0) {
-        uct_rc_mlx5_gda_progress_thread(ep);
-    }
-
-    uct_rc_mlx5_gda_sync<level>();
 }
 
 template<ucs_device_level_t level>
@@ -604,13 +565,22 @@ UCS_F_DEVICE ucs_status_t uct_rc_mlx5_gda_ep_check_completion(
 {
     uct_rc_gdaki_dev_ep_t *ep = reinterpret_cast<uct_rc_gdaki_dev_ep_t*>(tl_ep);
     uct_rc_gda_completion_t *comp = &tl_comp->rc_gda;
-    uint64_t sq_wqe_pi            = ep->sq_wqe_pi;
+    uint16_t wqe_cnt;
+    uint8_t opcode;
+    uint64_t pi;
+
+    uct_rc_mlx5_gda_read_cqe(ep, &wqe_cnt, &opcode);
+    pi = uct_rc_mlx5_gda_calc_pi(ep, wqe_cnt);
 
-    if ((sq_wqe_pi & UCT_RC_GDA_WQE_MASK) < comp->wqe_idx) {
+    if (pi < comp->wqe_idx) {
         return UCS_INPROGRESS;
     }
 
-    if (sq_wqe_pi & UCT_RC_GDA_WQE_ERR) {
+    if (opcode == MLX5_CQE_REQ_ERR) {
+        uint16_t wqe_idx = wqe_cnt & (ep->sq_wqe_num - 1);
+        auto wqe_ptr     = uct_rc_mlx5_gda_get_wqe_ptr(ep, wqe_idx);
+        uct_rc_mlx5_gda_qedump("WQE", wqe_ptr, 64);
+        uct_rc_mlx5_gda_qedump("CQE", ep->cqe_daddr, 64);
         return UCS_ERR_IO_ERROR;
     }
 
diff --git a/src/uct/ib/mlx5/gdaki/gdaki_dev.h b/src/uct/ib/mlx5/gdaki/gdaki_dev.h
@@ -19,9 +19,7 @@ typedef struct {
 
     uint64_t                     sq_rsvd_index;
     uint64_t                     sq_ready_index;
-    uint64_t                     sq_wqe_pi;
     int                          sq_lock;
-    int                          cq_lock;
 
     uint8_t                      *sq_wqe_daddr;
     uint32_t                     *sq_dbrec;
diff --git a/test/gtest/ucp/cuda/test_kernels.cu b/test/gtest/ucp/cuda/test_kernels.cu
@@ -140,7 +140,6 @@ ucp_test_kernel_get_state(const test_ucp_device_kernel_params_t &params,
             (device_ep->uct_tl_id == UCT_DEVICE_TL_RC_MLX5_GDA)) {
             uct_rc_gdaki_dev_ep_t *ep =
                         reinterpret_cast<uct_rc_gdaki_dev_ep_t*>(device_ep);
-            result.producer_index     = ep->sq_wqe_pi - result.producer_index;
             result.ready_index        = ep->sq_ready_index - result.ready_index;
         }
     }
@@ -239,7 +238,6 @@ launch_test_ucp_device_kernel(const test_ucp_device_kernel_params_t &params)
 
     ucx_cuda::device_result_ptr<test_ucp_device_kernel_result_t> result;
     result->status         = UCS_ERR_NOT_IMPLEMENTED;
-    result->producer_index = 0;
     result->ready_index    = 0;
 
     switch (params.level) {
diff --git a/test/gtest/ucp/cuda/test_kernels.h b/test/gtest/ucp/cuda/test_kernels.h
@@ -66,7 +66,6 @@ typedef struct {
 
 struct test_ucp_device_kernel_result_t {
     ucs_status_t status;
-    uint64_t     producer_index;
     uint64_t     ready_index;
 };
 
diff --git a/test/gtest/ucp/test_ucp_device.cc b/test/gtest/ucp/test_ucp_device.cc
@@ -12,9 +12,6 @@
 #include <common/cuda.h>
 #include "cuda/test_kernels.h"
 
-/* TODO: Enable these tests in CI */
-#define DISABLE_STRESS true
-
 class test_ucp_device : public ucp_test {
 public:
     static void get_test_variants(std::vector<ucp_test_variant> &variants);
@@ -321,7 +318,6 @@ class test_ucp_device_kernel : public test_ucp_device {
 
         uint64_t expected = params.num_iters * num_threads * count;
         EXPECT_UCS_OK(result.status);
-        EXPECT_EQ(expected - 1, result.producer_index);
         EXPECT_EQ(expected, result.ready_index);
     }
 };
@@ -484,8 +480,9 @@ UCS_TEST_P(test_ucp_device_xfer, put_single)
     list.dst_pattern_check(mem_list_index + 1, mem_list::SEED_DST);
 }
 
+/* TODO: Enable these tests in CI */
 UCS_TEST_SKIP_COND_P(test_ucp_device_xfer, put_single_stress_test,
-                     RUNNING_ON_VALGRIND || DISABLE_STRESS)
+                     RUNNING_ON_VALGRIND || true)
 {
 #ifdef __SANITIZE_ADDRESS__
     UCS_TEST_SKIP_R("Skipping stress test under ASAN");
@@ -538,7 +535,7 @@ UCS_TEST_P(test_ucp_device_xfer, put_multi)
 }
 
 UCS_TEST_SKIP_COND_P(test_ucp_device_xfer, put_multi_stress_test,
-                     RUNNING_ON_VALGRIND || DISABLE_STRESS)
+                     RUNNING_ON_VALGRIND || true)
 {
 #ifdef __SANITIZE_ADDRESS__
     UCS_TEST_SKIP_R("Skipping stress test under ASAN");

Original file line number	Diff line number	Diff line change
`@@ -140,7 +140,6 @@ ucp_test_kernel_get_state(const test_ucp_device_kernel_params_t &params,`
`140`	`140`	`(device_ep->uct_tl_id == UCT_DEVICE_TL_RC_MLX5_GDA)) {`
`141`	`141`	`uct_rc_gdaki_dev_ep_t *ep =`
`142`	`142`	`reinterpret_cast<uct_rc_gdaki_dev_ep_t*>(device_ep);`
`143`		`- result.producer_index = ep->sq_wqe_pi - result.producer_index;`
`144`	`143`	`result.ready_index = ep->sq_ready_index - result.ready_index;`
`145`	`144`	`}`
`146`	`145`	`}`
`@@ -239,7 +238,6 @@ launch_test_ucp_device_kernel(const test_ucp_device_kernel_params_t &params)`
`239`	`238`
`240`	`239`	`ucx_cuda::device_result_ptr<test_ucp_device_kernel_result_t> result;`
`241`	`240`	`result->status = UCS_ERR_NOT_IMPLEMENTED;`
`242`		`- result->producer_index = 0;`
`243`	`241`	`result->ready_index = 0;`
`244`	`242`
`245`	`243`	`switch (params.level) {`