microsoft · Binyang2014 · Sep 25, 2025 · Sep 25, 2025 · Sep 25, 2025 · Sep 25, 2025
diff --git a/src/gpu_utils.cc b/src/gpu_utils.cc
@@ -5,17 +5,19 @@
 #include <mscclpp/gpu.hpp>
 #include <mscclpp/gpu_utils.hpp>
 
+#include "debug.h"
+
 static inline bool isCudaTeardownError(cudaError_t err) {
 #if defined(__HIP_PLATFORM_AMD__)
   return err == cudaErrorContextIsDestroyed || err == cudaErrorInvalidDevice;
 #else   // !defined(__HIP_PLATFORM_AMD__)
   return err == cudaErrorCudartUnloading || err == cudaErrorContextIsDestroyed || err == cudaErrorInitializationError ||
-        err == cudaErrorInvalidDevice;
+         err == cudaErrorInvalidDevice || err == cudaErrorLaunchFailure;
 #endif  // !defined(__HIP_PLATFORM_AMD__)
 }
 
 static inline bool isCuTeardownError(CUresult r) {
-  return r == CUDA_ERROR_DEINITIALIZED || r == CUDA_ERROR_CONTEXT_IS_DESTROYED;
+  return r == CUDA_ERROR_DEINITIALIZED || r == CUDA_ERROR_CONTEXT_IS_DESTROYED || r == CUDA_ERROR_LAUNCH_FAILED;
 }
 
 #define MSCCLPP_CUDATHROW_IGNORE_TEARDOWN(cmd) \
@@ -36,6 +38,16 @@ static inline bool isCuTeardownError(CUresult r) {
     }                                        \
   } while (false)
 
+#define MSCCLPP_CUTHROW_IGNORE(cmd)                                        \
+  do {                                                                     \
+    CUresult __e = cmd;                                                    \
+    if (__e != CUDA_SUCCESS) {                                             \
+      const char* errStr;                                                  \
+      cuGetErrorString(__e, &errStr);                                      \
+      WARN("%s:%d Cuda failure %d '%s'", __FILE__, __LINE__, __e, errStr); \
+    }                                                                      \
+  } while (false)
+
 namespace mscclpp {
 
 AvoidCudaGraphCaptureGuard::AvoidCudaGraphCaptureGuard() : mode_(cudaStreamCaptureModeRelaxed), active_(true) {
@@ -242,9 +254,9 @@ void gpuFreePhysical(void* ptr) {
   MSCCLPP_CUTHROW_IGNORE_TEARDOWN(cuMemRetainAllocationHandle(&handle, ptr));
   MSCCLPP_CUTHROW_IGNORE_TEARDOWN(cuMemRelease(handle));
   MSCCLPP_CUTHROW_IGNORE_TEARDOWN(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
-  MSCCLPP_CUTHROW_IGNORE_TEARDOWN(cuMemUnmap((CUdeviceptr)ptr, size));
+  MSCCLPP_CUTHROW_IGNORE(cuMemUnmap((CUdeviceptr)ptr, size));
   MSCCLPP_CUTHROW_IGNORE_TEARDOWN(cuMemRelease(handle));
-  MSCCLPP_CUTHROW_IGNORE_TEARDOWN(cuMemAddressFree((CUdeviceptr)ptr, size));
+  MSCCLPP_CUTHROW_IGNORE(cuMemAddressFree((CUdeviceptr)ptr, size));
 }
 #endif  // CUDA_NVLS_API_AVAILABLE
 

diff --git a/test/torch/memory_report.py b/test/torch/memory_report.py
@@ -58,17 +58,19 @@ def main():
     group_ranks = list(range(world_size))
     if rank == 0:
         print(f"Creating new_group with ranks={group_ranks}", flush=True)
-    grp = dist.new_group(ranks=group_ranks, backend=backend)
+    grp0 = dist.new_group(ranks=group_ranks, backend=backend)
     x = torch.ones(nelems, device=local_rank, dtype=torch.float32) * (rank + 1)
-    dist.all_reduce(x, op=dist.ReduceOp.SUM, group=grp)
+    dist.all_reduce(x, op=dist.ReduceOp.SUM, group=grp0)
 
-    grp = dist.new_group(ranks=list(range(world_size)), backend=backend)
+    grp1 = dist.new_group(ranks=list(range(world_size)), backend=backend)
     x = torch.ones(nelems, device=local_rank, dtype=torch.float32) * (rank + 1)
-    dist.all_reduce(x, op=dist.ReduceOp.SUM, group=grp)
+    dist.all_reduce(x, op=dist.ReduceOp.SUM, group=grp1)
 
     dist.barrier()
 
     print(memory_report(local_rank))
+    dist.destroy_process_group(grp0)
+    dist.destroy_process_group(grp1)
     dist.destroy_process_group()