Improve iterative refinement (#677)

rg20 · web-flow · commit 658daf1ea83d · 2025-12-10T03:48:06.000Z
This PR adds GMRES based iterative refinement. The cholesky (or LDL) factorization is used as the preconditioning strategy for the GMRES iterations. For now, this is enabled only for QP problems. Additional: * GPU-accelerated augmented multiply * Native device-vector support for sparse matrix multiply Authors: - Rajesh Gandham (https://github.com/rg20) Approvers: - Chris Maes (https://github.com/chris-maes) URL: #677
diff --git a/cpp/src/dual_simplex/barrier.cu b/cpp/src/dual_simplex/barrier.cu
@@ -1368,11 +1368,18 @@ class iteration_data_t {
     }
   }
 
+  template <typename T>
+  struct axpy_op {
+    T alpha;
+    T beta;
+    __host__ __device__ T operator()(T x, T y) const { return alpha * x + beta * y; }
+  };
+
   // y <- alpha * Augmented * x + beta * y
   void augmented_multiply(f_t alpha,
                           const dense_vector_t<i_t, f_t>& x,
                           f_t beta,
-                          dense_vector_t<i_t, f_t>& y) const
+                          dense_vector_t<i_t, f_t>& y)
   {
     const i_t m                 = A.m;
     const i_t n                 = A.n;
@@ -1381,22 +1388,53 @@ class iteration_data_t {
     dense_vector_t<i_t, f_t> y1 = y.head(n);
     dense_vector_t<i_t, f_t> y2 = y.tail(m);
 
+    rmm::device_uvector<f_t> d_x1(n, handle_ptr->get_stream());
+    rmm::device_uvector<f_t> d_x2(m, handle_ptr->get_stream());
+    rmm::device_uvector<f_t> d_y1(n, handle_ptr->get_stream());
+    rmm::device_uvector<f_t> d_y2(m, handle_ptr->get_stream());
+
+    raft::copy(d_x1.data(), x1.data(), n, handle_ptr->get_stream());
+    raft::copy(d_x2.data(), x2.data(), m, handle_ptr->get_stream());
+    raft::copy(d_y1.data(), y1.data(), n, handle_ptr->get_stream());
+    raft::copy(d_y2.data(), y2.data(), m, handle_ptr->get_stream());
+
     // y1 <- alpha ( -D * x_1 + A^T x_2) + beta * y1
-    dense_vector_t<i_t, f_t> r1(n);
-    diag.pairwise_product(x1, r1);
-    if (Q.n > 0) { matrix_vector_multiply(Q, 1.0, x1, 1.0, r1); }
-    y1.axpy(-alpha, r1, beta);
-    matrix_transpose_vector_multiply(A, alpha, x2, 1.0, y1);
 
+    rmm::device_uvector<f_t> d_r1(n, handle_ptr->get_stream());
+
+    // diag.pairwise_product(x1, r1);
+    // r1 <- D * x_1
+    thrust::transform(handle_ptr->get_thrust_policy(),
+                      d_x1.data(),
+                      d_x1.data() + n,
+                      d_diag_.data(),
+                      d_r1.data(),
+                      thrust::multiplies<f_t>());
+
+    // r1 <- Q x1 + D x1
+    if (Q.n > 0) {
+      // matrix_vector_multiply(Q, 1.0, x1, 1.0, r1);
+      cusparse_Q_view_.spmv(1.0, d_x1, 1.0, d_r1);
+    }
+
+    // y1 <- - alpha * r1 + beta * y1
+    // y1.axpy(-alpha, r1, beta);
+    thrust::transform(handle_ptr->get_thrust_policy(),
+                      d_r1.data(),
+                      d_r1.data() + n,
+                      d_y1.data(),
+                      d_y1.data(),
+                      axpy_op<f_t>{-alpha, beta});
+
+    // matrix_transpose_vector_multiply(A, alpha, x2, 1.0, y1);
+    cusparse_view_.transpose_spmv(alpha, d_x2, 1.0, d_y1);
     // y2 <- alpha ( A*x) + beta * y2
-    matrix_vector_multiply(A, alpha, x1, beta, y2);
+    // matrix_vector_multiply(A, alpha, x1, beta, y2);
+    cusparse_view_.spmv(alpha, d_x1, beta, d_y2);
 
-    for (i_t i = 0; i < n; ++i) {
-      y[i] = y1[i];
-    }
-    for (i_t i = n; i < n + m; ++i) {
-      y[i] = y2[i - n];
-    }
+    raft::copy(y.data(), d_y1.data(), n, stream_view_);
+    raft::copy(y.data() + n, d_y2.data(), m, stream_view_);
+    handle_ptr->sync_stream();
   }
 
   raft::handle_t const* handle_ptr;
@@ -1711,8 +1749,8 @@ int barrier_solver_t<i_t, f_t>::initial_point(iteration_data_t<i_t, f_t>& data)
     dense_vector_t<i_t, f_t> soln(lp.num_cols + lp.num_rows);
     i_t solve_status = data.chol->solve(rhs, soln);
     struct op_t {
-      op_t(const iteration_data_t<i_t, f_t>& data) : data_(data) {}
-      const iteration_data_t<i_t, f_t>& data_;
+      op_t(iteration_data_t<i_t, f_t>& data) : data_(data) {}
+      iteration_data_t<i_t, f_t>& data_;
       void a_multiply(f_t alpha,
                       const dense_vector_t<i_t, f_t>& x,
                       f_t beta,
@@ -2410,12 +2448,12 @@ i_t barrier_solver_t<i_t, f_t>::gpu_compute_search_direction(iteration_data_t<i_
     dense_vector_t<i_t, f_t> augmented_soln(lp.num_cols + lp.num_rows);
     data.chol->solve(augmented_rhs, augmented_soln);
     struct op_t {
-      op_t(const iteration_data_t<i_t, f_t>& data) : data_(data) {}
-      const iteration_data_t<i_t, f_t>& data_;
+      op_t(iteration_data_t<i_t, f_t>& data) : data_(data) {}
+      iteration_data_t<i_t, f_t>& data_;
       void a_multiply(f_t alpha,
                       const dense_vector_t<i_t, f_t>& x,
                       f_t beta,
-                      dense_vector_t<i_t, f_t>& y) const
+                      dense_vector_t<i_t, f_t>& y)
       {
         data_.augmented_multiply(alpha, x, beta, y);
       }
diff --git a/cpp/src/dual_simplex/cusparse_view.cu b/cpp/src/dual_simplex/cusparse_view.cu
@@ -268,12 +268,21 @@ void cusparse_view_t<i_t, f_t>::spmv(f_t alpha,
 {
   auto d_x = device_copy(x, handle_ptr_->get_stream());
   auto d_y = device_copy(y, handle_ptr_->get_stream());
-  detail::cusparse_dn_vec_descr_wrapper_t<f_t> x_cusparse = create_vector(d_x);
-  detail::cusparse_dn_vec_descr_wrapper_t<f_t> y_cusparse = create_vector(d_y);
-  spmv(alpha, x_cusparse, beta, y_cusparse);
+  spmv(alpha, d_x, beta, d_y);
   y = cuopt::host_copy<f_t, AllocatorB>(d_y, handle_ptr_->get_stream());
 }
 
+template <typename i_t, typename f_t>
+void cusparse_view_t<i_t, f_t>::spmv(f_t alpha,
+                                     const rmm::device_uvector<f_t>& x,
+                                     f_t beta,
+                                     rmm::device_uvector<f_t>& y)
+{
+  detail::cusparse_dn_vec_descr_wrapper_t<f_t> x_cusparse = create_vector(x);
+  detail::cusparse_dn_vec_descr_wrapper_t<f_t> y_cusparse = create_vector(y);
+  spmv(alpha, x_cusparse, beta, y_cusparse);
+}
+
 template <typename i_t, typename f_t>
 void cusparse_view_t<i_t, f_t>::spmv(f_t alpha,
                                      detail::cusparse_dn_vec_descr_wrapper_t<f_t> const& x,
@@ -311,12 +320,21 @@ void cusparse_view_t<i_t, f_t>::transpose_spmv(f_t alpha,
 {
   auto d_x = device_copy(x, handle_ptr_->get_stream());
   auto d_y = device_copy(y, handle_ptr_->get_stream());
-  detail::cusparse_dn_vec_descr_wrapper_t<f_t> x_cusparse = create_vector(d_x);
-  detail::cusparse_dn_vec_descr_wrapper_t<f_t> y_cusparse = create_vector(d_y);
-  transpose_spmv(alpha, x_cusparse, beta, y_cusparse);
+  transpose_spmv(alpha, d_x, beta, d_y);
   y = cuopt::host_copy<f_t, AllocatorB>(d_y, handle_ptr_->get_stream());
 }
 
+template <typename i_t, typename f_t>
+void cusparse_view_t<i_t, f_t>::transpose_spmv(f_t alpha,
+                                               const rmm::device_uvector<f_t>& x,
+                                               f_t beta,
+                                               rmm::device_uvector<f_t>& y)
+{
+  detail::cusparse_dn_vec_descr_wrapper_t<f_t> x_cusparse = create_vector(x);
+  detail::cusparse_dn_vec_descr_wrapper_t<f_t> y_cusparse = create_vector(y);
+  transpose_spmv(alpha, x_cusparse, beta, y_cusparse);
+}
+
 template <typename i_t, typename f_t>
 void cusparse_view_t<i_t, f_t>::transpose_spmv(
   f_t alpha,
diff --git a/cpp/src/dual_simplex/cusparse_view.hpp b/cpp/src/dual_simplex/cusparse_view.hpp
@@ -36,6 +36,7 @@ class cusparse_view_t {
             const std::vector<f_t, AllocatorA>& x,
             f_t beta,
             std::vector<f_t, AllocatorB>& y);
+  void spmv(f_t alpha, rmm::device_uvector<f_t> const& x, f_t beta, rmm::device_uvector<f_t>& y);
   void spmv(f_t alpha,
             detail::cusparse_dn_vec_descr_wrapper_t<f_t> const& x,
             f_t beta,
@@ -45,6 +46,10 @@ class cusparse_view_t {
                       const std::vector<f_t, AllocatorA>& x,
                       f_t beta,
                       std::vector<f_t, AllocatorB>& y);
+  void transpose_spmv(f_t alpha,
+                      rmm::device_uvector<f_t> const& x,
+                      f_t beta,
+                      rmm::device_uvector<f_t>& y);
   void transpose_spmv(f_t alpha,
                       detail::cusparse_dn_vec_descr_wrapper_t<f_t> const& x,
                       f_t beta,
diff --git a/cpp/src/dual_simplex/iterative_refinement.hpp b/cpp/src/dual_simplex/iterative_refinement.hpp