matter-labs
diff --git a/‎circuit_defs/prover_examples/src/gpu.rs‎
Lines changed: 14 additions & 2 deletions b/‎circuit_defs/prover_examples/src/gpu.rs‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎gpu_prover/native/ntt/natural_evals_to_bitrev_Z.cu‎
Lines changed: 49 additions & 9 deletions b/‎gpu_prover/native/ntt/natural_evals_to_bitrev_Z.cu‎
Lines changed: 49 additions & 9 deletions
diff --git a/‎gpu_prover/native/ntt/ntt.cuh‎
Lines changed: 4 additions & 2 deletions b/‎gpu_prover/native/ntt/ntt.cuh‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎gpu_prover/src/execution/gpu_worker.rs‎
Lines changed: 21 additions & 5 deletions b/‎gpu_prover/src/execution/gpu_worker.rs‎
Lines changed: 21 additions & 5 deletions
diff --git a/‎gpu_prover/src/ntt/mod.rs‎
Lines changed: 46 additions & 3 deletions b/‎gpu_prover/src/ntt/mod.rs‎
Lines changed: 46 additions & 3 deletions
@@ -256,8 +256,14 @@ pub fn gpu_prove_image_execution_for_machine_with_gpu_tracers<
         let log_domain_size = trace_len.trailing_zeros();
         let log_tree_cap_size =
             OPTIMAL_FOLDING_PROPERTIES[log_domain_size as usize].total_caps_size_log2 as u32;
-        let mut setup =
-            SetupPrecomputations::new(circuit, log_lde_factor, log_tree_cap_size, prover_context)?;
+        let mut setup = SetupPrecomputations::new(
+            circuit,
+            log_lde_factor,
+            log_tree_cap_size,
+            false,
+            false,
+            prover_context,
+        )?;
         setup.schedule_transfer(Arc::new(setup_evaluations), prover_context)?;
         setup
     };
@@ -302,6 +308,8 @@ pub fn gpu_prove_image_execution_for_machine_with_gpu_tracers<
                 NUM_QUERIES,
                 POW_BITS,
                 None,
+                false,
+                false,
                 prover_context,
             )?;
             job.finish()?
@@ -372,6 +380,8 @@ pub fn gpu_prove_image_execution_for_machine_with_gpu_tracers<
                 circuit,
                 log_lde_factor,
                 log_tree_cap_size,
+                false,
+                false,
                 prover_context,
             )?;
             setup.schedule_transfer(Arc::new(setup_evaluations), prover_context)?;
@@ -407,6 +417,8 @@ pub fn gpu_prove_image_execution_for_machine_with_gpu_tracers<
                     NUM_QUERIES,
                     POW_BITS,
                     None,
+                    false,
+                    false,
                     prover_context,
                 )?;
                 job.finish()?
 
@@ -8,7 +8,7 @@ namespace airbender::ntt {
 // register array accesses dynamic and cause spilling. But, bizarrely, it doesn't: it has the opposite effect and
 // prevents spilling.
 
-template <unsigned LOG_VALS_PER_THREAD, bool evals_are_coset>
+template <unsigned LOG_VALS_PER_THREAD, bool evals_are_coset, bool evals_are_compressed = false>
 DEVICE_FORCEINLINE void evals_to_Z_final_stages_warp(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in,
                                                      vectorized_e2_matrix_setter<st_modifier::cg> gmem_out, const unsigned start_stage,
                                                      const unsigned stages_this_launch, const unsigned log_n, const unsigned num_Z_cols,
@@ -100,8 +100,13 @@ DEVICE_FORCEINLINE void evals_to_Z_final_stages_warp(vectorized_e2_matrix_getter
         const unsigned mem_idx = gmem_offset + 64 * i + 2 * lane_id;
         const unsigned idx0 = bitrev(mem_idx, log_n);
         const unsigned idx1 = bitrev(mem_idx + 1, log_n);
-        vals[2 * i] = lde_scale<true>(vals[2 * i], idx0, 1, 1, log_n);
-        vals[2 * i + 1] = lde_scale<true>(vals[2 * i + 1], idx1, 1, 1, log_n);
+        if (evals_are_compressed) {
+          vals[2 * i] = lde_scale_and_shift<true>(vals[2 * i], idx0, 1, 1, log_n);
+          vals[2 * i + 1] = lde_scale_and_shift<true>(vals[2 * i + 1], idx1, 1, 1, log_n);
+        } else {
+          vals[2 * i] = lde_scale<true>(vals[2 * i], idx0, 1, 1, log_n);
+          vals[2 * i + 1] = lde_scale<true>(vals[2 * i + 1], idx1, 1, 1, log_n);
+        }
       }
     }
 
@@ -144,7 +149,23 @@ EXTERN __launch_bounds__(128, 8) __global__
   evals_to_Z_final_stages_warp<2, true>(gmem_in, gmem_out, start_stage, stages_this_launch, log_n, num_Z_cols, grid_offset);
 }
 
-template <unsigned LOG_VALS_PER_THREAD, bool evals_are_coset>
+EXTERN __launch_bounds__(128, 8) __global__
+    void ab_compressed_coset_evals_to_Z_final_8_stages_warp(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in,
+                                                            vectorized_e2_matrix_setter<st_modifier::cg> gmem_out, const unsigned start_stage,
+                                                            const unsigned stages_this_launch, const unsigned log_n, const unsigned num_Z_cols,
+                                                            const unsigned grid_offset) {
+  evals_to_Z_final_stages_warp<3, true, true>(gmem_in, gmem_out, start_stage, stages_this_launch, log_n, num_Z_cols, grid_offset);
+}
+
+EXTERN __launch_bounds__(128, 8) __global__
+    void ab_compressed_coset_evals_to_Z_final_7_stages_warp(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in,
+                                                            vectorized_e2_matrix_setter<st_modifier::cg> gmem_out, const unsigned start_stage,
+                                                            const unsigned stages_this_launch, const unsigned log_n, const unsigned num_Z_cols,
+                                                            const unsigned grid_offset) {
+  evals_to_Z_final_stages_warp<2, true, true>(gmem_in, gmem_out, start_stage, stages_this_launch, log_n, num_Z_cols, grid_offset);
+}
+
+template <unsigned LOG_VALS_PER_THREAD, bool evals_are_coset, bool evals_are_compressed = false>
 DEVICE_FORCEINLINE void evals_to_Z_final_stages_block(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in,
                                                       vectorized_e2_matrix_setter<st_modifier::cg> gmem_out, const unsigned start_stage,
                                                       const unsigned stages_this_launch, const unsigned log_n, const unsigned num_Z_cols,
@@ -326,8 +347,13 @@ DEVICE_FORCEINLINE void evals_to_Z_final_stages_block(vectorized_e2_matrix_gette
         const unsigned mem_idx = gmem_offset + 64 * i + 2 * lane_id;
         const unsigned idx0 = bitrev(mem_idx, log_n);
         const unsigned idx1 = bitrev(mem_idx + 1, log_n);
-        vals[2 * i] = lde_scale<true>(vals[2 * i], idx0, 1, 1, log_n);
-        vals[2 * i + 1] = lde_scale<true>(vals[2 * i + 1], idx1, 1, 1, log_n);
+        if (evals_are_compressed) {
+          vals[2 * i] = lde_scale_and_shift<true>(vals[2 * i], idx0, 1, 1, log_n);
+          vals[2 * i + 1] = lde_scale_and_shift<true>(vals[2 * i + 1], idx1, 1, 1, log_n);
+        } else {
+          vals[2 * i] = lde_scale<true>(vals[2 * i], idx0, 1, 1, log_n);
+          vals[2 * i + 1] = lde_scale<true>(vals[2 * i + 1], idx1, 1, 1, log_n);
+        }
       }
     }
 
@@ -356,6 +382,14 @@ EXTERN __launch_bounds__(512, 2) __global__
   evals_to_Z_final_stages_block<3, true>(gmem_in, gmem_out, start_stage, stages_this_launch, log_n, num_Z_cols, grid_offset);
 }
 
+EXTERN __launch_bounds__(512, 2) __global__
+    void ab_compressed_coset_evals_to_Z_final_9_to_12_stages_block(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in,
+                                                                   vectorized_e2_matrix_setter<st_modifier::cg> gmem_out, const unsigned start_stage,
+                                                                   const unsigned stages_this_launch, const unsigned log_n, const unsigned num_Z_cols,
+                                                                   const unsigned grid_offset) {
+  evals_to_Z_final_stages_block<3, true, true>(gmem_in, gmem_out, start_stage, stages_this_launch, log_n, num_Z_cols, grid_offset);
+}
+
 // This kernel basically reverses the pattern of the b2n_noninitial_stages_block kernel.
 template <unsigned LOG_VALS_PER_THREAD>
 DEVICE_FORCEINLINE void evals_to_Z_nonfinal_stages_block(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in,
@@ -559,7 +593,8 @@ EXTERN __launch_bounds__(512, 2) __global__
 // Simple, non-optimized kernel used for log_n < 16, to unblock debugging small proofs.
 EXTERN __launch_bounds__(512, 2) __global__
     void ab_evals_to_Z_one_stage(vectorized_e2_matrix_getter<ld_modifier::cg> gmem_in, vectorized_e2_matrix_setter<st_modifier::cg> gmem_out,
-                                 const unsigned start_stage, const unsigned log_n, const unsigned blocks_per_ntt, const bool evals_are_coset) {
+                                 const unsigned start_stage, const unsigned log_n, const unsigned blocks_per_ntt, const bool evals_are_coset,
+                                 const bool evals_are_compressed) {
   const unsigned col_pair = blockIdx.x / blocks_per_ntt;
   const unsigned bid_in_ntt = blockIdx.x % blocks_per_ntt;
   const unsigned tid_in_ntt = threadIdx.x + bid_in_ntt * blockDim.x;
@@ -585,8 +620,13 @@ EXTERN __launch_bounds__(512, 2) __global__
     a = e2f::mul(a, ab_inv_sizes[log_n]);
     b = e2f::mul(b, ab_inv_sizes[log_n]);
     if (evals_are_coset) {
-      a = lde_scale<true>(a, bitrev(a_idx, log_n), 1, 1, log_n);
-      b = lde_scale<true>(b, bitrev(b_idx, log_n), 1, 1, log_n);
+      if (evals_are_compressed) {
+        a = lde_scale_and_shift<true>(a, bitrev(a_idx, log_n), 1, 1, log_n);
+        b = lde_scale_and_shift<true>(b, bitrev(b_idx, log_n), 1, 1, log_n);
+      } else {
+        a = lde_scale<true>(a, bitrev(a_idx, log_n), 1, 1, log_n);
+        b = lde_scale<true>(b, bitrev(b_idx, log_n), 1, 1, log_n);
+      }
     }
   }
 
 
@@ -151,20 +151,22 @@ DEVICE_FORCEINLINE void load_noninitial_twiddles_warp(e2f *twiddle_cache, const
 }
 
 // Assumes coset_idx > 0
+template <bool inverse = false>
 DEVICE_FORCEINLINE e2f get_lde_scale_and_shift_factor(const unsigned k, const unsigned log_extension_degree, const unsigned coset_idx, const unsigned log_n) {
   // following the notation of https://eprint.iacr.org/2023/824.pdf Section 4
   const unsigned tau_power_of_w = coset_idx << (CIRCLE_GROUP_LOG_ORDER - log_n - log_extension_degree);
   const unsigned H_over_two = 1u << (log_n - 1);
   const unsigned power_of_w = k >= H_over_two ? tau_power_of_w * (k - H_over_two) : (1u << CIRCLE_GROUP_LOG_ORDER) - tau_power_of_w * (H_over_two - k);
-  return get_power_of_w(power_of_w, false);
+  return get_power_of_w(power_of_w, inverse);
 }
 
+template <bool inverse = false>
 DEVICE_FORCEINLINE e2f lde_scale_and_shift(const e2f Zk, const unsigned k, const unsigned log_extension_degree, const unsigned coset_idx,
                                            const unsigned log_n) {
   // Assumes the 0th coset is the main domain, as in zksync_airbender
   if (coset_idx == 0)
     return Zk;
-  const auto gauged_shift_factor = get_lde_scale_and_shift_factor(k, log_extension_degree, coset_idx, log_n);
+  const auto gauged_shift_factor = get_lde_scale_and_shift_factor<inverse>(k, log_extension_degree, coset_idx, log_n);
   return e2f::mul(Zk, gauged_shift_factor);
 }
 
 
@@ -1,7 +1,7 @@
 use super::messages::WorkerResult;
 use super::precomputations::CircuitPrecomputations;
 use crate::allocator::host::ConcurrentStaticHostAllocator;
-use crate::circuit_type::CircuitType;
+use crate::circuit_type::{CircuitType, MainCircuitType};
 use crate::cudart::device::set_device;
 use crate::cudart::result::CudaResult;
 use crate::prover::context::{ProverContext, ProverContextConfig};
@@ -121,6 +121,16 @@ const fn get_tree_cap_size(log_domain_size: u32) -> u32 {
     OPTIMAL_FOLDING_PROPERTIES[log_domain_size as usize].total_caps_size_log2 as u32
 }
 
+fn get_recompute_trees(circuit_type: CircuitType, context: &ProverContext) -> bool {
+    match circuit_type {
+        CircuitType::Main(main) => match main {
+            MainCircuitType::ReducedRiscVLog23Machine => (context.get_mem_size() >> 30) < 28, // less than 28GB
+            _ => false,
+        },
+        _ => false,
+    }
+}
+
 #[derive(Clone)]
 struct SetupHolder<'a> {
     pub setup: Rc<RefCell<SetupPrecomputations<'a>>>,
@@ -164,10 +174,13 @@ fn gpu_worker(
         assert!(domain_size.is_power_of_two());
         let log_domain_size = domain_size.trailing_zeros();
         let log_tree_cap_size = get_tree_cap_size(log_domain_size);
+        let recompute_trees = get_recompute_trees(circuit_type, &context);
         let mut setup = SetupPrecomputations::new(
             &precomputations.compiled_circuit,
             log_lde_factor,
             log_tree_cap_size,
+            false,
+            recompute_trees,
             &context,
         )?;
         match circuit_type {
@@ -185,7 +198,6 @@ fn gpu_worker(
             ),
         }
         setup.ensure_commitment_produced(&context)?;
-        setup.trace_holder.produce_tree_caps(&context)?;
         context.get_exec_stream().synchronize()?;
         if matches!(circuit_type, CircuitType::Main(_)) {
             let accessors = setup.trace_holder.get_tree_caps_accessors();
@@ -275,7 +287,8 @@ fn gpu_worker(
                 }
                 GpuWorkRequest::Proof(request) => {
                     let batch_id = request.batch_id;
-                    match request.circuit_type {
+                    let circuit_type = request.circuit_type;
+                    match circuit_type {
                         CircuitType::Main(main) => trace!(
                             "BATCH[{batch_id}] GPU_WORKER[{device_id}] producing proof for main circuit {:?} chunk {}",
                             main,
@@ -309,14 +322,15 @@ fn gpu_worker(
                         aux_boundary_values,
                     };
                     let setup = setup.unwrap();
-                    let circuit_sequence = match request.circuit_type {
+                    let circuit_sequence = match circuit_type {
                         CircuitType::Main(_) => request.circuit_sequence,
                         CircuitType::Delegation(_) => 0,
                     };
-                    let delegation_processing_type = match request.circuit_type {
+                    let delegation_processing_type = match circuit_type {
                         CircuitType::Main(_) => None,
                         CircuitType::Delegation(delegation) => Some(delegation as u16),
                     };
+                    let recompute_trees = get_recompute_trees(circuit_type, &context);
                     let job = prove(
                         precomputations.compiled_circuit.clone(),
                         external_values,
@@ -329,6 +343,8 @@ fn gpu_worker(
                         NUM_QUERIES,
                         POW_BITS,
                         None,
+                        false,
+                        recompute_trees,
                         &context,
                     )?;
                     JobType::Proof(job)
 
@@ -240,6 +240,7 @@ cuda_kernel!(
     log_n: u32,
     blocks_per_ntt: u32,
     evals_are_coset: bool,
+    evals_are_compressed: bool,
 );
 
 one_stage_kernel!(ab_evals_to_Z_one_stage);
@@ -263,6 +264,9 @@ n2b_multi_stage_kernel!(ab_main_domain_evals_to_Z_final_9_to_12_stages_block);
 n2b_multi_stage_kernel!(ab_coset_evals_to_Z_final_7_stages_warp);
 n2b_multi_stage_kernel!(ab_coset_evals_to_Z_final_8_stages_warp);
 n2b_multi_stage_kernel!(ab_coset_evals_to_Z_final_9_to_12_stages_block);
+n2b_multi_stage_kernel!(ab_compressed_coset_evals_to_Z_final_7_stages_warp);
+n2b_multi_stage_kernel!(ab_compressed_coset_evals_to_Z_final_8_stages_warp);
+n2b_multi_stage_kernel!(ab_compressed_coset_evals_to_Z_final_9_to_12_stages_block);
 
 #[allow(clippy::too_many_arguments)]
 fn natural_evals_to_bitrev_Z(
@@ -271,6 +275,7 @@ fn natural_evals_to_bitrev_Z(
     log_n: usize,
     num_bf_cols: usize,
     evals_are_coset: bool,
+    evals_are_compressed: bool,
     stream: &CudaStream,
 ) -> CudaResult<()> {
     assert!(log_n >= 1);
@@ -282,6 +287,9 @@ fn natural_evals_to_bitrev_Z(
     assert_eq!(inputs_matrix.cols(), num_bf_cols);
     assert_eq!(outputs_matrix.rows(), n);
     assert_eq!(outputs_matrix.cols(), num_bf_cols);
+    if !evals_are_coset {
+        assert!(!evals_are_compressed);
+    }
 
     let inputs_matrix = inputs_matrix.as_ptr_and_stride();
     let outputs_matrix_const = outputs_matrix.as_ptr_and_stride();
@@ -302,6 +310,7 @@ fn natural_evals_to_bitrev_Z(
             log_n as u32,
             blocks_per_ntt as u32,
             evals_are_coset,
+            evals_are_compressed,
         );
         kernel_function.launch(&config, &args)?;
         for stage in 1..log_n {
@@ -312,6 +321,7 @@ fn natural_evals_to_bitrev_Z(
                 log_n as u32,
                 blocks_per_ntt as u32,
                 evals_are_coset,
+                evals_are_compressed,
             );
             kernel_function.launch(&config, &args)?;
         }
@@ -330,7 +340,11 @@ fn natural_evals_to_bitrev_Z(
                 match kern {
                     FINAL_7_WARP => (
                         if evals_are_coset {
-                            ab_coset_evals_to_Z_final_7_stages_warp
+                            if evals_are_compressed {
+                                ab_compressed_coset_evals_to_Z_final_7_stages_warp
+                            } else {
+                                ab_coset_evals_to_Z_final_7_stages_warp
+                            }
                         } else {
                             ab_main_domain_evals_to_Z_final_7_stages_warp
                         },
@@ -339,7 +353,11 @@ fn natural_evals_to_bitrev_Z(
                     ),
                     FINAL_8_WARP => (
                         if evals_are_coset {
-                            ab_coset_evals_to_Z_final_8_stages_warp
+                            if evals_are_compressed {
+                                ab_compressed_coset_evals_to_Z_final_8_stages_warp
+                            } else {
+                                ab_coset_evals_to_Z_final_8_stages_warp
+                            }
                         } else {
                             ab_main_domain_evals_to_Z_final_8_stages_warp
                         },
@@ -348,7 +366,11 @@ fn natural_evals_to_bitrev_Z(
                     ),
                     FINAL_9_TO_12_BLOCK => (
                         if evals_are_coset {
-                            ab_coset_evals_to_Z_final_9_to_12_stages_block
+                            if evals_are_compressed {
+                                ab_compressed_coset_evals_to_Z_final_9_to_12_stages_block
+                            } else {
+                                ab_coset_evals_to_Z_final_9_to_12_stages_block
+                            }
                         } else {
                             ab_main_domain_evals_to_Z_final_9_to_12_stages_block
                         },
@@ -403,6 +425,7 @@ pub fn natural_trace_main_evals_to_bitrev_Z(
         log_n,
         num_bf_cols,
         false,
+        false,
         stream,
     )
 }
@@ -421,6 +444,26 @@ pub fn natural_composition_coset_evals_to_bitrev_Z(
         log_n,
         num_bf_cols,
         true,
+        false,
+        stream,
+    )
+}
+
+#[allow(clippy::too_many_arguments)]
+pub fn natural_compressed_coset_evals_to_bitrev_Z(
+    inputs_matrix: &(impl DeviceMatrixChunkImpl<BF> + ?Sized),
+    outputs_matrix: &mut (impl DeviceMatrixChunkMutImpl<BF> + ?Sized),
+    log_n: usize,
+    num_bf_cols: usize,
+    stream: &CudaStream,
+) -> CudaResult<()> {
+    natural_evals_to_bitrev_Z(
+        inputs_matrix,
+        outputs_matrix,
+        log_n,
+        num_bf_cols,
+        true,
+        true,
         stream,
     )
 }