crutcher
diff --git a/‎burn-book/src/building-blocks/tensor.md‎
Lines changed: 1 addition & 2 deletions b/‎burn-book/src/building-blocks/tensor.md‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎crates/burn-autodiff/src/ops/bool_tensor.rs‎
Lines changed: 2 additions & 2 deletions b/‎crates/burn-autodiff/src/ops/bool_tensor.rs‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎crates/burn-autodiff/src/ops/int_tensor.rs‎
Lines changed: 2 additions & 2 deletions b/‎crates/burn-autodiff/src/ops/int_tensor.rs‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎crates/burn-autodiff/src/ops/qtensor.rs‎
Lines changed: 4 additions & 3 deletions b/‎crates/burn-autodiff/src/ops/qtensor.rs‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎crates/burn-autodiff/src/ops/tensor.rs‎
Lines changed: 42 additions & 12 deletions b/‎crates/burn-autodiff/src/ops/tensor.rs‎
Lines changed: 42 additions & 12 deletions
diff --git a/‎crates/burn-autodiff/src/tests/slice.rs‎
Lines changed: 42 additions & 0 deletions b/‎crates/burn-autodiff/src/tests/slice.rs‎
Lines changed: 42 additions & 0 deletions
diff --git a/‎crates/burn-candle/src/ops/base.rs‎
Lines changed: 60 additions & 0 deletions b/‎crates/burn-candle/src/ops/base.rs‎
Lines changed: 60 additions & 0 deletions
diff --git a/‎crates/burn-candle/src/ops/bool_tensor.rs‎
Lines changed: 2 additions & 2 deletions b/‎crates/burn-candle/src/ops/bool_tensor.rs‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎crates/burn-candle/src/ops/int_tensor.rs‎
Lines changed: 2 additions & 2 deletions b/‎crates/burn-candle/src/ops/int_tensor.rs‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎crates/burn-candle/src/ops/qtensor.rs‎
Lines changed: 4 additions & 3 deletions b/‎crates/burn-candle/src/ops/qtensor.rs‎
Lines changed: 4 additions & 3 deletions
@@ -166,7 +166,7 @@ Those operations are available for all tensor kinds: `Int`, `Float`, and `Bool`.
 | `tensor.select(dim, indices)`               | `tensor.index_select(dim, indices)`                                       |
 | `tensor.select_assign(dim, indices, values)`| N/A                                                                       |
 | `tensor.shape()`                            | `tensor.shape`                                                            |
-| `tensor.slice(ranges)`                      | `tensor[(*ranges,)]`                                                      |
+| `tensor.slice(s![range;step])`              | `tensor[(*ranges,)]` or `tensor[start:end:step]`                          |
 | `tensor.slice_assign(ranges, values)`       | `tensor[(*ranges,)] = values`                                             |
 | `tensor.slice_fill(ranges, value)`          | `tensor[(*ranges,)] = value`                                              |
 | `tensor.slice_dim(dim, range)`              | N/A                                                                       |
@@ -181,7 +181,6 @@ Those operations are available for all tensor kinds: `Int`, `Float`, and `Bool`.
 | `tensor.unsqueeze_dim(dim)`                 | `tensor.unsqueeze(dim)`                                                   |
 | `tensor.unsqueeze_dims(dims)`               | N/A                                                                       |
 
-
 ### Numeric Operations
 
 Those operations are available for numeric tensor kinds: `Float` and `Int`.
 
@@ -32,8 +32,8 @@ impl<B: Backend, C: CheckpointStrategy> BoolTensorOps<Self> for Autodiff<B, C> {
         B::bool_reshape(tensor, shape)
     }
 
-    fn bool_slice(tensor: BoolTensor<B>, ranges: &[core::ops::Range<usize>]) -> BoolTensor<B> {
-        B::bool_slice(tensor, ranges)
+    fn bool_slice(tensor: BoolTensor<B>, slices: &[burn_tensor::Slice]) -> BoolTensor<B> {
+        B::bool_slice(tensor, slices)
     }
 
     fn bool_empty(shape: Shape, device: &Device<B>) -> BoolTensor<B> {
 
@@ -28,8 +28,8 @@ impl<B: Backend, C: CheckpointStrategy> IntTensorOps<Self> for Autodiff<B, C> {
         B::int_reshape(tensor, shape)
     }
 
-    fn int_slice(tensor: IntTensor<B>, ranges: &[core::ops::Range<usize>]) -> IntTensor<B> {
-        B::int_slice(tensor, ranges)
+    fn int_slice(tensor: IntTensor<B>, slices: &[burn_tensor::Slice]) -> IntTensor<B> {
+        B::int_slice(tensor, slices)
     }
 
     fn int_empty(
 
@@ -1,5 +1,3 @@
-use core::ops::Range;
-
 use burn_tensor::{
     Device, Shape, TensorData,
     backend::Backend,
@@ -84,7 +82,10 @@ impl<B: Backend, C: CheckpointStrategy> QTensorOps<Self> for Autodiff<B, C> {
         unimplemented!()
     }
 
-    fn q_slice(_tensor: QuantizedTensor<Self>, _ranges: &[Range<usize>]) -> QuantizedTensor<Self> {
+    fn q_slice(
+        _tensor: QuantizedTensor<Self>,
+        _slices: &[burn_tensor::Slice],
+    ) -> QuantizedTensor<Self> {
         unimplemented!()
     }
 
 
@@ -1130,24 +1130,31 @@ impl<B: Backend, C: CheckpointStrategy> FloatTensorOps<Self> for Autodiff<B, C>
         }
     }
 
-    fn float_slice(
-        tensor: FloatTensor<Self>,
-        ranges: &[core::ops::Range<usize>],
-    ) -> FloatTensor<Self> {
+    fn float_slice(tensor: FloatTensor<Self>, slices: &[burn_tensor::Slice]) -> FloatTensor<Self> {
+        // Check if any slice has step != 1
+        for (i, slice) in slices.iter().enumerate() {
+            if slice.step != 1 {
+                panic!(
+                    "Autodiff does not support slice with step != 1. Dimension {} has step {}",
+                    i, slice.step
+                );
+            }
+        }
+
         #[derive(Debug)]
         struct Index;
 
         #[derive(new, Debug)]
         struct RetroSlice<B: Backend> {
             tensor_id: NodeID,
-            ranges: Vec<core::ops::Range<usize>>,
+            slices: Vec<burn_tensor::Slice>,
             _backend: PhantomData<B>,
         }
 
         impl<B: Backend> RetroForward for RetroSlice<B> {
             fn forward(&self, states: &mut BackwardStates, out_node: NodeID) {
                 let tensor = states.get_state::<B::FloatTensorPrimitive>(&self.tensor_id);
-                let out = B::float_slice(tensor, &self.ranges);
+                let out = B::float_slice(tensor, &self.slices);
                 states.save(out_node, out)
             }
         }
@@ -1170,22 +1177,30 @@ impl<B: Backend, C: CheckpointStrategy> FloatTensorOps<Self> for Autodiff<B, C>
             }
         }
 
+        // Convert slices to ranges for backward compatibility in State
+        let shape = tensor.primitive.shape();
+        let ranges: Vec<core::ops::Range<usize>> = slices
+            .iter()
+            .enumerate()
+            .map(|(i, s)| s.to_range(shape.dims[i]))
+            .collect();
+
         match Index
             .prepare::<C>([tensor.node.clone()])
             .memory_bound()
-            .retro_forward(RetroSlice::<B>::new(tensor.node.id, ranges.to_vec()))
+            .retro_forward(RetroSlice::<B>::new(tensor.node.id, slices.to_vec()))
             .parents([&tensor])
             .stateful()
         {
             OpsKind::Tracked(prep) => prep.finish(
                 (
-                    ranges.to_vec(),
+                    ranges,
                     tensor.primitive.shape(),
                     B::float_device(&tensor.primitive),
                 ),
-                B::float_slice(tensor.primitive, ranges),
+                B::float_slice(tensor.primitive, slices),
             ),
-            OpsKind::UnTracked(prep) => prep.finish(B::float_slice(tensor.primitive, ranges)),
+            OpsKind::UnTracked(prep) => prep.finish(B::float_slice(tensor.primitive, slices)),
         }
     }
 
@@ -1234,7 +1249,16 @@ impl<B: Backend, C: CheckpointStrategy> FloatTensorOps<Self> for Autodiff<B, C>
                         let zeros = B::float_zeros(shape_rhs, &device, grad.dtype().into());
                         B::float_slice_assign(grad, &ranges_4lhs.unwrap(), zeros)
                     },
-                    |grad| B::float_slice(grad, &ranges_4rhs.unwrap()),
+                    |grad| {
+                        let slices: Vec<burn_tensor::Slice> = ranges_4rhs
+                            .unwrap()
+                            .iter()
+                            .map(|r| {
+                                burn_tensor::Slice::new(r.start as isize, Some(r.end as isize), 1)
+                            })
+                            .collect();
+                        B::float_slice(grad, &slices)
+                    },
                 );
             }
         }
@@ -2122,7 +2146,13 @@ impl<B: Backend, C: CheckpointStrategy> FloatTensorOps<Self> for Autodiff<B, C>
                         let mut ranges = ranges.clone();
                         ranges[self.dim] = current_index..dim_size + current_index;
                         current_index += dim_size;
-                        grads.register::<B>(node.id, B::float_slice(grad.clone(), &ranges));
+                        let slices: Vec<burn_tensor::Slice> = ranges
+                            .iter()
+                            .map(|r| {
+                                burn_tensor::Slice::new(r.start as isize, Some(r.end as isize), 1)
+                            })
+                            .collect();
+                        grads.register::<B>(node.id, B::float_slice(grad.clone(), &slices));
                     });
             }
 
 
@@ -130,4 +130,46 @@ mod tests {
             .to_data()
             .assert_approx_eq::<FT>(&cat_grad_2.to_data(), Tolerance::default());
     }
+
+    #[test]
+    #[ignore = "slice_assign with steps are not supported currently"]
+    fn should_diff_matmul_with_slice_stepped() {
+        use burn_tensor::s;
+        let data_1 = TensorData::from([[1.0, 7.0], [100.0, 100.0], [2.0, 3.0], [100.0, 100.0]]);
+        let data_2 = TensorData::from([[4.0, 100.0, 7.0, 100.0], [2.0, 100.0, 3.0, 15.0]]);
+
+        let device = Default::default();
+        let tensor_1 = TestAutodiffTensor::<2>::from_data(data_1, &device).require_grad();
+        let tensor_2 = TestAutodiffTensor::from_data(data_2, &device).require_grad();
+
+        let tensor_3 = tensor_1.clone().slice(s![0..;2, 0..2]); // [[1., 7.], [2., 3.]]
+        let tensor_4 = tensor_2.clone().slice(s![0..2, 0..;2]); // [[4., 7.], [2., 3.]]
+        let tensor_5 = tensor_3.clone().matmul(tensor_4);
+        let grads = tensor_5.backward();
+
+        let grad_1 = tensor_1.grad(&grads).unwrap();
+        let grad_2 = tensor_2.grad(&grads).unwrap();
+
+        grad_1.to_data().assert_eq(
+            &TensorData::from([[11., 5.], [0., 0.], [11., 5.], [0., 0.]]),
+            false,
+        );
+        grad_2.to_data().assert_eq(
+            &TensorData::from([[3., 0., 3., 0.], [10., 0., 10., 0.]]),
+            false,
+        );
+    }
+
+    #[test]
+    #[should_panic(expected = "Autodiff does not support slice with step != 1")]
+    fn should_panic_on_slice_with_step() {
+        use burn_tensor::s;
+
+        let data = TensorData::from([[1.0, 2.0, 3.0, 4.0], [5.0, 6.0, 7.0, 8.0]]);
+        let device = Default::default();
+        let tensor = TestAutodiffTensor::<2>::from_data(data, &device).require_grad();
+
+        // This should panic because step is 2
+        let _sliced = tensor.slice(s![.., 0..4; 2]);
+    }
 }
@@ -105,6 +105,66 @@ pub fn slice(tensor: CandleTensor, ranges: &[std::ops::Range<usize>]) -> CandleT
     CandleTensor::new(narrow_tensor)
 }
 
+pub fn slice_with_steps(tensor: CandleTensor, slices: &[burn_tensor::Slice]) -> CandleTensor {
+    let mut result_tensor = tensor.tensor;
+
+    for (dim, slice) in slices.iter().enumerate() {
+        if slice.step == 1 {
+            // Use narrow for step=1 (more efficient)
+            // Convert slice to range using tensor shape
+            let dim_size = result_tensor.dim(dim).unwrap();
+            let range = slice.to_range(dim_size);
+            let start = range.start;
+            let length = range.end - range.start;
+            result_tensor = result_tensor.narrow(dim, start, length).unwrap();
+        } else {
+            // Use index_select for step != 1
+            let dim_size = result_tensor.dim(dim).unwrap();
+            let range = slice.to_range(dim_size);
+            let start = range.start;
+            let end = range.end;
+            let step = slice.step;
+
+            // Generate indices based on step direction
+            let indices_vec = if step > 0 {
+                // Forward stepping
+                let step_usize = step as usize;
+                (start..end).step_by(step_usize).collect::<Vec<_>>()
+            } else {
+                // Backward stepping (negative step)
+                let step_usize = step.unsigned_abs();
+                // Start from end-1 and go backwards
+                let mut indices = Vec::new();
+                let mut idx = end - 1;
+                while idx >= start && idx < end {
+                    // Check for underflow
+                    indices.push(idx);
+                    if idx >= step_usize {
+                        idx -= step_usize;
+                    } else {
+                        break;
+                    }
+                }
+                indices
+            };
+
+            // Convert indices to tensor and use index_select
+            let indices_len = indices_vec.len();
+            let device = result_tensor.device();
+            let indices = candle_core::Tensor::from_vec(
+                indices_vec.iter().map(|&x| x as u32).collect::<Vec<_>>(),
+                indices_len,
+                device,
+            )
+            .unwrap();
+
+            result_tensor = result_tensor.index_select(&indices, dim).unwrap();
+        }
+    }
+
+    CandleTensor::new(result_tensor)
+}
+
 pub fn slice_assign(
     tensor: CandleTensor,
     ranges: &[std::ops::Range<usize>],
 
@@ -57,8 +57,8 @@ impl<F: FloatCandleElement, I: IntCandleElement> BoolTensorOps<Self> for Candle<
         super::base::reshape(tensor, shape)
     }
 
-    fn bool_slice(tensor: BoolTensor<Self>, ranges: &[std::ops::Range<usize>]) -> BoolTensor<Self> {
-        super::base::slice(tensor, ranges)
+    fn bool_slice(tensor: BoolTensor<Self>, slices: &[burn_tensor::Slice]) -> BoolTensor<Self> {
+        super::base::slice_with_steps(tensor, slices)
     }
 
     fn bool_slice_assign(
 
@@ -41,8 +41,8 @@ impl<F: FloatCandleElement, I: IntCandleElement> IntTensorOps<Self> for Candle<F
         super::base::reshape(tensor, shape)
     }
 
-    fn int_slice(tensor: IntTensor<Self>, indices: &[std::ops::Range<usize>]) -> IntTensor<Self> {
-        super::base::slice(tensor, indices)
+    fn int_slice(tensor: IntTensor<Self>, slices: &[burn_tensor::Slice]) -> IntTensor<Self> {
+        super::base::slice_with_steps(tensor, slices)
     }
 
     fn int_slice_assign(
 
@@ -1,5 +1,3 @@
-use std::ops::Range;
-
 use burn_tensor::{
     DType, Device, Shape, TensorData,
     backend::Backend,
@@ -80,7 +78,10 @@ impl<F: FloatCandleElement, I: IntCandleElement> QTensorOps<Self> for Candle<F,
         unimplemented!()
     }
 
-    fn q_slice(_tensor: QuantizedTensor<Self>, _ranges: &[Range<usize>]) -> QuantizedTensor<Self> {
+    fn q_slice(
+        _tensor: QuantizedTensor<Self>,
+        _slices: &[burn_tensor::Slice],
+    ) -> QuantizedTensor<Self> {
         unimplemented!()
     }
Original file line number	Diff line number	Diff line change
`@@ -32,8 +32,8 @@ impl<B: Backend, C: CheckpointStrategy> BoolTensorOps<Self> for Autodiff<B, C> {`
`32`	`32`	`B::bool_reshape(tensor, shape)`
`33`	`33`	`}`
`34`	`34`
`35`		`- fn bool_slice(tensor: BoolTensor<B>, ranges: &[core::ops::Range<usize>]) -> BoolTensor<B> {`
`36`		`- B::bool_slice(tensor, ranges)`
	`35`	`+ fn bool_slice(tensor: BoolTensor<B>, slices: &[burn_tensor::Slice]) -> BoolTensor<B> {`
	`36`	`+ B::bool_slice(tensor, slices)`
`37`	`37`	`}`
`38`	`38`
`39`	`39`	`fn bool_empty(shape: Shape, device: &Device<B>) -> BoolTensor<B> {`
Original file line number	Diff line number	Diff line change
`@@ -28,8 +28,8 @@ impl<B: Backend, C: CheckpointStrategy> IntTensorOps<Self> for Autodiff<B, C> {`
`28`	`28`	`B::int_reshape(tensor, shape)`
`29`	`29`	`}`
`30`	`30`
`31`		`- fn int_slice(tensor: IntTensor<B>, ranges: &[core::ops::Range<usize>]) -> IntTensor<B> {`
`32`		`- B::int_slice(tensor, ranges)`
	`31`	`+ fn int_slice(tensor: IntTensor<B>, slices: &[burn_tensor::Slice]) -> IntTensor<B> {`
	`32`	`+ B::int_slice(tensor, slices)`
`33`	`33`	`}`
`34`	`34`
`35`	`35`	`fn int_empty(`
Original file line number	Diff line number	Diff line change
`@@ -57,8 +57,8 @@ impl<F: FloatCandleElement, I: IntCandleElement> BoolTensorOps<Self> for Candle<`
`57`	`57`	`super::base::reshape(tensor, shape)`
`58`	`58`	`}`
`59`	`59`
`60`		`- fn bool_slice(tensor: BoolTensor<Self>, ranges: &[std::ops::Range<usize>]) -> BoolTensor<Self> {`
`61`		`- super::base::slice(tensor, ranges)`
	`60`	`+ fn bool_slice(tensor: BoolTensor<Self>, slices: &[burn_tensor::Slice]) -> BoolTensor<Self> {`
	`61`	`+ super::base::slice_with_steps(tensor, slices)`
`62`	`62`	`}`
`63`	`63`
`64`	`64`	`fn bool_slice_assign(`
Original file line number	Diff line number	Diff line change
`@@ -41,8 +41,8 @@ impl<F: FloatCandleElement, I: IntCandleElement> IntTensorOps<Self> for Candle<F`
`41`	`41`	`super::base::reshape(tensor, shape)`
`42`	`42`	`}`
`43`	`43`
`44`		`- fn int_slice(tensor: IntTensor<Self>, indices: &[std::ops::Range<usize>]) -> IntTensor<Self> {`
`45`		`- super::base::slice(tensor, indices)`
	`44`	`+ fn int_slice(tensor: IntTensor<Self>, slices: &[burn_tensor::Slice]) -> IntTensor<Self> {`
	`45`	`+ super::base::slice_with_steps(tensor, slices)`
`46`	`46`	`}`
`47`	`47`
`48`	`48`	`fn int_slice_assign(`