Vector pipeline

gatesn · gatesn · commit fcc68465a86f · 2025-11-20T10:22:40.000-05:00
Signed-off-by: Nicholas Gates &lt;nick@nickgates.com&gt;
diff --git a/vortex-compute/src/filter/slice.rs b/vortex-compute/src/filter/slice.rs
@@ -75,61 +75,166 @@ impl<const NB: usize, T: Copy> Filter<BitView<'_, NB>> for &[T] {
 
         // First we loop 64 elements at a time (usize::BITS)
         for mut word in mask.iter_words() {
-            match word {
-                0usize => {
-                    // No bits set => skip usize::BITS slice.
-                    unsafe {
-                        read_ptr = read_ptr.add(usize::BITS as usize);
-                    }
+            if word == 0usize {
+                // No bits set => skip usize::BITS slice.
+                unsafe {
+                    read_ptr = read_ptr.add(usize::BITS as usize);
                 }
-                usize::MAX => {
-                    // All slice => copy usize::BITS slice.
-                    unsafe {
-                        ptr::copy_nonoverlapping(read_ptr, write_ptr, usize::BITS as usize);
-                        read_ptr = read_ptr.add(usize::BITS as usize);
-                        write_ptr = write_ptr.add(usize::BITS as usize);
-                    }
+                continue;
+            }
+
+            if word == usize::MAX {
+                // All slice => copy usize::BITS slice.
+                unsafe {
+                    ptr::copy_nonoverlapping(read_ptr, write_ptr, usize::BITS as usize);
+                    read_ptr = read_ptr.add(usize::BITS as usize);
+                    write_ptr = write_ptr.add(usize::BITS as usize);
                 }
-                _ => {
-                    // Iterate the bits in a word, attempting to copy contiguous runs of values.
-                    let mut read_pos = 0;
-                    let mut write_pos = 0;
+                continue;
+            }
+
+            // We switch strategies based on the density of the word.
+            let popcount = word.count_ones() as usize;
+
+            if popcount <= 16 {
+                // Sparse word: iterate only set bits
+                // This minimizes work when few bits are set
+                unsafe {
+                    let mut bitpos = 0;
                     while word != 0 {
-                        let tz = word.trailing_zeros();
-                        if tz > 0 {
-                            // shift off the trailing zeros since they are unselected.
-                            // this advances the read head, but not the write head.
-                            read_pos += tz;
-                            word >>= tz;
+                        bitpos += word.trailing_zeros() as usize;
+                        *write_ptr = *read_ptr.add(bitpos);
+                        write_ptr = write_ptr.add(1);
+                        word &= word - 1; // Clear lowest set bit (branchless)
+                    }
+                    read_ptr = read_ptr.add(usize::BITS as usize);
+                }
+                continue;
+            }
+
+            if popcount <= 48 {
+                // Medium density (~25-75%): process byte-by-byte
+                // This is optimal for the 50% case
+                unsafe {
+                    // Process 8 bytes (64 bits) in chunks of 8 bits
+                    for chunk in 0..8 {
+                        let byte = ((word >> (chunk * 8)) & 0xFF) as u8;
+                        if byte == 0 {
                             continue;
                         }
 
-                        // copy the next several values to our out pointer.
-                        let extent = word.trailing_ones();
-                        unsafe {
-                            ptr::copy_nonoverlapping(
-                                read_ptr.add(read_pos as usize),
-                                write_ptr.add(write_pos as usize),
-                                extent as usize,
-                            );
+                        let base_offset = chunk * 8;
+
+                        if byte == 0xFF {
+                            // All 8 bits set, use fast copy
+                            ptr::copy_nonoverlapping(read_ptr.add(base_offset), write_ptr, 8);
+                            write_ptr = write_ptr.add(8);
+                            continue;
                         }
-                        // Advance the reader and writer by the number of values
-                        // we just copied.
-                        read_pos += extent;
-                        write_pos += extent;
 
-                        // shift off the low bits of the word so we can copy the next run.
-                        word >>= extent;
+                        // Unrolled bit checks - compiler optimizes to conditional moves
+                        // This eliminates branches and trailing_zeros/ones overhead
+                        if byte & 0x01 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 0);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x02 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 1);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x04 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 2);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x08 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 3);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x10 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 4);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x20 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 5);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x40 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 6);
+                            write_ptr = write_ptr.add(1);
+                        }
+                        if byte & 0x80 != 0 {
+                            *write_ptr = *read_ptr.add(base_offset + 7);
+                            write_ptr = write_ptr.add(1);
+                        }
                     }
+                    read_ptr = read_ptr.add(usize::BITS as usize);
+                    continue;
+                }
+            }
 
-                    unsafe {
-                        read_ptr = read_ptr.add(usize::BITS as usize);
-                        write_ptr = write_ptr.add(write_pos as usize);
-                    };
+            // Dense word (>75% bits set): use run-based copying
+            // Optimized for long runs of 1s
+            let mut read_pos = 0;
+            let mut write_pos = 0;
+            unsafe {
+                while word != 0 {
+                    let tz = word.trailing_zeros();
+                    read_pos += tz;
+                    word >>= tz;
+
+                    if word == 0 {
+                        break;
+                    }
+
+                    let extent = word.trailing_ones();
+
+                    // Use optimized copy for the run
+                    copy_small(
+                        read_ptr.add(read_pos as usize),
+                        write_ptr.add(write_pos as usize),
+                        extent as usize,
+                    );
+
+                    read_pos += extent;
+                    write_pos += extent;
+                    word >>= extent;
                 }
+
+                read_ptr = read_ptr.add(usize::BITS as usize);
             }
         }
 
         write.freeze()
     }
 }
+
+/// Optimized small copy that avoids function call overhead
+#[inline(always)]
+unsafe fn copy_small<T: Copy>(src: *const T, dst: *mut T, count: usize) {
+    // For small counts, direct assignment is faster than copy_nonoverlapping
+    // This avoids the ~8-12 cycle function call overhead
+    match count {
+        0 => {}
+        1 => unsafe {
+            ptr::write(dst, ptr::read(src));
+        },
+        2 => unsafe {
+            ptr::write(dst, ptr::read(src));
+            ptr::write(dst.add(1), ptr::read(src.add(1)));
+        },
+        3 => unsafe {
+            ptr::write(dst, ptr::read(src));
+            ptr::write(dst.add(1), ptr::read(src.add(1)));
+            ptr::write(dst.add(2), ptr::read(src.add(2)));
+        },
+        4 => unsafe {
+            ptr::write(dst, ptr::read(src));
+            ptr::write(dst.add(1), ptr::read(src.add(1)));
+            ptr::write(dst.add(2), ptr::read(src.add(2)));
+            ptr::write(dst.add(3), ptr::read(src.add(3)));
+        },
+        _ => unsafe {
+            ptr::copy_nonoverlapping(src, dst, count);
+        },
+    }
+}