fix: resolve AVX-512 build errors (duplicate function and type mismatch)

SymphonyVR · SymphonyVR · commit a6aaf4138786 · 2026-01-26T04:23:36.000-04:00
diff --git a/src/simd.rs b/src/simd.rs
@@ -65,29 +65,32 @@ cfg_if! {
         }
 
         /// SIMD-accelerated conversion from bytes to MB (AVX-512).
-        /// Uses the powerful _mm512_cvtepu64_ps to convert 8 u64s to f32s in one go.
         pub fn convert_bytes_to_mb_simd(bytes: &[usize], mb: &mut [f32]) {
             let len = bytes.len();
             let mut i = 0;
             const DIV: f32 = 1.0 / (1024.0 * 1024.0);
             
             unsafe {
-                while i + 8 <= len {
-                    // Load 8 u64 values into a 512-bit register
-                    let v_u64 = _mm512_loadu_si512(bytes.as_ptr().add(i) as *const _);
+                let div_v = _mm512_set1_ps(DIV);
+                while i + 16 <= len {
+                    // Load 16 u64 values (requires two 512-bit registers)
+                    let v_u64_1 = _mm512_loadu_si512(bytes.as_ptr().add(i) as *const _);
+                    let v_u64_2 = _mm512_loadu_si512(bytes.as_ptr().add(i + 8) as *const _);
                     
-                    // AVX-512 specific: Direct conversion from 8 unsigned 64-bit ints to 8 floats
-                    let v_f32 = _mm512_cvtepu64_ps(v_u64);
+                    // Convert 8 u64s to 8 f32s (each produces __m256)
+                    let v_f32_1 = _mm512_cvtepu64_ps(v_u64_1);
+                    let v_f32_2 = _mm512_cvtepu64_ps(v_u64_2);
+                    
+                    // Combine two __m256 into one __m512
+                    let v_f512 = _mm512_insertf32x8(_mm512_castps256_ps512(v_f32_1), v_f32_2, 1);
                     
                     // Multiply by reciprocal of 1MB
-                    // Note: _mm512_cvtepu64_ps returns __m256 (8 floats), so we use AVX for multiplication.
-                    let div_v_f256 = _mm256_set1_ps(DIV);
-                    let res = _mm256_mul_ps(v_f32, div_v_f256);
+                    let res = _mm512_mul_ps(v_f512, div_v);
                     
-                    // Store 8 floats (256 bits of data)
-                    _mm256_storeu_ps(mb.as_mut_ptr().add(i), res);
+                    // Store 16 floats (512 bits)
+                    _mm512_storeu_ps(mb.as_mut_ptr().add(i), res);
                     
-                    i += 8;
+                    i += 16;
                 }
             }
             
@@ -97,137 +100,6 @@ cfg_if! {
         }
 
 
-        /// SIMD-accelerated total multiplier calculation (AVX2).
-        pub fn calculate_total_multipliers_simd(
-            priorities: &[u32],
-            elevations: &[bool],
-            games: &[bool],
-            foregrounds: &[bool],
-            windows: &[bool],
-            uptimes: &[u64],
-            mults: &mut [f32]
-        ) {
-            let len = priorities.len();
-            let mut i = 0;
-            
-            unsafe {
-                let v_one = _mm256_set1_ps(1.0);
-                let v_half = _mm256_set1_ps(0.5);
-                let v_small = _mm256_set1_ps(0.01);
-                let v_zero_i = _mm256_setzero_si256();
-                
-                // Priority constants
-                let p_idle = _mm256_set1_epi32(0x40);
-                let p_high = _mm256_set1_epi32(0x80);
-                let p_real = _mm256_set1_epi32(0x100);
-                let p_below = _mm256_set1_epi32(0x4000);
-                let p_above = _mm256_set1_epi32(0x8000);
-                
-                let m_idle = _mm256_set1_ps(2.0);
-                let m_high = _mm256_set1_ps(0.2);
-                let m_real = _mm256_set1_ps(0.01);
-                let m_below = _mm256_set1_ps(1.5);
-                let m_above = _mm256_set1_ps(0.5);
-                
-                // Uptime constants
-                let u_div = _mm256_set1_ps(1.0 / 3600.0 * 0.1);
-                let u_min = _mm256_set1_ps(0.7);
-
-                while i + 8 <= len {
-                    // 1. Priority Multiplier
-                    let v_prio = _mm256_loadu_si256(priorities.as_ptr().add(i) as *const _);
-                    let mut v_p_mult = v_one;
-                    
-                    // Blend based on matches (cmpeq returns integer mask, cast to float for blendv_ps)
-                    let mask_idle = _mm256_castsi256_ps(_mm256_cmpeq_epi32(v_prio, p_idle));
-                    v_p_mult = _mm256_blendv_ps(v_p_mult, m_idle, mask_idle);
-                    
-                    let mask_high = _mm256_castsi256_ps(_mm256_cmpeq_epi32(v_prio, p_high));
-                    v_p_mult = _mm256_blendv_ps(v_p_mult, m_high, mask_high);
-                    
-                    let mask_real = _mm256_castsi256_ps(_mm256_cmpeq_epi32(v_prio, p_real));
-                    v_p_mult = _mm256_blendv_ps(v_p_mult, m_real, mask_real);
-                    
-                    let mask_below = _mm256_castsi256_ps(_mm256_cmpeq_epi32(v_prio, p_below));
-                    v_p_mult = _mm256_blendv_ps(v_p_mult, m_below, mask_below);
-                    
-                    let mask_above = _mm256_castsi256_ps(_mm256_cmpeq_epi32(v_prio, p_above));
-                    v_p_mult = _mm256_blendv_ps(v_p_mult, m_above, mask_above);
-                    
-                    // 2. Boolean Multipliers
-                    // Load 8 bytes (lower half of XMM register)
-                    // Note: _mm_loadl_epi64 loads 64 bits.
-                    
-                    // Elevation
-                    let v_elev_u64 = _mm_loadl_epi64(elevations.as_ptr().add(i) as *const _);
-                    let v_elev_i32 = _mm256_cvtepu8_epi32(v_elev_u64);
-                    let v_elev_f32 = _mm256_cvtepi32_ps(v_elev_i32);
-                    let v_e_mult = _mm256_sub_ps(v_one, _mm256_mul_ps(v_elev_f32, v_half));
-
-                    // Game
-                    let v_game_u64 = _mm_loadl_epi64(games.as_ptr().add(i) as *const _);
-                    let v_game_i32 = _mm256_cvtepu8_epi32(v_game_u64);
-                    // mask: if val != 0
-                    let mask_game_i = _mm256_cmpeq_epi32(v_game_i32, v_zero_i); // 0xFFFF if 0 (false), 0 if 1 (true)
-                    // We want 1.0 if false, 0.01 if true.
-                    // blendv picks second arg if mask bit is 1.
-                    // if mask_game_i is all ones (false), we pick v_one.
-                    let v_g_mult = _mm256_blendv_ps(v_small, v_one, _mm256_castsi256_ps(mask_game_i));
-
-                    // Foreground
-                    let v_fore_u64 = _mm_loadl_epi64(foregrounds.as_ptr().add(i) as *const _);
-                    let v_fore_i32 = _mm256_cvtepu8_epi32(v_fore_u64);
-                    let mask_fore_i = _mm256_cmpeq_epi32(v_fore_i32, v_zero_i);
-                    let v_f_mult = _mm256_blendv_ps(v_small, v_one, _mm256_castsi256_ps(mask_fore_i));
-                    
-                    // Window
-                    let v_win_u64 = _mm_loadl_epi64(windows.as_ptr().add(i) as *const _);
-                    let v_win_i32 = _mm256_cvtepu8_epi32(v_win_u64);
-                    let mask_win_i = _mm256_cmpeq_epi32(v_win_i32, v_zero_i);
-                    // if false (0) -> 1.0. if true (1) -> 0.5.
-                    let v_w_mult = _mm256_blendv_ps(v_half, v_one, _mm256_castsi256_ps(mask_win_i));
-
-                    // 3. Uptime
-                    let ptr = uptimes.as_ptr().add(i);
-                    let v_upt_f32 = _mm256_setr_ps(
-                        *ptr.add(0) as f32, *ptr.add(1) as f32, *ptr.add(2) as f32, *ptr.add(3) as f32,
-                        *ptr.add(4) as f32, *ptr.add(5) as f32, *ptr.add(6) as f32, *ptr.add(7) as f32,
-                    );
-                    let v_u_sub = _mm256_mul_ps(v_upt_f32, u_div);
-                    let v_u_mult = _mm256_max_ps(u_min, _mm256_sub_ps(v_one, v_u_sub));
-
-                    // 4. Combine
-                    let mut total = v_p_mult;
-                    total = _mm256_mul_ps(total, v_e_mult);
-                    total = _mm256_mul_ps(total, v_g_mult);
-                    total = _mm256_mul_ps(total, v_f_mult);
-                    total = _mm256_mul_ps(total, v_w_mult);
-                    total = _mm256_mul_ps(total, v_u_mult);
-
-                    _mm256_storeu_ps(mults.as_mut_ptr().add(i), total);
-                    i += 8;
-                }
-            }
-            
-            // Scalar fallback
-            use crate::scoring::{
-                get_priority_multiplier, get_elevation_multiplier, 
-                get_game_multiplier, get_foreground_multiplier, 
-                get_window_multiplier, get_uptime_multiplier
-            };
-            use windows::Win32::System::Threading::PROCESS_CREATION_FLAGS;
-            
-            for j in i..len {
-                let p = get_priority_multiplier(PROCESS_CREATION_FLAGS(priorities[j]));
-                let e = get_elevation_multiplier(elevations[j]);
-                let g = get_game_multiplier(games[j]);
-                let f = get_foreground_multiplier(foregrounds[j]);
-                let w = get_window_multiplier(windows[j]);
-                let u = get_uptime_multiplier(uptimes[j]);
-                mults[j] = p * e * g * f * w * u;
-            }
-        }
-
         /// SIMD-accelerated total multiplier calculation (AVX-512).
         /// Combines all multipliers (Priority, Elevation, Game, Foreground, Window, Uptime) into one.
         pub fn calculate_total_multipliers_simd(
@@ -314,9 +186,18 @@ cfg_if! {
 
                     // 3. Uptime Multiplier
                     // (1.0 - (uptime / 3600.0 * 0.1)).max(0.7)
-                    let v_upt_u64 = _mm512_loadu_si512(uptimes.as_ptr().add(i) as *const _);
-                    let v_upt_f32 = _mm512_cvtepu64_ps(v_upt_u64);
-                    let v_u_sub = _mm512_mul_ps(v_upt_f32, u_div);
+                    // Load 16 u64s in two batches of 8
+                    let v_upt_u64_1 = _mm512_loadu_si512(uptimes.as_ptr().add(i) as *const _);
+                    let v_upt_u64_2 = _mm512_loadu_si512(uptimes.as_ptr().add(i + 8) as *const _);
+                    
+                    // Convert 8 u64s to 8 f32s (each produces __m256)
+                    let v_upt_f32_1 = _mm512_cvtepu64_ps(v_upt_u64_1);
+                    let v_upt_f32_2 = _mm512_cvtepu64_ps(v_upt_u64_2);
+                    
+                    // Combine into one __m512 (16 floats)
+                    let v_upt_f512 = _mm512_insertf32x8(_mm512_castps256_ps512(v_upt_f32_1), v_upt_f32_2, 1);
+                    
+                    let v_u_sub = _mm512_mul_ps(v_upt_f512, u_div);
                     let v_u_mult = _mm512_max_ps(u_min, _mm512_sub_ps(v_one, v_u_sub));
 
                     // 4. Combine all