AArch64: Add Neon implementation of load_tmvs

arpadpanyik-arm · arpadpanyik-arm · commit edb16889d16f · 2025-01-09T14:59:31.000+01:00
This patch adds a vectorised variant of the mv_projection calculation
and a faster initialisation of motion vectors for load_tmvs_neon.

Checkasm uplifts after this patch on some Neoverse and Cortex CPU cores
compared to the C reference compiled with GCC-13 and Clang-19:

                     GCC    Clang
 AWS Graviton 4:   1.62x    1.59x
 Cortex-X4:        1.45x    1.46x
 Cortex-X3:        1.68x    1.69x
 Cortex-X1:        1.55x    1.52x
 Cortex-A720:      1.54x    1.57x
 Cortex-A715:      1.47x    1.55x
 Cortex-A78:       1.21x    1.18x
 Cortex-A76:       1.38x    1.37x
 Cortex-A72:       1.08x    1.11x
 Cortex-A520:      0.97x    1.18x
 Cortex-A510:      0.99x    1.14x
 Cortex-A55:       1.16x    1.23x

This patch increases the .text by ~660 bytes, but smaller than the
reference implementation by about 0.5 KiB.
diff --git a/src/arm/64/refmvs.S b/src/arm/64/refmvs.S
@@ -25,9 +25,12 @@
  * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  */
 
+#include "src/arm/asm-offsets.h"
 #include "src/arm/asm.S"
 #include "util.S"
 
+#define INVALID_MV 0x80008000
+
 // void dav1d_splat_mv_neon(refmvs_block **rr, const refmvs_block *rmv,
 //                          int bx4, int bw4, int bh4)
 
@@ -292,3 +295,252 @@ jumptable save_tmvs_tbl
         .word 1 * 12
         .word 10b  - save_tmvs_tbl
 endjumptable
+
+// void dav1d_load_tmvs_neon(const refmvs_frame *const rf, int tile_row_idx,
+//                           const int col_start8, const int col_end8,
+//                           const int row_start8, int row_end8)
+function load_tmvs_neon, export=1
+        rf              .req x0
+        tile_row_idx    .req w1
+        col_start8      .req w2
+        col_end8        .req w3
+        row_start8      .req w4
+        row_end8        .req w5
+        col_start8i     .req w6
+        col_end8i       .req w7
+        rp_proj         .req x8
+        stride5         .req x9
+        wstride5        .req w9
+        stp             x28, x27, [sp, #-96]!
+        stp             x26, x25, [sp, #16]
+        stp             x24, x23, [sp, #32]
+        stp             x22, x21, [sp, #48]
+        stp             x20, x19, [sp, #64]
+        stp             x29, x30, [sp, #80]
+
+        ldr             w15, [rf, #RMVSF_N_TILE_THREADS]
+        ldp             w16, w17, [rf, #RMVSF_IW8]          // include rf->ih8 too
+        sub             col_start8i, col_start8, #8         // col_start8 - 8
+        add             col_end8i, col_end8, #8             // col_end8 + 8
+        ldr             wstride5, [rf, #RMVSF_RP_STRIDE]
+        ldr             rp_proj, [rf, #RMVSF_RP_PROJ]
+
+        cmp             w15, #1
+        csel            tile_row_idx, wzr, tile_row_idx, eq // if (rf->n_tile_threads == 1) tile_row_idx = 0
+
+        bic             col_start8i, col_start8i, col_start8i, asr #31  // imax(col_start8 - 8, 0)
+        cmp             col_end8i, w16
+        csel            col_end8i, col_end8i, w16, lt       // imin(col_end8 + 8, rf->iw8)
+
+        lsl             tile_row_idx, tile_row_idx, #4      // 16 * tile_row_idx
+
+        cmp             row_end8, w17
+        csel            row_end8, row_end8, w17, lt         // imin(row_end8, rf->ih8)
+
+        add             wstride5, wstride5, wstride5, lsl #2    // stride * sizeof(refmvs_temporal_block)
+        and             w15, row_start8, #15                // row_start8 & 15
+        add             w10, col_start8, col_start8, lsl #2 // col_start8 * sizeof(refmvs_temporal_block)
+        smaddl          rp_proj, tile_row_idx, wstride5, rp_proj    // &rf->rp_proj[16 * stride * tile_row_idx]
+        smaddl          x10, w15, wstride5, x10             // ((row_start8 & 15) * stride + col_start8) * sizeof(refmvs_temporal_block)
+        mov             w15, #INVALID_MV
+        sub             w11, col_end8, col_start8           // xfill loop count
+        add             x10, x10, rp_proj                   // &rf->rp_proj[16 * stride * tile_row_idx + (row_start8 & 15) * stride + col_start8]
+        add             x15, x15, x15, lsl #40              // first 64b of 4 [INVALID_MV, 0]... patterns
+        mov             w17, #(INVALID_MV >> 8)             // last 32b of 4 patterns
+        sub             w12, row_end8, row_start8           // yfill loop count
+        ror             x16, x15, #48                       // second 64b of 4 patterns
+        ldr             w19, [rf, #RMVSF_N_MFMVS]
+
+5:      // yfill loop
+        and             w13, w11, #-4           // xfill 4x count by patterns
+        mov             x14, x10                // fill_ptr = row_ptr
+        add             x10, x10, stride5       // row_ptr += stride
+        sub             w12, w12, #1            // y--
+
+        cbz             w13, 3f
+
+4:      // xfill loop 4x
+        sub             w13, w13, #4            // xfill 4x count -= 4
+        stp             x15, x16, [x14]
+        str             w17, [x14, #16]
+        add             x14, x14, #20           // fill_ptr += 4 * sizeof(refmvs_temporal_block)
+        cbnz            w13, 4b
+
+3:      // up to 3 residuals
+        tbz             w11, #1, 1f
+        str             x15, [x14]
+        strh            w16, [x14, #8]
+        add             x14, x14, #10           // fill_ptr += 2 * sizeof(refmvs_temporal_block)
+
+1:      // up to 1 residual
+        tbz             w11, #0, 2f
+        str             w15, [x14]
+2:
+        cbnz            w12, 5b                 // yfill loop
+
+        cbz             w19, 11f                // if (!rf->n_mfmvs) skip nloop
+
+        add             x29, rf, #RMVSF_MFMV_REF2CUR
+        mov             w10, #0                 // n = 0
+        movi            v3.2s, #255             // 0x3FFF >> 6, for MV clamp
+        movrel          x1, div_mult_tbl
+
+10:     // nloop
+        ldr             w16, [x29, x10, lsl #2] // ref2cur = rf->mfmv_ref2cur[n]
+        cmp             w16, #-32               // instead of INT_MIN, we can use smaller constants
+        b.lt            9f                      // if (ref2cur == INT_MIN) continue
+
+        add             x17, x10, #(RMVSF_MFMV_REF - RMVSF_MFMV_REF2CUR)    // n - (&rf->mfmv_ref - &rf->mfmv_ref2cur)
+        mov             x20, #4
+        ldrb            w17, [x29, x17]         // ref = rf->mfmv_ref[n]
+        ldr             x13, [x29, #(RMVSF_RP_REF - RMVSF_MFMV_REF2CUR)]
+        mov             w28, #28                // 7 * sizeof(int)
+        smaddl          x20, row_start8, wstride5, x20  // row_start8 * stride * sizeof(refmvs_temporal_block) + 4
+        mov             w12, row_start8         // y = row_start8
+        add             x21, x29, #(RMVSF_MFMV_REF2REF - RMVSF_MFMV_REF2CUR - 4)    // &rf->mfmv_ref2ref - 1
+        ldr             x13, [x13, x17, lsl #3] // rf->rp_ref[ref]
+        smaddl          x28, w28, w10, x21      // rf->mfmv_ref2ref[n] - 1
+        sub             w17, w17, #4            // ref_sign = ref - 4
+        add             x13, x13, x20           // r = &rf->rp_ref[ref][row_start8 * stride].ref
+        dup             v0.2s, w17              // ref_sign
+
+5:      // yloop
+        and             w14, w12, #-8           // y_sb_align = y & ~7
+        mov             w11, col_start8i        // x = col_start8i
+        add             w15, w14, #8            // y_sb_align + 8
+        cmp             w14, row_start8
+        csel            w14, w14, row_start8, gt    // imax(y_sb_align, row_start8)
+        cmp             w15, row_end8
+        csel            w15, w15, row_end8, lt  // imin(y_sb_align + 8, row_end8)
+
+4:      // xloop
+        add             x23, x13, x11, lsl #2   // partial &r[x] address
+        ldrb            w22, [x23, x11]         // b_ref = rb->ref
+        cbz             w22, 6f                 // if (!b_ref) continue
+
+        ldr             w24, [x28, x22, lsl #2] // ref2ref = rf->mfmv_ref2ref[n][b_ref - 1]
+        cbz             w24, 6f                 // if (!ref2ref) continue
+
+        ldrh            w20, [x1, x24, lsl #1]  // div_mult[ref2ref]
+        add             x23, x23, x11           // &r[x]
+        mul             w20, w20, w16           // frac = ref2cur * div_mult[ref2ref]
+
+        ldur            s1, [x23, #-4]          // mv{y, x} = rb->mv
+        fmov            s2, w20                 // frac
+        sxtl            v1.4s, v1.4h
+        mul             v1.2s, v1.2s, v2.s[0]   // offset{y, x} = frac * mv{y, x}
+
+        ssra            v1.2s, v1.2s, #31       // offset{y, x} + (offset{y, x} >> 31)
+        ldur            w25, [x23, #-4]         // b_mv = rb->mv
+        srshr           v1.2s, v1.2s, #14       // (offset{y, x} + (offset{y, x} >> 31) + 8192) >> 14
+
+        abs             v2.2s, v1.2s            // abs(offset{y, x})
+        eor             v1.8b, v1.8b, v0.8b     // offset{y, x} ^ ref_sign
+
+        sshr            v2.2s, v2.2s, #6        // abs(offset{y, x}) >> 6
+        cmlt            v1.2s, v1.2s, #0        // sign(offset{y, x} ^ ref_sign): -1 or 0
+        umin            v2.2s, v2.2s, v3.2s     // iclip(abs(offset{y, x}) >> 6, 0, 0x3FFF >> 6)
+
+        neg             v4.2s, v2.2s
+        bsl             v1.8b, v4.8b, v2.8b     // apply_sign(iclip(abs(offset{y, x}) >> 6, 0, 0x3FFF >> 6))
+        fmov            x20, d1                 // offset{y, x}
+
+        add             w21, w12, w20           // pos_y = y + offset.y
+        cmp             w21, w14                // pos_y >= y_proj_start
+        b.lt            1f
+        cmp             w21, w15                // pos_y < y_proj_end
+        b.ge            1f
+        add             x26, x11, x20, asr #32  // pos_x = x + offset.x
+        and             w27, w21, #15           // pos_y & 15
+        add             x21, x26, x26, lsl #2   // pos_x * sizeof(refmvs_temporal_block)
+        umaddl          x27, w27, wstride5, rp_proj // &rp_proj[(pos_y & 15) * stride]
+        add             x27, x27, x21           // &rp_proj[(pos_y & 15) * stride + pos_x]
+
+3:      // copy loop
+        and             w20, w11, #-8           // x_sb_align = x & ~7
+        sub             w21, w20, #8            // x_sb_align - 8
+        cmp             w21, col_start8
+        csel            w21, w21, col_start8, gt    // imax(x_sb_align - 8, col_start8)
+        cmp             w26, w21                // pos_x >= imax(x_sb_align - 8, col_start8)
+        b.lt            2f
+        add             w20, w20, #16           // x_sb_align + 16
+        cmp             w20, col_end8
+        csel            w20, w20, col_end8, lt  // imin(x_sb_align + 16, col_end8)
+        cmp             w26, w20                // pos_x < imin(x_sb_align + 16, col_end8)
+        b.ge            2f
+        str             w25, [x27]              // rp_proj[pos + pos_x].mv = rb->mv (b_mv)
+        strb            w24, [x27, #4]          // rp_proj[pos + pos_x].ref = ref2ref
+
+2:      // search part of copy loop
+        add             w11, w11, #1            // x++
+        cmp             w11, col_end8i          // if (++x >= col_end8i) break xloop
+        b.ge            8f
+
+        ldrb            w20, [x23, #5]!         // rb++; rb->ref
+        cmp             w20, w22                // if (rb->ref != b_ref) break
+        b.ne            7f
+
+        ldur            w21, [x23, #-4]         // rb->mv.n
+        cmp             w21, w25                // if (rb->mv.n != b_mv.n) break
+        b.ne            7f
+
+        add             w26, w26, #1            // pos_x++
+        add             x27, x27, #5            // advance &rp_proj[(pos_y & 15) * stride + pos_x]
+        b               3b                      // copy loop
+
+1:      // search loop
+        add             w11, w11, #1            // x++
+        cmp             w11, col_end8i          // if (++x >= col_end8i) break xloop
+        b.ge            8f
+
+        ldrb            w20, [x23, #5]!         // rb++; rb->ref
+        cmp             w20, w22                // if (rb->ref != b_ref) break
+        b.ne            7f
+
+        ldur            w21, [x23, #-4]         // rb->mv.n
+        cmp             w21, w25                // if (rb->mv.n == b_mv.n) continue
+        b.eq            1b                      // search loop
+7:
+        cmp             w11, col_end8i          // x < col_end8i
+        b.lt            4b                      // xloop
+
+6:      // continue case of xloop
+        add             w11, w11, #1            // x++
+        cmp             w11, col_end8i          // x < col_end8i
+        b.lt            4b                      // xloop
+8:
+        add             w12, w12, #1            // y++
+        add             x13, x13, stride5       // r += stride
+        cmp             w12, row_end8           // y < row_end8
+        b.lt            5b                      // yloop
+9:
+        add             w10, w10, #1
+        cmp             w10, w19                // n < rf->n_mfmvs
+        b.lt            10b                     // nloop
+11:
+        ldp             x29, x30, [sp, #80]
+        ldp             x20, x19, [sp, #64]
+        ldp             x22, x21, [sp, #48]
+        ldp             x24, x23, [sp, #32]
+        ldp             x26, x25, [sp, #16]
+        ldp             x28, x27, [sp], #96
+        ret
+        .unreq          rf
+        .unreq          tile_row_idx
+        .unreq          col_start8
+        .unreq          col_end8
+        .unreq          row_start8
+        .unreq          row_end8
+        .unreq          col_start8i
+        .unreq          col_end8i
+        .unreq          rp_proj
+        .unreq          stride5
+        .unreq          wstride5
+endfunc
+
+const div_mult_tbl
+        .hword             0, 16384, 8192, 5461, 4096, 3276, 2730, 2340
+        .hword          2048,  1820, 1638, 1489, 1365, 1260, 1170, 1092
+        .hword          1024,   963,  910,  862,  819,  780,  744,  712
+        .hword           682,   655,  630,  606,  585,  564,  546,  528
+endconst
diff --git a/src/arm/asm-offsets.h b/src/arm/asm-offsets.h
@@ -27,6 +27,8 @@
 #ifndef ARM_ASM_OFFSETS_H
 #define ARM_ASM_OFFSETS_H
 
+#include "config.h"
+
 #define FGD_SEED                         0
 #define FGD_AR_COEFF_LAG                 92
 #define FGD_AR_COEFFS_Y                  96
@@ -40,4 +42,17 @@
 #define FGD_UV_OFFSET                    204
 #define FGD_CLIP_TO_RESTRICTED_RANGE     216
 
+#if ARCH_AARCH64
+#define RMVSF_IW8                        16
+#define RMVSF_IH8                        20
+#define RMVSF_MFMV_REF                   53
+#define RMVSF_MFMV_REF2CUR               56
+#define RMVSF_MFMV_REF2REF               68
+#define RMVSF_N_MFMVS                    152
+#define RMVSF_RP_REF                     168
+#define RMVSF_RP_PROJ                    176
+#define RMVSF_RP_STRIDE                  184
+#define RMVSF_N_TILE_THREADS             200
+#endif
+
 #endif /* ARM_ASM_OFFSETS_H */
diff --git a/src/arm/refmvs.h b/src/arm/refmvs.h
@@ -25,9 +25,24 @@
  * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  */
 
+#include "src/arm/asm-offsets.h"
 #include "src/cpu.h"
 #include "src/refmvs.h"
 
+#if ARCH_AARCH64
+CHECK_OFFSET(refmvs_frame, iw8, RMVSF_IW8);
+CHECK_OFFSET(refmvs_frame, ih8, RMVSF_IH8);
+CHECK_OFFSET(refmvs_frame, mfmv_ref, RMVSF_MFMV_REF);
+CHECK_OFFSET(refmvs_frame, mfmv_ref2cur, RMVSF_MFMV_REF2CUR);
+CHECK_OFFSET(refmvs_frame, mfmv_ref2ref, RMVSF_MFMV_REF2REF);
+CHECK_OFFSET(refmvs_frame, n_mfmvs, RMVSF_N_MFMVS);
+CHECK_OFFSET(refmvs_frame, rp_ref, RMVSF_RP_REF);
+CHECK_OFFSET(refmvs_frame, rp_proj, RMVSF_RP_PROJ);
+CHECK_OFFSET(refmvs_frame, rp_stride, RMVSF_RP_STRIDE);
+CHECK_OFFSET(refmvs_frame, n_tile_threads, RMVSF_N_TILE_THREADS);
+#endif
+
+decl_load_tmvs_fn(dav1d_load_tmvs_neon);
 decl_save_tmvs_fn(dav1d_save_tmvs_neon);
 decl_splat_mv_fn(dav1d_splat_mv_neon);
 
@@ -36,6 +51,9 @@ static ALWAYS_INLINE void refmvs_dsp_init_arm(Dav1dRefmvsDSPContext *const c) {
 
     if (!(flags & DAV1D_ARM_CPU_FLAG_NEON)) return;
 
+#if ARCH_AARCH64
+    c->load_tmvs = dav1d_load_tmvs_neon;
+#endif
     c->save_tmvs = dav1d_save_tmvs_neon;
     c->splat_mv = dav1d_splat_mv_neon;
 }