Make fft work over x^n-i

adamant-pwn · adamant-pwn · commit d6de2415bf64 · 2025-04-26T16:16:31.000+02:00
diff --git a/cp-algo/math/cvector.hpp b/cp-algo/math/cvector.hpp
@@ -24,14 +24,6 @@ namespace cp_algo::math::fft {
             r.resize(n / flen);
             checkpoint("cvector create");
         }
-        cvector(cvector const& t) {
-            r.resize(t.r.size());
-            for(size_t i = 0; i < r.size(); i++) {
-                r[i] = {vftype(t.r[i].real()), vftype(t.r[i].imag())};
-            }
-            checkpoint("cvector copy");
-        }
-        cvector(cvector&& t) = delete;
 
         vpoint& at(size_t k) {return r[k / flen];}
         vpoint at(size_t k) const {return r[k / flen];}
@@ -63,74 +55,53 @@ namespace cp_algo::math::fft {
                 return eval_arg(n / 2) | (n & 1) << (std::bit_width(n) - 1);
             }
         }
-        static auto root(size_t n, size_t k) {
-            if(n < pre_roots) {
-                return roots[n + k];
-            } else if (k % 2 == 0) {
-                return root(n / 2, k / 2);
-            } else {
-                return polar(1., std::numbers::pi / (ftype)n * (ftype)k);
-            }
-        }
         static point eval_point(size_t n) {
             if(n % 2) {
-                return eval_point(n - 1) * point(0, 1);
-            } else if(n / 2 < pre_evals) {
-                return evalp[n / 2];
+                return -eval_point(n - 1);
+            } else if(n % 4) {
+                return eval_point(n - 2) * point(0, 1);
+            } else if(n / 4 < pre_evals) {
+                return evalp[n / 4];
             } else {
-                return root(2 * std::bit_floor(n), eval_arg(n));
+                return polar(1., std::numbers::pi / (ftype)std::bit_floor(n) * (ftype)eval_arg(n));
             }
         }
-        static void exec_on_roots(size_t n, size_t m, auto &&callback) {
-            point cur = {1, 0};
-            point arg = root(n, 1);
-            for(size_t i = 0; i < m; i++) {
-                callback(i, cur);
-                if(i % 64 == 63) {
-                    cur = root(n / 64, i / 64 + 1);
-                } else {
-                    cur *= arg;
-                }
-            }
+        static point root(size_t n) {
+            return polar(1., 2. * std::numbers::pi / (ftype)n);
         }
-        template<int step = 1>
+        template<int step>
         static void exec_on_evals(size_t n, auto &&callback) {
+            point factor = root(4 * step * n);
             for(size_t i = 0; i < n; i++) {
-                callback(i, eval_point(step * i));
-            }
-        }
-        static auto dot_block(size_t k, cvector const& A, cvector const& B) {
-            auto rt = eval_point(k / flen / 2);
-            if(k / flen % 2) {
-                rt = -rt;
+                callback(i, factor * eval_point(step * i));
             }
-            auto [Ax, Ay] = A.at(k);
-            auto Bv = B.at(k);
-            vpoint res = vz;
-            for (size_t i = 0; i < flen; i++) {
-                res += vpoint(vz + Ax[i], vz + Ay[i]) * Bv;
-                real(Bv) = __builtin_shufflevector(real(Bv), real(Bv), 3, 0, 1, 2);
-                imag(Bv) = __builtin_shufflevector(imag(Bv), imag(Bv), 3, 0, 1, 2);
-                auto x = real(Bv)[0], y = imag(Bv)[0];
-                real(Bv)[0] = x * real(rt) - y * imag(rt);
-                imag(Bv)[0] = x * imag(rt) + y * real(rt);
-            }
-            return res;
         }
 
         void dot(cvector const& t) {
             size_t n = this->size();
-            for(size_t k = 0; k < n; k += flen) {
-                set(k, dot_block(k, *this, t));
-            }
+            exec_on_evals<1>(n / flen, [&](size_t k, point rt) {
+                k *= flen;
+                auto [Ax, Ay] = at(k);
+                auto Bv = t.at(k);
+                vpoint res = vz;
+                for (size_t i = 0; i < flen; i++) {
+                    res += vpoint(vz + Ax[i], vz + Ay[i]) * Bv;
+                    real(Bv) = __builtin_shufflevector(real(Bv), real(Bv), 3, 0, 1, 2);
+                    imag(Bv) = __builtin_shufflevector(imag(Bv), imag(Bv), 3, 0, 1, 2);
+                    auto x = real(Bv)[0], y = imag(Bv)[0];
+                    real(Bv)[0] = x * real(rt) - y * imag(rt);
+                    imag(Bv)[0] = x * imag(rt) + y * real(rt);
+                }
+                set(k, res);
+            });
             checkpoint("dot");
         }
 
         void ifft() {
             size_t n = size();
             for(size_t i = flen; i <= n / 2; i *= 2) {
                 if (4 * i <= n) { // radix-4
-                    exec_on_evals<2>(n / (4 * i), [&](size_t k, point rt) {
+                    exec_on_evals<4>(n / (4 * i), [&](size_t k, point rt) {
                         k *= 4 * i;
                         vpoint v1 = {vz + real(rt), vz - imag(rt)};
                         vpoint v2 = v1 * v1;
@@ -148,7 +119,7 @@ namespace cp_algo::math::fft {
                     });
                     i *= 2;
                 } else { // radix-2 fallback
-                    exec_on_evals(n / (2 * i), [&](size_t k, point rt) {
+                    exec_on_evals<2>(n / (2 * i), [&](size_t k, point rt) {
                         k *= 2 * i;
                         vpoint cvrt = {vz + real(rt), vz - imag(rt)};
                         for(size_t j = k; j < k + i; j += flen) {
@@ -169,7 +140,7 @@ namespace cp_algo::math::fft {
             for(size_t i = n / 2; i >= flen; i /= 2) {
                 if (i / 2 >= flen) { // radix-4
                     i /= 2;
-                    exec_on_evals<2>(n / (4 * i), [&](size_t k, point rt) {
+                    exec_on_evals<4>(n / (4 * i), [&](size_t k, point rt) {
                         k *= 4 * i;
                         vpoint v1 = {vz + real(rt), vz + imag(rt)};
                         vpoint v2 = v1 * v1;
@@ -186,7 +157,7 @@ namespace cp_algo::math::fft {
                         }
                     });
                 } else { // radix-2 fallback
-                    exec_on_evals(n / (2 * i), [&](size_t k, point rt) {
+                    exec_on_evals<2>(n / (2 * i), [&](size_t k, point rt) {
                         k *= 2 * i;
                         vpoint vrt = {vz + real(rt), vz + imag(rt)};
                         for(size_t j = k; j < k + i; j += flen) {
@@ -199,17 +170,7 @@ namespace cp_algo::math::fft {
             }
             checkpoint("fft");
         }
-        static constexpr size_t pre_roots = 1 << 14;
         static constexpr size_t pre_evals = 1 << 16;
-        static constexpr std::array<point, pre_roots> roots = []() {
-            std::array<point, pre_roots> res = {};
-            for(size_t n = 1; n < res.size(); n *= 2) {
-                for(size_t k = 0; k < n; k++) {
-                    res[n + k] = polar(1., std::numbers::pi / ftype(n) * ftype(k));
-                }
-            }
-            return res;
-        }();
         static constexpr std::array<size_t, pre_evals> eval_args = []() {
             std::array<size_t, pre_evals> res = {};
             for(size_t i = 1; i < pre_evals; i++) {
diff --git a/cp-algo/math/fft.hpp b/cp-algo/math/fft.hpp
@@ -24,7 +24,7 @@ namespace cp_algo::math::fft {
             }
             base cur = factor;
             base step = bpow(factor, n);
-            cvector::exec_on_roots(2 * n, std::min(n, size(a)), [&](size_t i, auto rt) {
+            for(size_t i = 0; i < std::min(n, size(a)); i++) {
                 auto splt = [&](size_t i, auto mul) {
                     auto ai = i < size(a) ? (a[i] * mul).rem_direct() : 0;
                     auto rem = ai % split;
@@ -33,10 +33,10 @@ namespace cp_algo::math::fft {
                 };
                 auto [rai, qai] = splt(i, cur);
                 auto [rani, qani] = splt(n + i, cur * step);
-                A.set(i, point(rai, rani) * rt);
-                B.set(i, point(qai, qani) * rt);
+                A.set(i, point(rai, rani));
+                B.set(i, point(qai, qani));
                 cur *= factor;
-            });
+            }
             checkpoint("dft init");
             if(n) {
                 A.fft();
@@ -51,11 +51,9 @@ namespace cp_algo::math::fft {
                 res = {};
                 return;
             }
-            for(size_t k = 0; k < n; k += flen) {
-                auto rt = cvector::eval_point(k / flen / 2);
-                if(k / flen % 2) {
-                    rt = -rt;
-                }
+
+            cvector::exec_on_evals<1>(n / flen, [&](size_t k, point rt) {
+                k *= flen;
                 auto [Ax, Ay] = A.at(k);
                 auto [Bx, By] = B.at(k);
                 vpoint AC, AD, BC, BD;
@@ -79,33 +77,32 @@ namespace cp_algo::math::fft {
                 A.at(k) = AC;
                 C.at(k) = AD + BC;
                 B.at(k) = BD;
-            }
+            });
             checkpoint("dot");
             A.ifft();
             B.ifft();
             C.ifft();
             auto splitsplit = (base(split) * split).rem();
             base cur = ifactor * ifactor;
             base step = bpow(ifactor, n);
-            cvector::exec_on_roots(2 * n, std::min(n, k), [&](size_t i, point rt) {
-                rt = conj(rt);
-                auto Ai = A.get(i) * rt;
-                auto Bi = B.get(i) * rt;
-                auto Ci = C.get(i) * rt;
-                Int2 A0 = llround(real(Ai));
-                Int2 A1 = llround(real(Ci));
-                Int2 A2 = llround(real(Bi));
+            for(size_t i = 0; i < std::min(n, k); i++) {
+                auto [Ax, Ay] = A.get(i);
+                auto [Bx, By] = B.get(i);
+                auto [Cx, Cy] = C.get(i);
+                Int2 A0 = llround(Ax);
+                Int2 A1 = llround(Cx);
+                Int2 A2 = llround(Bx);
                 res[i].setr_direct(base::m_reduce(A0 + A1 * split + A2 * splitsplit));
                 res[i] *= cur;
                 if(n + i < k) {
-                    Int2 B0 = llround(imag(Ai));
-                    Int2 B1 = llround(imag(Ci));
-                    Int2 B2 = llround(imag(Bi));
+                    Int2 B0 = llround(Ay);
+                    Int2 B1 = llround(Cy);
+                    Int2 B2 = llround(By);
                     res[n + i].setr_direct(base::m_reduce(B0 + B1 * split + B2 * splitsplit));
                     res[n + i] *= cur * step;
                 }
                 cur *= ifactor;
-            });
+            }
             checkpoint("recover mod");
         }
         void mul_inplace(auto &&B, auto& res, size_t k) {
diff --git a/verify/poly/wildcard.test.cpp b/verify/poly/wildcard.test.cpp
@@ -31,13 +31,6 @@ auto round(vftype a) {
     return __builtin_convertvector(__builtin_convertvector(a < 0 ? a - 0.5 : a + 0.5, v4di), vftype);
 }
 
-void print(auto r) {
-    for(int z = 0; z < 4; z++) {
-        cout << r[z] << ' ';
-    }
-    cout << endl;
-}
-
 auto is_integer(auto a) {
     static const double eps = 1e-8;
     return abs(imag(a)) < eps