@@ -66,13 +66,17 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
66
66
67
67
"vfmadd231pd %%ymm8 , %%ymm12, %%ymm0 \n\t" // x_r * y_r, x_i * y_i
68
68
"vfmadd231pd %%ymm9 , %%ymm13, %%ymm1 \n\t" // x_r * y_r, x_i * y_i
69
- "vpermpd $0xb1 , %%ymm12, %%ymm12 \n\t"
70
- "vpermpd $0xb1 , %%ymm13, %%ymm13 \n\t"
69
+ "vpermilpd $0x05 , %%ymm12, %%ymm12 \n\t"
70
+ "vpermilpd $0x05 , %%ymm13, %%ymm13 \n\t"
71
+ // "vpermpd $0xb1 , %%ymm12, %%ymm12 \n\t"
72
+ // "vpermpd $0xb1 , %%ymm13, %%ymm13 \n\t"
71
73
72
74
"vfmadd231pd %%ymm10, %%ymm14, %%ymm2 \n\t" // x_r * y_r, x_i * y_i
73
75
"vfmadd231pd %%ymm11, %%ymm15, %%ymm3 \n\t" // x_r * y_r, x_i * y_i
74
- "vpermpd $0xb1 , %%ymm14, %%ymm14 \n\t"
75
- "vpermpd $0xb1 , %%ymm15, %%ymm15 \n\t"
76
+ "vpermilpd $0x05 , %%ymm14, %%ymm14 \n\t"
77
+ "vpermilpd $0x05 , %%ymm15, %%ymm15 \n\t"
78
+ // "vpermpd $0xb1 , %%ymm14, %%ymm14 \n\t"
79
+ // "vpermpd $0xb1 , %%ymm15, %%ymm15 \n\t"
76
80
77
81
"vfmadd231pd %%ymm8 , %%ymm12, %%ymm4 \n\t" // x_r * y_i, x_i * y_r
78
82
"addq $16 , %0 \n\t"
@@ -151,13 +155,17 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
151
155
152
156
"vfmadd231pd %%ymm8 , %%ymm12, %%ymm0 \n\t" // x_r * y_r, x_i * y_i
153
157
"vfmadd231pd %%ymm9 , %%ymm13, %%ymm1 \n\t" // x_r * y_r, x_i * y_i
154
- "vpermpd $0xb1 , %%ymm12, %%ymm12 \n\t"
155
- "vpermpd $0xb1 , %%ymm13, %%ymm13 \n\t"
158
+ "vpermilpd $0x05 , %%ymm12, %%ymm12 \n\t"
159
+ "vpermilpd $0x05 , %%ymm13, %%ymm13 \n\t"
160
+ // "vpermpd $0xb1 , %%ymm12, %%ymm12 \n\t"
161
+ // "vpermpd $0xb1 , %%ymm13, %%ymm13 \n\t"
156
162
157
163
"vfmadd231pd %%ymm10, %%ymm14, %%ymm2 \n\t" // x_r * y_r, x_i * y_i
158
164
"vfmadd231pd %%ymm11, %%ymm15, %%ymm3 \n\t" // x_r * y_r, x_i * y_i
159
- "vpermpd $0xb1 , %%ymm14, %%ymm14 \n\t"
160
- "vpermpd $0xb1 , %%ymm15, %%ymm15 \n\t"
165
+ "vpermilpd $0x05 , %%ymm14, %%ymm14 \n\t"
166
+ "vpermilpd $0x05 , %%ymm15, %%ymm15 \n\t"
167
+ // "vpermpd $0xb1 , %%ymm14, %%ymm14 \n\t"
168
+ // "vpermpd $0xb1 , %%ymm15, %%ymm15 \n\t"
161
169
162
170
"vfmadd231pd %%ymm8 , %%ymm12, %%ymm4 \n\t" // x_r * y_i, x_i * y_r
163
171
"addq $16 , %0 \n\t"
0 commit comments