@@ -143,7 +143,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
143
143
vmulpd %ymm0 ,%ymm2 , %ymm8
144
144
vmulpd %ymm0 ,%ymm3 , %ymm12
145
145
prefetcht0 B_PR1+256 (BO)
146
- vpermpd $ 0xb1 , %ymm0 , %ymm0
146
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
147
147
vmulpd %ymm0 ,%ymm1 , %ymm5
148
148
vmulpd %ymm0 ,%ymm2 , %ymm9
149
149
vmulpd %ymm0 ,%ymm3 , %ymm13
@@ -153,7 +153,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
153
153
154
154
addq $ 12*SIZE, BO
155
155
vmulpd %ymm0 ,%ymm3 , %ymm14
156
- vpermpd $ 0xb1 , %ymm0 , %ymm0
156
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
157
157
vmulpd %ymm0 ,%ymm1 , %ymm7
158
158
vmovups -12 * SIZE(BO), %ymm1
159
159
vmulpd %ymm0 ,%ymm2 , %ymm11
@@ -172,7 +172,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
172
172
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
173
173
prefetcht0 B_PR1+128 (BO)
174
174
vfmadd231pd %ymm0 ,%ymm3 , %ymm12
175
- vpermpd $ 0xb1 , %ymm0 , %ymm0
175
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
176
176
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
177
177
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
178
178
vfmadd231pd %ymm0 ,%ymm3 , %ymm13
@@ -181,7 +181,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
181
181
vfmadd231pd %ymm0 ,%ymm2 , %ymm10
182
182
183
183
vfmadd231pd %ymm0 ,%ymm3 , %ymm14
184
- vpermpd $ 0xb1 , %ymm0 , %ymm0
184
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
185
185
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
186
186
vmovups -12 * SIZE(BO), %ymm1
187
187
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
@@ -196,7 +196,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
196
196
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
197
197
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
198
198
vfmadd231pd %ymm0 ,%ymm3 , %ymm12
199
- vpermpd $ 0xb1 , %ymm0 , %ymm0
199
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
200
200
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
201
201
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
202
202
vfmadd231pd %ymm0 ,%ymm3 , %ymm13
@@ -206,7 +206,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
206
206
207
207
addq $ 8*SIZE, AO
208
208
vfmadd231pd %ymm0 ,%ymm3 , %ymm14
209
- vpermpd $ 0xb1 , %ymm0 , %ymm0
209
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
210
210
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
211
211
vmovups 0 * SIZE(BO), %ymm1
212
212
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
@@ -222,7 +222,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
222
222
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
223
223
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
224
224
vfmadd231pd %ymm0 ,%ymm3 , %ymm12
225
- vpermpd $ 0xb1 , %ymm0 , %ymm0
225
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
226
226
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
227
227
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
228
228
vfmadd231pd %ymm0 ,%ymm3 , %ymm13
@@ -232,7 +232,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
232
232
233
233
addq $ 8*SIZE, AO
234
234
vfmadd231pd %ymm0 ,%ymm3 , %ymm14
235
- vpermpd $ 0xb1 , %ymm0 , %ymm0
235
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
236
236
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
237
237
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
238
238
vfmadd231pd %ymm0 ,%ymm3 , %ymm15
@@ -247,7 +247,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
247
247
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
248
248
vmovups -4 * SIZE(BO), %ymm3
249
249
vfmadd231pd %ymm0 ,%ymm3 , %ymm12
250
- vpermpd $ 0xb1 , %ymm0 , %ymm0
250
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
251
251
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
252
252
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
253
253
addq $ 12*SIZE, BO
@@ -257,7 +257,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
257
257
vfmadd231pd %ymm0 ,%ymm2 , %ymm10
258
258
addq $ 4*SIZE, AO
259
259
vfmadd231pd %ymm0 ,%ymm3 , %ymm14
260
- vpermpd $ 0xb1 , %ymm0 , %ymm0
260
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
261
261
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
262
262
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
263
263
vfmadd231pd %ymm0 ,%ymm3 , %ymm15
@@ -284,18 +284,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
284
284
vmulpd %ymm0 , %ymm14 , %ymm14
285
285
vmulpd %ymm0 , %ymm15 , %ymm15
286
286
287
- vpermpd $ 0xb1 , %ymm5 , %ymm5
288
- vpermpd $ 0xb1 , %ymm7 , %ymm7
287
+ vpermilpd $ 0x05 , %ymm5 , %ymm5
288
+ vpermilpd $ 0x05 , %ymm7 , %ymm7
289
289
290
290
vblendpd $ 0x0a , %ymm5 , %ymm4 , %ymm0
291
291
vblendpd $ 0x05 , %ymm5 , %ymm4 , %ymm1
292
292
vblendpd $ 0x0a , %ymm7 , %ymm6 , %ymm2
293
293
vblendpd $ 0x05 , %ymm7 , %ymm6 , %ymm3
294
294
295
- vpermpd $ 0x1b , %ymm2 , %ymm2
296
- vpermpd $ 0x1b , %ymm3 , %ymm3
297
- vpermpd $ 0xb1 , %ymm2 , %ymm2
298
- vpermpd $ 0xb1 , %ymm3 , %ymm3
295
+ vperm2f128 $ 0x01 , %ymm2 , %ymm2
296
+ vperm2f128 $ 0x01 , %ymm3 , %ymm3
299
297
300
298
vblendpd $ 0x03 , %ymm0 , %ymm2 , %ymm4
301
299
vblendpd $ 0x03 , %ymm1 , %ymm3 , %ymm5
@@ -324,18 +322,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
324
322
prefetcht0 32 (%rax )
325
323
prefetcht0 32 (%rax ,LDC)
326
324
327
- vpermpd $ 0xb1 , %ymm9 , %ymm9
328
- vpermpd $ 0xb1 , %ymm11 , %ymm11
325
+ vpermilpd $ 0x05 , %ymm9 , %ymm9
326
+ vpermilpd $ 0x05 , %ymm11 , %ymm11
329
327
330
328
vblendpd $ 0x0a , %ymm9 , %ymm8 , %ymm0
331
329
vblendpd $ 0x05 , %ymm9 , %ymm8 , %ymm1
332
330
vblendpd $ 0x0a , %ymm11 , %ymm10 , %ymm2
333
331
vblendpd $ 0x05 , %ymm11 , %ymm10 , %ymm3
334
332
335
- vpermpd $ 0x1b , %ymm2 , %ymm2
336
- vpermpd $ 0x1b , %ymm3 , %ymm3
337
- vpermpd $ 0xb1 , %ymm2 , %ymm2
338
- vpermpd $ 0xb1 , %ymm3 , %ymm3
333
+ vperm2f128 $ 0x01 , %ymm2 , %ymm2
334
+ vperm2f128 $ 0x01 , %ymm3 , %ymm3
339
335
340
336
vblendpd $ 0x03 , %ymm0 , %ymm2 , %ymm4
341
337
vblendpd $ 0x03 , %ymm1 , %ymm3 , %ymm5
@@ -365,18 +361,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
365
361
prefetcht0 32 (%rbp )
366
362
prefetcht0 32 (%rbp ,LDC)
367
363
368
- vpermpd $ 0xb1 , %ymm13 , %ymm13
369
- vpermpd $ 0xb1 , %ymm15 , %ymm15
364
+ vpermilpd $ 0x05 , %ymm13 , %ymm13
365
+ vpermilpd $ 0x05 , %ymm15 , %ymm15
370
366
371
367
vblendpd $ 0x0a , %ymm13 , %ymm12 , %ymm0
372
368
vblendpd $ 0x05 , %ymm13 , %ymm12 , %ymm1
373
369
vblendpd $ 0x0a , %ymm15 , %ymm14 , %ymm2
374
370
vblendpd $ 0x05 , %ymm15 , %ymm14 , %ymm3
375
371
376
- vpermpd $ 0x1b , %ymm2 , %ymm2
377
- vpermpd $ 0x1b , %ymm3 , %ymm3
378
- vpermpd $ 0xb1 , %ymm2 , %ymm2
379
- vpermpd $ 0xb1 , %ymm3 , %ymm3
372
+ vperm2f128 $ 0x01 , %ymm2 , %ymm2
373
+ vperm2f128 $ 0x01 , %ymm3 , %ymm3
380
374
381
375
vblendpd $ 0x03 , %ymm0 , %ymm2 , %ymm4
382
376
vblendpd $ 0x03 , %ymm1 , %ymm3 , %ymm5
@@ -687,15 +681,15 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
687
681
vmovups -8 * SIZE(BO), %ymm2
688
682
vmulpd %ymm0 ,%ymm1 , %ymm4
689
683
vmulpd %ymm0 ,%ymm2 , %ymm8
690
- vpermpd $ 0xb1 , %ymm0 , %ymm0
684
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
691
685
vmulpd %ymm0 ,%ymm1 , %ymm5
692
686
vmulpd %ymm0 ,%ymm2 , %ymm9
693
687
vpermpd $ 0x1b , %ymm0 , %ymm0
694
688
vmulpd %ymm0 ,%ymm1 , %ymm6
695
689
vmulpd %ymm0 ,%ymm2 , %ymm10
696
690
697
691
addq $ 8*SIZE, BO
698
- vpermpd $ 0xb1 , %ymm0 , %ymm0
692
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
699
693
vmulpd %ymm0 ,%ymm1 , %ymm7
700
694
vmovups -12 * SIZE(BO), %ymm1
701
695
vmulpd %ymm0 ,%ymm2 , %ymm11
@@ -710,14 +704,14 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
710
704
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
711
705
prefetcht0 B_PR1+64 (BO)
712
706
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
713
- vpermpd $ 0xb1 , %ymm0 , %ymm0
707
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
714
708
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
715
709
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
716
710
vpermpd $ 0x1b , %ymm0 , %ymm0
717
711
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
718
712
vfmadd231pd %ymm0 ,%ymm2 , %ymm10
719
713
720
- vpermpd $ 0xb1 , %ymm0 , %ymm0
714
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
721
715
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
722
716
vmovups -12 * SIZE(BO), %ymm1
723
717
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
@@ -729,15 +723,15 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
729
723
vmovups -12 * SIZE(AO), %ymm0
730
724
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
731
725
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
732
- vpermpd $ 0xb1 , %ymm0 , %ymm0
726
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
733
727
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
734
728
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
735
729
vpermpd $ 0x1b , %ymm0 , %ymm0
736
730
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
737
731
vfmadd231pd %ymm0 ,%ymm2 , %ymm10
738
732
739
733
addq $ 8*SIZE, AO
740
- vpermpd $ 0xb1 , %ymm0 , %ymm0
734
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
741
735
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
742
736
vmovups -4 * SIZE(BO), %ymm1
743
737
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
@@ -750,15 +744,15 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
750
744
vmovups -12 * SIZE(AO), %ymm0
751
745
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
752
746
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
753
- vpermpd $ 0xb1 , %ymm0 , %ymm0
747
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
754
748
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
755
749
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
756
750
vpermpd $ 0x1b , %ymm0 , %ymm0
757
751
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
758
752
vfmadd231pd %ymm0 ,%ymm2 , %ymm10
759
753
760
754
addq $ 8*SIZE, AO
761
- vpermpd $ 0xb1 , %ymm0 , %ymm0
755
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
762
756
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
763
757
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
764
758
addq $ 8*SIZE, BO
@@ -770,15 +764,15 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
770
764
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
771
765
vmovups -8 * SIZE(BO), %ymm2
772
766
vfmadd231pd %ymm0 ,%ymm2 , %ymm8
773
- vpermpd $ 0xb1 , %ymm0 , %ymm0
767
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
774
768
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
775
769
vfmadd231pd %ymm0 ,%ymm2 , %ymm9
776
770
addq $ 8*SIZE, BO
777
771
vpermpd $ 0x1b , %ymm0 , %ymm0
778
772
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
779
773
vfmadd231pd %ymm0 ,%ymm2 , %ymm10
780
774
addq $ 4*SIZE, AO
781
- vpermpd $ 0xb1 , %ymm0 , %ymm0
775
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
782
776
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
783
777
vfmadd231pd %ymm0 ,%ymm2 , %ymm11
784
778
@@ -799,18 +793,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
799
793
vmulpd %ymm0 , %ymm10 , %ymm10
800
794
vmulpd %ymm0 , %ymm11 , %ymm11
801
795
802
- vpermpd $ 0xb1 , %ymm5 , %ymm5
803
- vpermpd $ 0xb1 , %ymm7 , %ymm7
796
+ vpermilpd $ 0x05 , %ymm5 , %ymm5
797
+ vpermilpd $ 0x05 , %ymm7 , %ymm7
804
798
805
799
vblendpd $ 0x0a , %ymm5 , %ymm4 , %ymm0
806
800
vblendpd $ 0x05 , %ymm5 , %ymm4 , %ymm1
807
801
vblendpd $ 0x0a , %ymm7 , %ymm6 , %ymm2
808
802
vblendpd $ 0x05 , %ymm7 , %ymm6 , %ymm3
809
803
810
- vpermpd $ 0x1b , %ymm2 , %ymm2
811
- vpermpd $ 0x1b , %ymm3 , %ymm3
812
- vpermpd $ 0xb1 , %ymm2 , %ymm2
813
- vpermpd $ 0xb1 , %ymm3 , %ymm3
804
+ vperm2f128 $ 0x01 , %ymm2 , %ymm2
805
+ vperm2f128 $ 0x01 , %ymm3 , %ymm3
814
806
815
807
vblendpd $ 0x03 , %ymm0 , %ymm2 , %ymm4
816
808
vblendpd $ 0x03 , %ymm1 , %ymm3 , %ymm5
@@ -839,18 +831,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
839
831
prefetcht0 32 (%rax )
840
832
prefetcht0 32 (%rax ,LDC)
841
833
842
- vpermpd $ 0xb1 , %ymm9 , %ymm9
843
- vpermpd $ 0xb1 , %ymm11 , %ymm11
834
+ vpermilpd $ 0x05 , %ymm9 , %ymm9
835
+ vpermilpd $ 0x05 , %ymm11 , %ymm11
844
836
845
837
vblendpd $ 0x0a , %ymm9 , %ymm8 , %ymm0
846
838
vblendpd $ 0x05 , %ymm9 , %ymm8 , %ymm1
847
839
vblendpd $ 0x0a , %ymm11 , %ymm10 , %ymm2
848
840
vblendpd $ 0x05 , %ymm11 , %ymm10 , %ymm3
849
841
850
- vpermpd $ 0x1b , %ymm2 , %ymm2
851
- vpermpd $ 0x1b , %ymm3 , %ymm3
852
- vpermpd $ 0xb1 , %ymm2 , %ymm2
853
- vpermpd $ 0xb1 , %ymm3 , %ymm3
842
+ vperm2f128 $ 0x01 , %ymm2 , %ymm2
843
+ vperm2f128 $ 0x01 , %ymm3 , %ymm3
854
844
855
845
vblendpd $ 0x03 , %ymm0 , %ymm2 , %ymm4
856
846
vblendpd $ 0x03 , %ymm1 , %ymm3 , %ymm5
@@ -1084,13 +1074,13 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1084
1074
vmovups -12 * SIZE(BO), %ymm1
1085
1075
vmovups -16 * SIZE(AO), %ymm0
1086
1076
vmulpd %ymm0 ,%ymm1 , %ymm4
1087
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1077
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1088
1078
vmulpd %ymm0 ,%ymm1 , %ymm5
1089
1079
vpermpd $ 0x1b , %ymm0 , %ymm0
1090
1080
vmulpd %ymm0 ,%ymm1 , %ymm6
1091
1081
1092
1082
addq $ 4*SIZE, BO
1093
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1083
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1094
1084
vmulpd %ymm0 ,%ymm1 , %ymm7
1095
1085
vmovups -12 * SIZE(BO), %ymm1
1096
1086
@@ -1100,12 +1090,12 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1100
1090
prefetcht0 A_PR1(AO)
1101
1091
vmovups -16 * SIZE(AO), %ymm0
1102
1092
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
1103
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1093
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1104
1094
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
1105
1095
vpermpd $ 0x1b , %ymm0 , %ymm0
1106
1096
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
1107
1097
1108
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1098
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1109
1099
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
1110
1100
vmovups -12 * SIZE(BO), %ymm1
1111
1101
@@ -1114,13 +1104,13 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1114
1104
.macro KERNEL4x4_M2
1115
1105
vmovups -12 * SIZE(AO), %ymm0
1116
1106
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
1117
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1107
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1118
1108
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
1119
1109
vpermpd $ 0x1b , %ymm0 , %ymm0
1120
1110
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
1121
1111
1122
1112
addq $ 8*SIZE, AO
1123
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1113
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1124
1114
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
1125
1115
vmovups -8 * SIZE(BO), %ymm1
1126
1116
addq $ 8*SIZE, BO
@@ -1130,13 +1120,13 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1130
1120
.macro KERNEL4x4_E
1131
1121
vmovups -12 * SIZE(AO), %ymm0
1132
1122
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
1133
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1123
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1134
1124
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
1135
1125
vpermpd $ 0x1b , %ymm0 , %ymm0
1136
1126
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
1137
1127
1138
1128
addq $ 8*SIZE, AO
1139
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1129
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1140
1130
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
1141
1131
addq $ 4*SIZE, BO
1142
1132
.endm
@@ -1145,13 +1135,13 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1145
1135
vmovups -12 * SIZE(BO), %ymm1
1146
1136
vmovups -16 * SIZE(AO), %ymm0
1147
1137
vfmadd231pd %ymm0 ,%ymm1 , %ymm4
1148
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1138
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1149
1139
vfmadd231pd %ymm0 ,%ymm1 , %ymm5
1150
1140
addq $ 4*SIZE, BO
1151
1141
vpermpd $ 0x1b , %ymm0 , %ymm0
1152
1142
vfmadd231pd %ymm0 ,%ymm1 , %ymm6
1153
1143
addq $ 4*SIZE, AO
1154
- vpermpd $ 0xb1 , %ymm0 , %ymm0
1144
+ vpermilpd $ 0x05 , %ymm0 , %ymm0
1155
1145
vfmadd231pd %ymm0 ,%ymm1 , %ymm7
1156
1146
1157
1147
.endm
@@ -1165,18 +1155,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1165
1155
vmulpd %ymm0 , %ymm5 , %ymm5
1166
1156
vmulpd %ymm0 , %ymm6 , %ymm6
1167
1157
1168
- vpermpd $ 0xb1 , %ymm5 , %ymm5
1169
- vpermpd $ 0xb1 , %ymm7 , %ymm7
1158
+ vpermilpd $ 0x05 , %ymm5 , %ymm5
1159
+ vpermilpd $ 0x05 , %ymm7 , %ymm7
1170
1160
1171
1161
vblendpd $ 0x0a , %ymm5 , %ymm4 , %ymm0
1172
1162
vblendpd $ 0x05 , %ymm5 , %ymm4 , %ymm1
1173
1163
vblendpd $ 0x0a , %ymm7 , %ymm6 , %ymm2
1174
1164
vblendpd $ 0x05 , %ymm7 , %ymm6 , %ymm3
1175
1165
1176
- vpermpd $ 0x1b , %ymm2 , %ymm2
1177
- vpermpd $ 0x1b , %ymm3 , %ymm3
1178
- vpermpd $ 0xb1 , %ymm2 , %ymm2
1179
- vpermpd $ 0xb1 , %ymm3 , %ymm3
1166
+ vperm2f128 $ 0x01 , %ymm2 , %ymm2
1167
+ vperm2f128 $ 0x01 , %ymm3 , %ymm3
1180
1168
1181
1169
vblendpd $ 0x03 , %ymm0 , %ymm2 , %ymm4
1182
1170
vblendpd $ 0x03 , %ymm1 , %ymm3 , %ymm5
0 commit comments