@@ -302,21 +302,21 @@ define <32 x i8> @var_ashr_v32i8(<32 x i8> %a, <32 x i8> %b) {
302
302
; AVX256-NEXT: vpsraw $4, %ymm3, %ymm4
303
303
; AVX256-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
304
304
; AVX256-NEXT: vpsraw $2, %ymm3, %ymm4
305
- ; AVX256-NEXT: vpaddw %ymm2, %ymm2, %ymm2
306
- ; AVX256-NEXT: vpblendvb %ymm2 , %ymm4, %ymm3, %ymm3
305
+ ; AVX256-NEXT: vpaddw %ymm2, %ymm2, %ymm5
306
+ ; AVX256-NEXT: vpblendvb %ymm5 , %ymm4, %ymm3, %ymm3
307
307
; AVX256-NEXT: vpsraw $1, %ymm3, %ymm4
308
- ; AVX256-NEXT: vpaddw %ymm2 , %ymm2, %ymm2
308
+ ; AVX256-NEXT: vpsllw $2 , %ymm2, %ymm2
309
309
; AVX256-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2
310
310
; AVX256-NEXT: vpsrlw $8, %ymm2, %ymm2
311
311
; AVX256-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
312
312
; AVX256-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
313
313
; AVX256-NEXT: vpsraw $4, %ymm0, %ymm3
314
314
; AVX256-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
315
315
; AVX256-NEXT: vpsraw $2, %ymm0, %ymm3
316
- ; AVX256-NEXT: vpaddw %ymm1, %ymm1, %ymm1
317
- ; AVX256-NEXT: vpblendvb %ymm1 , %ymm3, %ymm0, %ymm0
316
+ ; AVX256-NEXT: vpaddw %ymm1, %ymm1, %ymm4
317
+ ; AVX256-NEXT: vpblendvb %ymm4 , %ymm3, %ymm0, %ymm0
318
318
; AVX256-NEXT: vpsraw $1, %ymm0, %ymm3
319
- ; AVX256-NEXT: vpaddw %ymm1 , %ymm1, %ymm1
319
+ ; AVX256-NEXT: vpsllw $2 , %ymm1, %ymm1
320
320
; AVX256-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
321
321
; AVX256-NEXT: vpsrlw $8, %ymm0, %ymm0
322
322
; AVX256-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
@@ -338,21 +338,21 @@ define <32 x i8> @var_ashr_v32i8(<32 x i8> %a, <32 x i8> %b) {
338
338
; AVX512VL-NEXT: vpsraw $4, %ymm3, %ymm4
339
339
; AVX512VL-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
340
340
; AVX512VL-NEXT: vpsraw $2, %ymm3, %ymm4
341
- ; AVX512VL-NEXT: vpaddw %ymm2, %ymm2, %ymm2
342
- ; AVX512VL-NEXT: vpblendvb %ymm2 , %ymm4, %ymm3, %ymm3
341
+ ; AVX512VL-NEXT: vpaddw %ymm2, %ymm2, %ymm5
342
+ ; AVX512VL-NEXT: vpblendvb %ymm5 , %ymm4, %ymm3, %ymm3
343
343
; AVX512VL-NEXT: vpsraw $1, %ymm3, %ymm4
344
- ; AVX512VL-NEXT: vpaddw %ymm2 , %ymm2, %ymm2
344
+ ; AVX512VL-NEXT: vpsllw $2 , %ymm2, %ymm2
345
345
; AVX512VL-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2
346
346
; AVX512VL-NEXT: vpsrlw $8, %ymm2, %ymm2
347
347
; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
348
348
; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
349
349
; AVX512VL-NEXT: vpsraw $4, %ymm0, %ymm3
350
350
; AVX512VL-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
351
351
; AVX512VL-NEXT: vpsraw $2, %ymm0, %ymm3
352
- ; AVX512VL-NEXT: vpaddw %ymm1, %ymm1, %ymm1
353
- ; AVX512VL-NEXT: vpblendvb %ymm1 , %ymm3, %ymm0, %ymm0
352
+ ; AVX512VL-NEXT: vpaddw %ymm1, %ymm1, %ymm4
353
+ ; AVX512VL-NEXT: vpblendvb %ymm4 , %ymm3, %ymm0, %ymm0
354
354
; AVX512VL-NEXT: vpsraw $1, %ymm0, %ymm3
355
- ; AVX512VL-NEXT: vpaddw %ymm1 , %ymm1, %ymm1
355
+ ; AVX512VL-NEXT: vpsllw $2 , %ymm1, %ymm1
356
356
; AVX512VL-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
357
357
; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0
358
358
; AVX512VL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
@@ -432,21 +432,21 @@ define <16 x i8> @var_ashr_v16i8(<16 x i8> %a, <16 x i8> %b) {
432
432
; AVX256VL-NEXT: vpsraw $4, %xmm3, %xmm4
433
433
; AVX256VL-NEXT: vpblendvb %xmm2, %xmm4, %xmm3, %xmm3
434
434
; AVX256VL-NEXT: vpsraw $2, %xmm3, %xmm4
435
- ; AVX256VL-NEXT: vpaddw %xmm2, %xmm2, %xmm2
436
- ; AVX256VL-NEXT: vpblendvb %xmm2 , %xmm4, %xmm3, %xmm3
435
+ ; AVX256VL-NEXT: vpaddw %xmm2, %xmm2, %xmm5
436
+ ; AVX256VL-NEXT: vpblendvb %xmm5 , %xmm4, %xmm3, %xmm3
437
437
; AVX256VL-NEXT: vpsraw $1, %xmm3, %xmm4
438
- ; AVX256VL-NEXT: vpaddw %xmm2 , %xmm2, %xmm2
438
+ ; AVX256VL-NEXT: vpsllw $2 , %xmm2, %xmm2
439
439
; AVX256VL-NEXT: vpblendvb %xmm2, %xmm4, %xmm3, %xmm2
440
440
; AVX256VL-NEXT: vpsrlw $8, %xmm2, %xmm2
441
441
; AVX256VL-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
442
442
; AVX256VL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
443
443
; AVX256VL-NEXT: vpsraw $4, %xmm0, %xmm3
444
444
; AVX256VL-NEXT: vpblendvb %xmm1, %xmm3, %xmm0, %xmm0
445
445
; AVX256VL-NEXT: vpsraw $2, %xmm0, %xmm3
446
- ; AVX256VL-NEXT: vpaddw %xmm1, %xmm1, %xmm1
447
- ; AVX256VL-NEXT: vpblendvb %xmm1 , %xmm3, %xmm0, %xmm0
446
+ ; AVX256VL-NEXT: vpaddw %xmm1, %xmm1, %xmm4
447
+ ; AVX256VL-NEXT: vpblendvb %xmm4 , %xmm3, %xmm0, %xmm0
448
448
; AVX256VL-NEXT: vpsraw $1, %xmm0, %xmm3
449
- ; AVX256VL-NEXT: vpaddw %xmm1 , %xmm1, %xmm1
449
+ ; AVX256VL-NEXT: vpsllw $2 , %xmm1, %xmm1
450
450
; AVX256VL-NEXT: vpblendvb %xmm1, %xmm3, %xmm0, %xmm0
451
451
; AVX256VL-NEXT: vpsrlw $8, %xmm0, %xmm0
452
452
; AVX256VL-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
0 commit comments