llvm-ci-la · tangaac · Sep 24, 2025
diff --git a/...Benchmarks/LCALS/SubsetALambdaLoops/CMakeFiles/lcalsALambda.dir/LambdaSubsetAbenchmarks.s b/...Benchmarks/LCALS/SubsetALambdaLoops/CMakeFiles/lcalsALambda.dir/LambdaSubsetAbenchmarks.s
diff --git a/...lts/MicroBenchmarks/LCALS/SubsetARawLoops/CMakeFiles/lcalsARaw.dir/RawSubsetAbenchmarks.s b/...lts/MicroBenchmarks/LCALS/SubsetARawLoops/CMakeFiles/lcalsARaw.dir/RawSubsetAbenchmarks.s
diff --git a/...Benchmarks/LoopVectorization/CMakeFiles/LoopInterleavingBenchmarks.dir/LoopInterleaving.s b/...Benchmarks/LoopVectorization/CMakeFiles/LoopInterleavingBenchmarks.dir/LoopInterleaving.s
@@ -1608,15 +1608,15 @@ _ZL27loopWithReductionWithVW1IC4i:      # @_ZL27loopWithReductionWithVW1IC4i
 	addi.d	$a1, $a1, 16
 	bnez	$a3, .LBB21_5
 # %bb.6:                                # %middle.block
-	vpickve2gr.w	$a1, $vr0, 0
-	vpickve2gr.w	$a3, $vr0, 1
-	add.d	$a1, $a3, $a1
-	vpickve2gr.w	$a3, $vr0, 2
-	add.d	$a1, $a3, $a1
+	vreplvei.w	$vr1, $vr0, 1
+	vadd.w	$vr1, $vr1, $vr0
+	vreplvei.w	$vr2, $vr0, 2
+	vadd.w	$vr1, $vr2, $vr1
+	vpickve2gr.w	$a1, $vr1, 0
 	vpickve2gr.w	$a3, $vr0, 3
 	add.w	$a1, $a3, $a1
 	beq	$a2, $a0, .LBB21_9
-.LBB21_7:                               # %.lr.ph.preheader14
+.LBB21_7:                               # %.lr.ph.preheader18
 	pcalau12i	$a3, %pc_hi20(A)
 	addi.d	$a3, $a3, %pc_lo12(A)
 	alsl.d	$a3, $a2, $a3, 2
@@ -3709,15 +3709,15 @@ _ZL30bigLoopWithReductionWithVW1IC4i:   # @_ZL30bigLoopWithReductionWithVW1IC4i
 	addi.d	$a1, $a1, 16
 	bnez	$a7, .LBB42_5
 # %bb.6:                                # %middle.block
-	vpickve2gr.w	$a1, $vr0, 0
-	vpickve2gr.w	$a4, $vr0, 1
-	add.d	$a1, $a4, $a1
-	vpickve2gr.w	$a4, $vr0, 2
-	add.d	$a1, $a4, $a1
+	vreplvei.w	$vr1, $vr0, 1
+	vadd.w	$vr1, $vr1, $vr0
+	vreplvei.w	$vr2, $vr0, 2
+	vadd.w	$vr1, $vr2, $vr1
+	vpickve2gr.w	$a1, $vr1, 0
 	vpickve2gr.w	$a4, $vr0, 3
 	add.w	$a1, $a4, $a1
 	beq	$a3, $a0, .LBB42_9
-.LBB42_7:                               # %.lr.ph.preheader17
+.LBB42_7:                               # %.lr.ph.preheader21
 	pcalau12i	$a4, %pc_hi20(A)
 	addi.d	$a4, $a4, %pc_lo12(A)
 	alsl.d	$a4, $a3, $a4, 2

diff --git a/...s/MicroBenchmarks/SLPVectorization/CMakeFiles/SLPVectorizationBenchmarks.dir/Versioning.s b/...s/MicroBenchmarks/SLPVectorization/CMakeFiles/SLPVectorizationBenchmarks.dir/Versioning.s
@@ -1042,14 +1042,11 @@ _Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj2EdEvRN9benchmark5S
 	.p2align	4, , 16
 .LBB14_3:                               # %.lr.ph
                                         # =>This Inner Loop Header: Depth=1
-	fld.d	$fa0, $sp, 32
-	fld.d	$fa1, $sp, 16
-	fld.d	$fa2, $sp, 24
-	fld.d	$fa3, $sp, 40
-	fmadd.d	$fa1, $fa0, $fa1, $fa0
-	fst.d	$fa1, $sp, 32
-	fmadd.d	$fa0, $fa0, $fa2, $fa3
-	fst.d	$fa0, $sp, 40
+	vld	$vr0, $sp, 32
+	vld	$vr1, $sp, 16
+	vreplvei.d	$vr2, $vr0, 0
+	vfmadd.d	$vr0, $vr2, $vr1, $vr0
+	vst	$vr0, $sp, 32
 	#APP
 	#NO_APP
 	#APP
@@ -1209,18 +1206,18 @@ _Z49benchmark_multiply_accumulate_runtime_checks_failILj3EdEvRN9benchmark5StateE
 _Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj3EdEvRN9benchmark5StateE: # @_Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj3EdEvRN9benchmark5StateE
 	.cfi_startproc
 # %bb.0:                                # %_ZN9benchmark5State13StateIteratorC2EPS0_.exit
-	addi.d	$sp, $sp, -96
-	.cfi_def_cfa_offset 96
-	st.d	$ra, $sp, 88                    # 8-byte Folded Spill
-	st.d	$fp, $sp, 80                    # 8-byte Folded Spill
-	st.d	$s0, $sp, 72                    # 8-byte Folded Spill
-	st.d	$s1, $sp, 64                    # 8-byte Folded Spill
+	addi.d	$sp, $sp, -112
+	.cfi_def_cfa_offset 112
+	st.d	$ra, $sp, 104                   # 8-byte Folded Spill
+	st.d	$fp, $sp, 96                    # 8-byte Folded Spill
+	st.d	$s0, $sp, 88                    # 8-byte Folded Spill
+	st.d	$s1, $sp, 80                    # 8-byte Folded Spill
 	.cfi_offset 1, -8
 	.cfi_offset 22, -16
 	.cfi_offset 23, -24
 	.cfi_offset 24, -32
 	move	$fp, $a0
-	addi.d	$a0, $sp, 40
+	addi.d	$a0, $sp, 48
 	ori	$a1, $zero, 3
 	pcaddu18i	$ra, %call36(_ZL9init_dataIdEvPT_j)
 	jirl	$ra, $ra, 0
@@ -1237,23 +1234,21 @@ _Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj3EdEvRN9benchmark5S
 # %bb.1:                                # %_ZN9benchmark5State13StateIteratorC2EPS0_.exit
 	beqz	$s0, .LBB17_4
 # %bb.2:
-	addi.d	$a0, $sp, 40
+	addi.d	$a0, $sp, 48
 	addi.d	$a1, $sp, 16
 	.p2align	4, , 16
 .LBB17_3:                               # %.lr.ph
                                         # =>This Inner Loop Header: Depth=1
-	fld.d	$fa0, $sp, 40
-	fld.d	$fa1, $sp, 16
-	fmadd.d	$fa1, $fa0, $fa1, $fa0
-	fld.d	$fa2, $sp, 24
-	fld.d	$fa3, $sp, 48
-	fld.d	$fa4, $sp, 32
-	fld.d	$fa5, $sp, 56
-	fst.d	$fa1, $sp, 40
-	fmadd.d	$fa1, $fa0, $fa2, $fa3
-	fst.d	$fa1, $sp, 48
-	fmadd.d	$fa0, $fa0, $fa4, $fa5
-	fst.d	$fa0, $sp, 56
+	vld	$vr0, $sp, 16
+	vld	$vr1, $sp, 48
+	fld.d	$fa2, $sp, 48
+	fld.d	$fa3, $sp, 32
+	fld.d	$fa4, $sp, 64
+	vreplvei.d	$vr5, $vr1, 0
+	vfmadd.d	$vr0, $vr5, $vr0, $vr1
+	vst	$vr0, $sp, 48
+	fmadd.d	$fa0, $fa2, $fa3, $fa4
+	fst.d	$fa0, $sp, 64
 	#APP
 	#NO_APP
 	#APP
@@ -1265,11 +1260,11 @@ _Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj3EdEvRN9benchmark5S
 	move	$a0, $fp
 	pcaddu18i	$ra, %call36(_ZN9benchmark5State17FinishKeepRunningEv)
 	jirl	$ra, $ra, 0
-	ld.d	$s1, $sp, 64                    # 8-byte Folded Reload
-	ld.d	$s0, $sp, 72                    # 8-byte Folded Reload
-	ld.d	$fp, $sp, 80                    # 8-byte Folded Reload
-	ld.d	$ra, $sp, 88                    # 8-byte Folded Reload
-	addi.d	$sp, $sp, 96
+	ld.d	$s1, $sp, 80                    # 8-byte Folded Reload
+	ld.d	$s0, $sp, 88                    # 8-byte Folded Reload
+	ld.d	$fp, $sp, 96                    # 8-byte Folded Reload
+	ld.d	$ra, $sp, 104                   # 8-byte Folded Reload
+	addi.d	$sp, $sp, 112
 	ret
 .Lfunc_end17:
 	.size	_Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj3EdEvRN9benchmark5StateE, .Lfunc_end17-_Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj3EdEvRN9benchmark5StateE
@@ -1446,22 +1441,15 @@ _Z54benchmark_multiply_accumulate_no_runtime_checks_neededILj4EdEvRN9benchmark5S
 	.p2align	4, , 16
 .LBB20_3:                               # %.lr.ph
                                         # =>This Inner Loop Header: Depth=1
-	fld.d	$fa0, $sp, 48
-	fld.d	$fa1, $sp, 16
-	fld.d	$fa2, $sp, 24
-	fld.d	$fa3, $sp, 56
-	fmadd.d	$fa1, $fa0, $fa1, $fa0
-	fst.d	$fa1, $sp, 48
-	fmadd.d	$fa1, $fa0, $fa2, $fa3
-	fld.d	$fa2, $sp, 32
-	fld.d	$fa3, $sp, 64
-	fld.d	$fa4, $sp, 40
-	fld.d	$fa5, $sp, 72
-	fst.d	$fa1, $sp, 56
-	fmadd.d	$fa1, $fa0, $fa2, $fa3
-	fst.d	$fa1, $sp, 64
-	fmadd.d	$fa0, $fa0, $fa4, $fa5
-	fst.d	$fa0, $sp, 72
+	vld	$vr0, $sp, 48
+	vld	$vr1, $sp, 16
+	vld	$vr2, $sp, 32
+	vld	$vr3, $sp, 64
+	vreplvei.d	$vr4, $vr0, 0
+	vfmadd.d	$vr0, $vr4, $vr1, $vr0
+	vst	$vr0, $sp, 48
+	vfmadd.d	$vr0, $vr4, $vr2, $vr3
+	vst	$vr0, $sp, 64
 	#APP
 	#NO_APP
 	#APP

diff --git a/results/MultiSource/Applications/ClamAV/CMakeFiles/clamscan.dir/libclamav_special.s b/results/MultiSource/Applications/ClamAV/CMakeFiles/clamscan.dir/libclamav_special.s
@@ -50,19 +50,19 @@ cli_check_mydoom_log:                   # @cli_check_mydoom_log
 	vshuf4i.b	$vr0, $vr0, 27
 	vreplgr2vr.w	$vr1, $a0
 	vxor.v	$vr0, $vr0, $vr1
-	vpickve2gr.w	$a1, $vr0, 0
-	vpickve2gr.w	$a2, $vr0, 1
-	add.d	$a1, $a2, $a1
-	vpickve2gr.w	$a2, $vr0, 2
-	ld.w	$a3, $sp, 28
-	add.d	$a1, $a2, $a1
-	vpickve2gr.w	$a2, $vr0, 3
-	add.d	$a1, $a2, $a1
-	revb.2w	$a2, $a3
+	vreplvei.w	$vr1, $vr0, 1
+	vadd.w	$vr1, $vr1, $vr0
+	vreplvei.w	$vr2, $vr0, 2
+	vadd.w	$vr1, $vr2, $vr1
+	ld.w	$a1, $sp, 28
+	vpickve2gr.w	$a2, $vr1, 0
+	vpickve2gr.w	$a3, $vr0, 3
+	add.d	$a2, $a3, $a2
+	revb.2w	$a1, $a1
 	ld.w	$a3, $sp, 32
-	xor	$a2, $a2, $a0
-	st.w	$a2, $sp, 28
-	add.d	$a1, $a2, $a1
+	xor	$a1, $a1, $a0
+	st.w	$a1, $sp, 28
+	add.d	$a1, $a1, $a2
 	revb.2w	$a2, $a3
 	xor	$a2, $a2, $a0
 	ld.w	$a3, $sp, 36

diff --git a/results/MultiSource/Applications/JM/ldecod/CMakeFiles/ldecod.dir/erc_do_p.s b/results/MultiSource/Applications/JM/ldecod/CMakeFiles/ldecod.dir/erc_do_p.s
@@ -1307,24 +1307,22 @@ conceal_lost_frames:                    # @conceal_lost_frames
 	move	$s0, $a0
 	add.d	$s4, $a0, $s5
 	st.w	$s6, $s4, 76
-	st.w	$s3, $s4, 8
-	stx.w	$s3, $a0, $s5
-	st.w	$zero, $s4, 32
 	st.d	$s6, $s4, 24
 	ld.d	$a0, $sp, 80                    # 8-byte Folded Reload
 	ldx.w	$a0, $fp, $a0
 	ld.d	$a1, $sp, 72                    # 8-byte Folded Reload
 	ldx.w	$a1, $fp, $a1
-	st.w	$s6, $s4, 272
-	st.w	$zero, $s4, 216
+	st.w	$s3, $s4, 8
+	stx.w	$s3, $s0, $s5
 	stptr.w	$s3, $fp, 5676
 	add.d	$a1, $a1, $a0
-	st.w	$a1, $s0, 8
+	vreplgr2vr.w	$vr0, $a1
+	vst	$vr0, $s0, 4
 	ld.d	$a2, $sp, 64                    # 8-byte Folded Reload
 	ld.w	$a0, $a2, 28
-	st.w	$a1, $s0, 12
-	st.w	$a1, $s0, 16
-	st.w	$a1, $s0, 4
+	st.w	$zero, $s4, 32
+	st.w	$s6, $s4, 272
+	st.w	$zero, $s4, 216
 	addi.w	$a0, $a0, -1
 	stptr.w	$a1, $fp, 6056
 	bltz	$a0, .LBB3_12
@@ -2263,11 +2261,9 @@ conceal_non_ref_pics:                   # @conceal_non_ref_pics
 # %bb.10:                               #   in Loop: Header=BB18_8 Depth=1
 	move	$s1, $a0
 	stptr.w	$s8, $a2, 6072
+	vreplgr2vr.w	$vr0, $s8
+	vst	$vr0, $a0, 4
 	ldptr.w	$a0, $a2, 6068
-	st.w	$s8, $s1, 8
-	st.w	$s8, $s1, 12
-	st.w	$s8, $s1, 16
-	st.w	$s8, $s1, 4
 	ori	$a4, $zero, 2
 	beq	$a0, $a4, .LBB18_13
 # %bb.11:                               #   in Loop: Header=BB18_8 Depth=1