@@ -1021,116 +1021,8 @@ define i64 @sdiv64_known32(i64 %a, i64 %b) {
10211021; GFX9-LABEL: sdiv64_known32:
10221022; GFX9: ; %bb.0:
10231023; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
1024- ; GFX9-NEXT: v_ashrrev_i32_e32 v2, 31, v1
1025- ; GFX9-NEXT: v_ashrrev_i32_e32 v0, 31, v3
1026- ; GFX9-NEXT: v_or_b32_e32 v5, v2, v0
1027- ; GFX9-NEXT: v_mov_b32_e32 v4, 0
1028- ; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
1029- ; GFX9-NEXT: v_mov_b32_e32 v7, v1
1030- ; GFX9-NEXT: v_mov_b32_e32 v6, v3
1031- ; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
1032- ; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
1033- ; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
1034- ; GFX9-NEXT: s_cbranch_execz .LBB10_2
1035- ; GFX9-NEXT: ; %bb.1:
1036- ; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v6
1037- ; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v0
1038- ; GFX9-NEXT: v_sub_co_u32_e32 v11, vcc, 0, v6
1039- ; GFX9-NEXT: v_subb_co_u32_e32 v12, vcc, 0, v0, vcc
1040- ; GFX9-NEXT: v_madmk_f32 v1, v3, 0x4f800000, v1
1041- ; GFX9-NEXT: v_rcp_f32_e32 v1, v1
1042- ; GFX9-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
1043- ; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v1
1044- ; GFX9-NEXT: v_trunc_f32_e32 v3, v3
1045- ; GFX9-NEXT: v_madmk_f32 v1, v3, 0xcf800000, v1
1046- ; GFX9-NEXT: v_cvt_u32_f32_e32 v10, v3
1047- ; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
1048- ; GFX9-NEXT: v_mul_lo_u32 v5, v11, v10
1049- ; GFX9-NEXT: v_mul_lo_u32 v8, v12, v1
1050- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v1, 0
1051- ; GFX9-NEXT: v_add3_u32 v8, v4, v5, v8
1052- ; GFX9-NEXT: v_mul_hi_u32 v9, v1, v3
1053- ; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v8, 0
1054- ; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v9, v4
1055- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v10, v3, 0
1056- ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v10, v8, 0
1057- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
1058- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v13, v3
1059- ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc
1060- ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v9, vcc
1061- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v8
1062- ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v4, vcc
1063- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v3
1064- ; GFX9-NEXT: v_addc_co_u32_e32 v13, vcc, v10, v4, vcc
1065- ; GFX9-NEXT: v_mul_lo_u32 v5, v11, v13
1066- ; GFX9-NEXT: v_mul_lo_u32 v8, v12, v1
1067- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v1, 0
1068- ; GFX9-NEXT: v_add3_u32 v8, v4, v5, v8
1069- ; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v13, v8, 0
1070- ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v1, v8, 0
1071- ; GFX9-NEXT: v_mul_hi_u32 v12, v1, v3
1072- ; GFX9-NEXT: v_mad_u64_u32 v[10:11], s[4:5], v13, v3, 0
1073- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v12, v8
1074- ; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
1075- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v10
1076- ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v11, vcc
1077- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
1078- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
1079- ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
1080- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v3
1081- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v13, v4, vcc
1082- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v7, v5, 0
1083- ; GFX9-NEXT: v_mul_hi_u32 v8, v7, v1
1084- ; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v8, v3
1085- ; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, 0, v4, vcc
1086- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v2, v1, 0
1087- ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v2, v5, 0
1088- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v10, v3
1089- ; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v11, v4, vcc
1090- ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v9, vcc
1091- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v8
1092- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v3, vcc
1093- ; GFX9-NEXT: v_mul_lo_u32 v8, v0, v1
1094- ; GFX9-NEXT: v_mul_lo_u32 v9, v6, v5
1095- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v1, 0
1096- ; GFX9-NEXT: v_add3_u32 v4, v4, v9, v8
1097- ; GFX9-NEXT: v_sub_u32_e32 v8, v2, v4
1098- ; GFX9-NEXT: v_sub_co_u32_e32 v3, vcc, v7, v3
1099- ; GFX9-NEXT: v_subb_co_u32_e64 v7, s[4:5], v8, v0, vcc
1100- ; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v3, v6
1101- ; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[4:5], 0, v7, s[4:5]
1102- ; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v0
1103- ; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
1104- ; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v6
1105- ; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
1106- ; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v7, v0
1107- ; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[4:5]
1108- ; GFX9-NEXT: v_add_co_u32_e64 v8, s[4:5], 2, v1
1109- ; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v4, vcc
1110- ; GFX9-NEXT: v_addc_co_u32_e64 v9, s[4:5], 0, v5, s[4:5]
1111- ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
1112- ; GFX9-NEXT: v_add_co_u32_e64 v10, s[4:5], 1, v1
1113- ; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
1114- ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v6
1115- ; GFX9-NEXT: v_addc_co_u32_e64 v11, s[4:5], 0, v5, s[4:5]
1116- ; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
1117- ; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v2, v0
1118- ; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7
1119- ; GFX9-NEXT: v_cndmask_b32_e32 v0, v4, v3, vcc
1120- ; GFX9-NEXT: v_cndmask_b32_e64 v7, v11, v9, s[4:5]
1121- ; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
1122- ; GFX9-NEXT: v_cndmask_b32_e64 v0, v10, v8, s[4:5]
1123- ; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
1124- ; GFX9-NEXT: v_cndmask_b32_e32 v4, v1, v0, vcc
1125- ; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
1126- ; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
1127- ; GFX9-NEXT: .LBB10_2: ; %Flow
1128- ; GFX9-NEXT: s_andn2_saveexec_b64 s[4:5], s[6:7]
1129- ; GFX9-NEXT: s_cbranch_execz .LBB10_4
1130- ; GFX9-NEXT: ; %bb.3:
11311024; GFX9-NEXT: v_cvt_f32_u32_e32 v0, v3
11321025; GFX9-NEXT: v_sub_u32_e32 v2, 0, v3
1133- ; GFX9-NEXT: v_mov_b32_e32 v5, 0
11341026; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
11351027; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
11361028; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
@@ -1141,17 +1033,14 @@ define i64 @sdiv64_known32(i64 %a, i64 %b) {
11411033; GFX9-NEXT: v_mul_lo_u32 v2, v0, v3
11421034; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
11431035; GFX9-NEXT: v_sub_u32_e32 v1, v1, v2
1144- ; GFX9-NEXT: v_sub_u32_e32 v2, v1, v3
11451036; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1146- ; GFX9-NEXT: v_cndmask_b32_e32 v1 , v1, v2, vcc
1037+ ; GFX9-NEXT: v_sub_u32_e32 v2 , v1, v3
11471038; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
1039+ ; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
11481040; GFX9-NEXT: v_add_u32_e32 v2, 1, v0
11491041; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1150- ; GFX9-NEXT: v_cndmask_b32_e32 v4, v0, v2, vcc
1151- ; GFX9-NEXT: .LBB10_4:
1152- ; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
1153- ; GFX9-NEXT: v_mov_b32_e32 v0, v4
1154- ; GFX9-NEXT: v_mov_b32_e32 v1, v5
1042+ ; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
1043+ ; GFX9-NEXT: v_mov_b32_e32 v1, 0
11551044; GFX9-NEXT: s_setpc_b64 s[30:31]
11561045 %a.ext = ashr i64 %a , 32
11571046 %b.ext = ashr i64 %b , 32
0 commit comments