bytecodealliance
diff --git a/‎cranelift/codegen/src/isa/s390x/abi.rs‎
Lines changed: 28 additions & 12 deletions b/‎cranelift/codegen/src/isa/s390x/abi.rs‎
Lines changed: 28 additions & 12 deletions
diff --git a/‎cranelift/codegen/src/isa/s390x/inst.isle‎
Lines changed: 48 additions & 1 deletion b/‎cranelift/codegen/src/isa/s390x/inst.isle‎
Lines changed: 48 additions & 1 deletion
diff --git a/‎cranelift/codegen/src/isa/s390x/inst/emit.rs‎
Lines changed: 63 additions & 38 deletions b/‎cranelift/codegen/src/isa/s390x/inst/emit.rs‎
Lines changed: 63 additions & 38 deletions
@@ -166,7 +166,7 @@ fn in_int_reg(ty: Type) -> bool {
 
 fn in_flt_reg(ty: Type) -> bool {
     match ty {
-        types::F32 | types::F64 => true,
+        types::F16 | types::F32 | types::F64 => true,
         _ => false,
     }
 }
@@ -387,13 +387,13 @@ impl ABIMachineSpec for S390xMachineDeps {
                 }
             };
 
-            let slot = if let Some(reg) = candidate {
+            let slots = if let Some(reg) = candidate {
                 *next_reg += 1;
-                ABIArgSlot::Reg {
+                smallvec![ABIArgSlot::Reg {
                     reg: reg.to_real_reg().unwrap(),
                     ty: param.value_type,
                     extension: param.extension,
-                }
+                }]
             } else {
                 if args_or_rets == ArgsOrRets::Rets && !flags.enable_multi_ret_implicit_sret() {
                     return Err(crate::CodegenError::Unsupported(
@@ -420,13 +420,29 @@ impl ABIMachineSpec for S390xMachineDeps {
                 } else {
                     0
                 };
-                let offset = (next_stack + offset) as i64;
+                let mut offset = (next_stack + offset) as i64;
                 next_stack += slot_size;
-                ABIArgSlot::Stack {
-                    offset,
-                    ty: param.value_type,
-                    extension: param.extension,
-                }
+                let types = Inst::rc_for_type(param.value_type)?.1;
+                // If the type is held in a single register, use the original type. This is required
+                // by `copy_reg_to_arg_slot` to ensure that the lanes are reversed correctly if the
+                // calling convention requires the lanes to be reversed.
+                let types = if types.len() == 1 {
+                    &[param.value_type]
+                } else {
+                    types
+                };
+                types
+                    .iter()
+                    .map(|&ty| {
+                        let this_offset = offset;
+                        offset += i64::from(ty.bytes());
+                        ABIArgSlot::Stack {
+                            offset: this_offset,
+                            ty,
+                            extension: param.extension,
+                        }
+                    })
+                    .collect()
             };
 
             if let Some(ty) = implicit_ref {
@@ -435,14 +451,14 @@ impl ABIMachineSpec for S390xMachineDeps {
                     "implicit argument size is not properly aligned"
                 );
                 args.push(ABIArg::ImplicitPtrArg {
-                    pointer: slot,
+                    pointer: slots[0],
                     offset: 0, // Will be filled in later
                     ty,
                     purpose: param.purpose,
                 });
             } else {
                 args.push(ABIArg::Slots {
-                    slots: smallvec![slot],
+                    slots,
                     purpose: param.purpose,
                 });
             }
 
@@ -514,6 +514,16 @@
       (ri Reg)
       (rm Reg))
 
+    ;; Two 64-bit conditional move FPU instructions, possibly as vector instructions.
+    (FpuCMov6464
+      (rd1 WritableReg)
+      (rd2 WritableReg)
+      (cond Cond)
+      (ri1 Reg)
+      (ri2 Reg)
+      (rm1 Reg)
+      (rm2 Reg))
+
     ;; 1-op FPU instruction implemented as vector instruction with the W bit.
     (FpuRR
       (fpu_op FPUOp1)
@@ -552,6 +562,11 @@
       (rn Reg)
       (rm Reg))
 
+    ;; Load floating-point constant, half-precision (16 bit).
+    (LoadFpuConst16
+      (rd WritableReg)
+      (const_data u16))
+
     ;; Load floating-point constant, single-precision (32 bit).
     (LoadFpuConst32
       (rd WritableReg)
@@ -2836,6 +2851,7 @@
 (rule (arg_store $I16 reg mem) (store16 reg mem))
 (rule (arg_store $I32 reg mem) (store32 reg mem))
 (rule (arg_store $I64 reg mem) (store64 reg mem))
+(rule (arg_store $F16 reg mem) (vec_store_lane $F16X8 reg mem 0))
 (rule (arg_store $F32 reg mem) (vec_store_lane $F32X4 reg mem 0))
 (rule (arg_store $F64 reg mem) (vec_store_lane $F64X2 reg mem 0))
 (rule -1 (arg_store (vr128_ty ty) reg mem) (vec_store reg mem))
@@ -2872,6 +2888,12 @@
 ;; Prepare a stack copy of a single (oversized) argument.
 (decl copy_to_buffer (MemArg ABIArg Value) InstOutput)
 (rule 2 (copy_to_buffer base (abi_arg_only_slot slot) _) (output_none))
+(rule 1 (copy_to_buffer base (abi_arg_implicit_pointer _ offset ty)
+                      val @ (value_type $F128))
+      (let ((mem MemArg (memarg_offset base offset)))
+            (side_effect (side_effect_concat
+                  (vec_store_lane $F64X2 (value_regs_get val 0) mem 0)
+                  (vec_store_lane $F64X2 (value_regs_get val 1) (memarg_offset mem 8) 0)))))
 (rule 0 (copy_to_buffer base (abi_arg_implicit_pointer _ offset ty)
                       val @ (value_type ty))
       (side_effect (arg_store ty val (memarg_offset base offset))))
@@ -2925,7 +2947,7 @@
 (decl imm (Type u64) Reg)
 
 ;; 16-bit (or smaller) result type, any value
-(rule 7 (imm (fits_in_16 ty) n)
+(rule 7 (imm (fits_in_16 (ty_int ty)) n)
       (let ((dst WritableReg (temp_writable_reg ty))
             (_ Unit (emit (MInst.Mov32SImm16 dst (u64_as_i16 n)))))
         dst))
@@ -2986,6 +3008,13 @@
             (_ Unit (emit (MInst.Insert64UImm32Shifted dst src n))))
         dst))
 
+;; 16-bit floating-point type, any value.  Loaded from literal pool.
+;; TODO: use LZER to load 0.0
+(rule 8 (imm $F16 n)
+      (let ((dst WritableReg (temp_writable_reg $F16))
+            (_ Unit (emit (MInst.LoadFpuConst16 dst (u64_as_u16 n)))))
+        dst))
+
 ;; 32-bit floating-point type, any value.  Loaded from literal pool.
 ;; TODO: use LZER to load 0.0
 (rule 8 (imm $F32 n)
@@ -3222,6 +3251,10 @@
       (let ((dst WritableReg (temp_writable_reg ty))
             (inst MInst (MInst.CMov64 dst cond reg_false reg_true)))
         (ConsumesFlags.ConsumesFlagsReturnsReg inst dst)))
+(rule 3 (cmov_reg_reg $F16 cond reg_true reg_false)
+      (let ((dst WritableReg (temp_writable_reg $F16))
+            (inst MInst (MInst.FpuCMov32 dst cond reg_false reg_true)))
+        (ConsumesFlags.ConsumesFlagsReturnsReg inst dst)))
 (rule 3 (cmov_reg_reg $F32 cond reg_true reg_false)
       (let ((dst WritableReg (temp_writable_reg $F32))
             (inst MInst (MInst.FpuCMov32 dst cond reg_false reg_true)))
@@ -3235,6 +3268,15 @@
             (inst MInst (MInst.VecCMov dst cond reg_false reg_true)))
         (ConsumesFlags.ConsumesFlagsReturnsReg inst dst)))
 
+(decl cmov_value_regs (Type Cond ValueRegs ValueRegs) ConsumesFlags)
+(rule (cmov_value_regs $F128 cond val_true val_false)
+      (let ((dst1 WritableReg (temp_writable_reg $F64))
+            (dst2 WritableReg (temp_writable_reg $F64))
+            (inst MInst (MInst.FpuCMov6464 dst1 dst2 cond
+                  (value_regs_get val_false 0) (value_regs_get val_false 1)
+                  (value_regs_get val_true 0) (value_regs_get val_true 1))))
+        (ConsumesFlags.ConsumesFlagsReturnsValueRegs inst (value_regs dst1 dst2))))
+
 
 ;; Helpers for generating conditional traps ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
 
@@ -3300,6 +3342,11 @@
 (rule (select_bool_reg ty (ProducesBool.ProducesBool producer cond) reg_true reg_false)
       (with_flags_reg producer (cmov_reg_reg ty cond reg_true reg_false)))
 
+;; Use a boolean condition to select between two pairs registers.
+(decl select_bool_value_regs (Type ProducesBool ValueRegs ValueRegs) ValueRegs)
+(rule (select_bool_value_regs ty (ProducesBool.ProducesBool producer cond) val_true val_false)
+      (with_flags producer (cmov_value_regs ty cond val_true val_false)))
+
 ;; Use a boolean condition to select between two immediate values.
 (decl select_bool_imm (Type ProducesBool i16 i16) Reg)
 (rule (select_bool_imm ty (ProducesBool.ProducesBool producer cond) imm_true imm_false)
 
@@ -38,6 +38,11 @@ macro_rules! debug_assert_valid_regpair {
     };
 }
 
+const OPCODE_BRAS: u16 = 0xa75;
+const OPCODE_BCR: u16 = 0xa74;
+const OPCODE_LDR: u16 = 0x28;
+const OPCODE_VLR: u16 = 0xe756;
+
 /// Type(s) of memory instructions available for mem_finalize.
 pub struct MemInstType {
     /// True if 12-bit unsigned displacement is supported.
@@ -2298,9 +2303,8 @@ impl Inst {
                 rd,
                 ref symbol_reloc,
             } => {
-                let opcode = 0xa75; // BRAS
                 let reg = writable_spilltmp_reg().to_reg();
-                put(sink, &enc_ri_b(opcode, reg, 12));
+                put(sink, &enc_ri_b(OPCODE_BRAS, reg, 12));
                 let (reloc, name, offset) = match &**symbol_reloc {
                     SymbolReloc::Absolute { name, offset } => (Reloc::Abs8, name, *offset),
                     SymbolReloc::TlsGd { name } => (Reloc::S390xTlsGd64, name, 0),
@@ -2319,53 +2323,81 @@ impl Inst {
                     let opcode = 0x38; // LER
                     put(sink, &enc_rr(opcode, rd.to_reg(), rn));
                 } else {
-                    let opcode = 0xe756; // VLR
-                    put(sink, &enc_vrr_a(opcode, rd.to_reg(), rn, 0, 0, 0));
+                    put(sink, &enc_vrr_a(OPCODE_VLR, rd.to_reg(), rn, 0, 0, 0));
                 }
             }
             &Inst::FpuMove64 { rd, rn } => {
                 if is_fpr(rd.to_reg()) && is_fpr(rn) {
-                    let opcode = 0x28; // LDR
-                    put(sink, &enc_rr(opcode, rd.to_reg(), rn));
+                    put(sink, &enc_rr(OPCODE_LDR, rd.to_reg(), rn));
                 } else {
-                    let opcode = 0xe756; // VLR
-                    put(sink, &enc_vrr_a(opcode, rd.to_reg(), rn, 0, 0, 0));
+                    put(sink, &enc_vrr_a(OPCODE_VLR, rd.to_reg(), rn, 0, 0, 0));
                 }
             }
             &Inst::FpuCMov32 { rd, cond, ri, rm } => {
                 debug_assert_eq!(rd.to_reg(), ri);
 
                 if is_fpr(rd.to_reg()) && is_fpr(rm) {
-                    let opcode = 0xa74; // BCR
-                    put(sink, &enc_ri_c(opcode, cond.invert().bits(), 4 + 2));
+                    put(sink, &enc_ri_c(OPCODE_BCR, cond.invert().bits(), 4 + 2));
                     let opcode = 0x38; // LER
                     put(sink, &enc_rr(opcode, rd.to_reg(), rm));
                 } else {
-                    let opcode = 0xa74; // BCR
-                    put(sink, &enc_ri_c(opcode, cond.invert().bits(), 4 + 6));
-                    let opcode = 0xe756; // VLR
-                    put(sink, &enc_vrr_a(opcode, rd.to_reg(), rm, 0, 0, 0));
+                    put(sink, &enc_ri_c(OPCODE_BCR, cond.invert().bits(), 4 + 6));
+                    put(sink, &enc_vrr_a(OPCODE_VLR, rd.to_reg(), rm, 0, 0, 0));
                 }
             }
             &Inst::FpuCMov64 { rd, cond, ri, rm } => {
                 debug_assert_eq!(rd.to_reg(), ri);
 
                 if is_fpr(rd.to_reg()) && is_fpr(rm) {
-                    let opcode = 0xa74; // BCR
-                    put(sink, &enc_ri_c(opcode, cond.invert().bits(), 4 + 2));
-                    let opcode = 0x28; // LDR
-                    put(sink, &enc_rr(opcode, rd.to_reg(), rm));
+                    put(sink, &enc_ri_c(OPCODE_BCR, cond.invert().bits(), 4 + 2));
+                    put(sink, &enc_rr(OPCODE_LDR, rd.to_reg(), rm));
+                } else {
+                    put(sink, &enc_ri_c(OPCODE_BCR, cond.invert().bits(), 4 + 6));
+                    put(sink, &enc_vrr_a(OPCODE_VLR, rd.to_reg(), rm, 0, 0, 0));
+                }
+            }
+            &Inst::FpuCMov6464 {
+                rd1,
+                rd2,
+                cond,
+                ri1,
+                ri2,
+                rm1,
+                rm2,
+            } => {
+                debug_assert_eq!(rd1.to_reg(), ri1);
+                debug_assert_eq!(rd2.to_reg(), ri2);
+
+                let is_fpr_1 = is_fpr(rd1.to_reg()) && is_fpr(rm1);
+                let is_fpr_2 = is_fpr(rd2.to_reg()) && is_fpr(rm2);
+                let offset = 4 + if is_fpr_1 { 2 } else { 6 } + if is_fpr_2 { 2 } else { 6 };
+                put(sink, &enc_ri_c(OPCODE_BCR, cond.invert().bits(), offset));
+                if is_fpr_1 {
+                    put(sink, &enc_rr(OPCODE_LDR, rd1.to_reg(), rm1));
                 } else {
-                    let opcode = 0xa74; // BCR
-                    put(sink, &enc_ri_c(opcode, cond.invert().bits(), 4 + 6));
-                    let opcode = 0xe756; // VLR
-                    put(sink, &enc_vrr_a(opcode, rd.to_reg(), rm, 0, 0, 0));
+                    put(sink, &enc_vrr_a(OPCODE_VLR, rd1.to_reg(), rm1, 0, 0, 0));
                 }
+                if is_fpr_2 {
+                    put(sink, &enc_rr(OPCODE_LDR, rd2.to_reg(), rm2));
+                } else {
+                    put(sink, &enc_vrr_a(OPCODE_VLR, rd2.to_reg(), rm2, 0, 0, 0));
+                }
+            }
+            &Inst::LoadFpuConst16 { rd, const_data } => {
+                let reg = writable_spilltmp_reg().to_reg();
+                put(sink, &enc_ri_b(OPCODE_BRAS, reg, 6));
+                sink.put2(const_data.swap_bytes());
+                let inst = Inst::VecLoadLaneUndef {
+                    size: 16,
+                    rd,
+                    mem: MemArg::reg(reg, MemFlags::trusted()),
+                    lane_imm: 0,
+                };
+                inst.emit(sink, emit_info, state);
             }
             &Inst::LoadFpuConst32 { rd, const_data } => {
-                let opcode = 0xa75; // BRAS
                 let reg = writable_spilltmp_reg().to_reg();
-                put(sink, &enc_ri_b(opcode, reg, 8));
+                put(sink, &enc_ri_b(OPCODE_BRAS, reg, 8));
                 sink.put4(const_data.swap_bytes());
                 let inst = Inst::VecLoadLaneUndef {
                     size: 32,
@@ -2376,9 +2408,8 @@ impl Inst {
                 inst.emit(sink, emit_info, state);
             }
             &Inst::LoadFpuConst64 { rd, const_data } => {
-                let opcode = 0xa75; // BRAS
                 let reg = writable_spilltmp_reg().to_reg();
-                put(sink, &enc_ri_b(opcode, reg, 12));
+                put(sink, &enc_ri_b(OPCODE_BRAS, reg, 12));
                 sink.put8(const_data.swap_bytes());
                 let inst = Inst::VecLoadLaneUndef {
                     size: 64,
@@ -2780,8 +2811,7 @@ impl Inst {
                 put(sink, &enc_vrr_a(opcode, rm, rn, m3, 0, 0));
 
                 // If CC != 0, we'd done, so jump over the next instruction.
-                let opcode = 0xa74; // BCR
-                put(sink, &enc_ri_c(opcode, 7, 4 + 6));
+                put(sink, &enc_ri_c(OPCODE_BCR, 7, 4 + 6));
 
                 // Otherwise, use VECTOR COMPARE HIGH LOGICAL.
                 // Since we already know the high parts are equal, the CC
@@ -2864,25 +2894,21 @@ impl Inst {
             }
 
             &Inst::VecMov { rd, rn } => {
-                let opcode = 0xe756; // VLR
-                put(sink, &enc_vrr_a(opcode, rd.to_reg(), rn, 0, 0, 0));
+                put(sink, &enc_vrr_a(OPCODE_VLR, rd.to_reg(), rn, 0, 0, 0));
             }
             &Inst::VecCMov { rd, cond, ri, rm } => {
                 debug_assert_eq!(rd.to_reg(), ri);
 
-                let opcode = 0xa74; // BCR
-                put(sink, &enc_ri_c(opcode, cond.invert().bits(), 4 + 6));
-                let opcode = 0xe756; // VLR
-                put(sink, &enc_vrr_a(opcode, rd.to_reg(), rm, 0, 0, 0));
+                put(sink, &enc_ri_c(OPCODE_BCR, cond.invert().bits(), 4 + 6));
+                put(sink, &enc_vrr_a(OPCODE_VLR, rd.to_reg(), rm, 0, 0, 0));
             }
             &Inst::MovToVec128 { rd, rn, rm } => {
                 let opcode = 0xe762; // VLVGP
                 put(sink, &enc_vrr_f(opcode, rd.to_reg(), rn, rm));
             }
             &Inst::VecLoadConst { rd, const_data } => {
-                let opcode = 0xa75; // BRAS
                 let reg = writable_spilltmp_reg().to_reg();
-                put(sink, &enc_ri_b(opcode, reg, 20));
+                put(sink, &enc_ri_b(OPCODE_BRAS, reg, 20));
                 for i in const_data.to_be_bytes().iter() {
                     sink.put1(*i);
                 }
@@ -2897,9 +2923,8 @@ impl Inst {
                 rd,
                 const_data,
             } => {
-                let opcode = 0xa75; // BRAS
                 let reg = writable_spilltmp_reg().to_reg();
-                put(sink, &enc_ri_b(opcode, reg, (4 + size / 8) as i32));
+                put(sink, &enc_ri_b(OPCODE_BRAS, reg, (4 + size / 8) as i32));
                 for i in 0..size / 8 {
                     sink.put1((const_data >> (size - 8 - 8 * i)) as u8);
                 }