llvm · dakersnar · Dec 8, 2025 · Sep 17, 2025 · Sep 17, 2025 · Sep 18, 2025
diff --git a/llvm/lib/Transforms/Vectorize/LoadStoreVectorizer.cpp b/llvm/lib/Transforms/Vectorize/LoadStoreVectorizer.cpp
diff --git a/llvm/test/CodeGen/NVPTX/LoadStoreVectorizer.ll b/llvm/test/CodeGen/NVPTX/LoadStoreVectorizer.ll
@@ -45,29 +45,32 @@ define half @fh(ptr %p) {
 ; ENABLED-LABEL: fh(
 ; ENABLED:       {
 ; ENABLED-NEXT:    .reg .b16 %rs<10>;
-; ENABLED-NEXT:    .reg .b32 %r<13>;
+; ENABLED-NEXT:    .reg .b32 %r<17>;
 ; ENABLED-NEXT:    .reg .b64 %rd<2>;
 ; ENABLED-EMPTY:
 ; ENABLED-NEXT:  // %bb.0:
 ; ENABLED-NEXT:    ld.param.b64 %rd1, [fh_param_0];
-; ENABLED-NEXT:    ld.v4.b16 {%rs1, %rs2, %rs3, %rs4}, [%rd1];
-; ENABLED-NEXT:    ld.b16 %rs5, [%rd1+8];
-; ENABLED-NEXT:    cvt.f32.f16 %r1, %rs2;
-; ENABLED-NEXT:    cvt.f32.f16 %r2, %rs1;
-; ENABLED-NEXT:    add.rn.f32 %r3, %r2, %r1;
-; ENABLED-NEXT:    cvt.rn.f16.f32 %rs6, %r3;
-; ENABLED-NEXT:    cvt.f32.f16 %r4, %rs4;
-; ENABLED-NEXT:    cvt.f32.f16 %r5, %rs3;
-; ENABLED-NEXT:    add.rn.f32 %r6, %r5, %r4;
-; ENABLED-NEXT:    cvt.rn.f16.f32 %rs7, %r6;
-; ENABLED-NEXT:    cvt.f32.f16 %r7, %rs7;
-; ENABLED-NEXT:    cvt.f32.f16 %r8, %rs6;
-; ENABLED-NEXT:    add.rn.f32 %r9, %r8, %r7;
-; ENABLED-NEXT:    cvt.rn.f16.f32 %rs8, %r9;
-; ENABLED-NEXT:    cvt.f32.f16 %r10, %rs8;
-; ENABLED-NEXT:    cvt.f32.f16 %r11, %rs5;
-; ENABLED-NEXT:    add.rn.f32 %r12, %r10, %r11;
-; ENABLED-NEXT:    cvt.rn.f16.f32 %rs9, %r12;
+; ENABLED-NEXT:    .pragma "used_bytes_mask 0x3ff";
+; ENABLED-NEXT:    ld.v4.b32 {%r1, %r2, %r3, %r4}, [%rd1];
+; ENABLED-NEXT:    { .reg .b16 tmp; mov.b32 {%rs1, tmp}, %r3; }
+; ENABLED-NEXT:    mov.b32 {%rs2, %rs3}, %r2;
+; ENABLED-NEXT:    mov.b32 {%rs4, %rs5}, %r1;
+; ENABLED-NEXT:    cvt.f32.f16 %r5, %rs5;
+; ENABLED-NEXT:    cvt.f32.f16 %r6, %rs4;
+; ENABLED-NEXT:    add.rn.f32 %r7, %r6, %r5;
+; ENABLED-NEXT:    cvt.rn.f16.f32 %rs6, %r7;
+; ENABLED-NEXT:    cvt.f32.f16 %r8, %rs3;
+; ENABLED-NEXT:    cvt.f32.f16 %r9, %rs2;
+; ENABLED-NEXT:    add.rn.f32 %r10, %r9, %r8;
+; ENABLED-NEXT:    cvt.rn.f16.f32 %rs7, %r10;
+; ENABLED-NEXT:    cvt.f32.f16 %r11, %rs7;
+; ENABLED-NEXT:    cvt.f32.f16 %r12, %rs6;
+; ENABLED-NEXT:    add.rn.f32 %r13, %r12, %r11;
+; ENABLED-NEXT:    cvt.rn.f16.f32 %rs8, %r13;
+; ENABLED-NEXT:    cvt.f32.f16 %r14, %rs8;
+; ENABLED-NEXT:    cvt.f32.f16 %r15, %rs1;
+; ENABLED-NEXT:    add.rn.f32 %r16, %r14, %r15;
+; ENABLED-NEXT:    cvt.rn.f16.f32 %rs9, %r16;
 ; ENABLED-NEXT:    st.param.b16 [func_retval0], %rs9;
 ; ENABLED-NEXT:    ret;
 ;

diff --git a/llvm/test/CodeGen/NVPTX/masked-load-3xhalf.ll b/llvm/test/CodeGen/NVPTX/masked-load-3xhalf.ll
@@ -0,0 +1,84 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -march=nvptx64 -mcpu=sm_100 -mattr=+ptx88 | FileCheck %s
+; RUN: %if ptxas-sm_100 && ptxas-isa-8.8 %{ llc < %s -march=nvptx64 -mcpu=sm_100 -mattr=+ptx88 | %ptxas-verify -arch=sm_100 %}
+
+; This is testing the lowering behavior of this case from LoadStoreVectorizer/NVPTX/4x2xhalf.ll
+; where two 3xhalfs are chained together and extended to 8xhalf.
+define void @halfx3_extend_chain(ptr align 16 captures(none) %rd0) {
+; CHECK-LABEL: halfx3_extend_chain(
+; CHECK:       {
+; CHECK-NEXT:    .reg .b16 %rs<7>;
+; CHECK-NEXT:    .reg .b32 %r<12>;
+; CHECK-NEXT:    .reg .b64 %rd<2>;
+; CHECK-EMPTY:
+; CHECK-NEXT:  // %bb.0:
+; CHECK-NEXT:    ld.param.b64 %rd1, [halfx3_extend_chain_param_0];
+; CHECK-NEXT:    .pragma "used_bytes_mask 0xfff";
+; CHECK-NEXT:    ld.v4.b32 {%r1, %r2, %r3, %r4}, [%rd1];
+; CHECK-NEXT:    mov.b32 {%rs1, %rs2}, %r3;
+; CHECK-NEXT:    mov.b32 {_, %rs3}, %r2;
+; CHECK-NEXT:    mov.b32 %r5, {%rs3, %rs1};
+; CHECK-NEXT:    mov.b32 %r6, {%rs2, %rs4};
+; CHECK-NEXT:    mov.b32 %r7, 0;
+; CHECK-NEXT:    max.f16x2 %r8, %r2, %r7;
+; CHECK-NEXT:    max.f16x2 %r9, %r1, %r7;
+; CHECK-NEXT:    st.b32 [%rd1], %r9;
+; CHECK-NEXT:    mov.b32 {%rs5, _}, %r8;
+; CHECK-NEXT:    st.b16 [%rd1+4], %rs5;
+; CHECK-NEXT:    max.f16x2 %r10, %r6, %r7;
+; CHECK-NEXT:    max.f16x2 %r11, %r5, %r7;
+; CHECK-NEXT:    st.b32 [%rd1+6], %r11;
+; CHECK-NEXT:    mov.b32 {%rs6, _}, %r10;
+; CHECK-NEXT:    st.b16 [%rd1+10], %rs6;
+; CHECK-NEXT:    ret;
+  %load1 = load <3 x half>, ptr %rd0, align 16
+  %p1 = fcmp ogt <3 x half> %load1, zeroinitializer
+  %s1 = select <3 x i1> %p1, <3 x half> %load1, <3 x half> zeroinitializer
+  store <3 x half> %s1, ptr %rd0, align 16
+  %in2 = getelementptr half, ptr %rd0, i64 3
+  %load2 = load <3 x half>, ptr %in2, align 4
+  %p2 = fcmp ogt <3 x half> %load2, zeroinitializer
+  %s2 = select <3 x i1> %p2, <3 x half> %load2, <3 x half> zeroinitializer
+  store <3 x half> %s2, ptr %in2, align 4
+  ret void
+}
+
+; This disables the vectorization by reducing the alignment.
+define void @halfx3_no_align(ptr align 4 captures(none) %rd0) {
+; CHECK-LABEL: halfx3_no_align(
+; CHECK:       {
+; CHECK-NEXT:    .reg .b16 %rs<7>;
+; CHECK-NEXT:    .reg .b32 %r<10>;
+; CHECK-NEXT:    .reg .b64 %rd<2>;
+; CHECK-EMPTY:
+; CHECK-NEXT:  // %bb.0:
+; CHECK-NEXT:    ld.param.b64 %rd1, [halfx3_no_align_param_0];
+; CHECK-NEXT:    ld.b16 %rs1, [%rd1+4];
+; CHECK-NEXT:    mov.b32 %r1, {%rs1, %rs2};
+; CHECK-NEXT:    ld.b32 %r2, [%rd1];
+; CHECK-NEXT:    mov.b32 %r3, 0;
+; CHECK-NEXT:    max.f16x2 %r4, %r1, %r3;
+; CHECK-NEXT:    max.f16x2 %r5, %r2, %r3;
+; CHECK-NEXT:    st.b32 [%rd1], %r5;
+; CHECK-NEXT:    mov.b32 {%rs3, _}, %r4;
+; CHECK-NEXT:    st.b16 [%rd1+4], %rs3;
+; CHECK-NEXT:    ld.b16 %rs4, [%rd1+10];
+; CHECK-NEXT:    mov.b32 %r6, {%rs4, %rs5};
+; CHECK-NEXT:    ld.b32 %r7, [%rd1+6];
+; CHECK-NEXT:    max.f16x2 %r8, %r6, %r3;
+; CHECK-NEXT:    max.f16x2 %r9, %r7, %r3;
+; CHECK-NEXT:    st.b32 [%rd1+6], %r9;
+; CHECK-NEXT:    mov.b32 {%rs6, _}, %r8;
+; CHECK-NEXT:    st.b16 [%rd1+10], %rs6;
+; CHECK-NEXT:    ret;
+  %load1 = load <3 x half>, ptr %rd0, align 4
+  %p1 = fcmp ogt <3 x half> %load1, zeroinitializer
+  %s1 = select <3 x i1> %p1, <3 x half> %load1, <3 x half> zeroinitializer
+  store <3 x half> %s1, ptr %rd0, align 4
+  %in2 = getelementptr half, ptr %rd0, i64 3
+  %load2 = load <3 x half>, ptr %in2, align 4
+  %p2 = fcmp ogt <3 x half> %load2, zeroinitializer
+  %s2 = select <3 x i1> %p2, <3 x half> %load2, <3 x half> zeroinitializer
+  store <3 x half> %s2, ptr %in2, align 4
+  ret void
+}
diff --git a/llvm/test/CodeGen/NVPTX/param-vectorize-device.ll b/llvm/test/CodeGen/NVPTX/param-vectorize-device.ll
@@ -171,8 +171,8 @@ define internal fastcc [3 x i32] @callee_St4x3(ptr nocapture noundef readonly by
   ; CHECK:       .func  (.param .align 16 .b8 func_retval0[12])
   ; CHECK-LABEL: callee_St4x3(
   ; CHECK-NEXT:  .param .align 16 .b8 callee_St4x3_param_0[12]
-  ; CHECK:       ld.param.v2.b32 {[[R1:%r[0-9]+]], [[R2:%r[0-9]+]]}, [callee_St4x3_param_0];
-  ; CHECK:       ld.param.b32    [[R3:%r[0-9]+]],  [callee_St4x3_param_0+8];
+  ; CHECK:       .pragma "used_bytes_mask 0xfff";
+  ; CHECK:       ld.param.v4.b32 {[[R1:%r[0-9]+]], [[R2:%r[0-9]+]], [[R3:%r[0-9]+]], %{{.*}}}, [callee_St4x3_param_0];
   ; CHECK-DAG:   st.param.v2.b32 [func_retval0], {[[R1]], [[R2]]};
   ; CHECK-DAG:   st.param.b32    [func_retval0+8], [[R3]];
   ; CHECK-NEXT:  ret;
@@ -394,8 +394,8 @@ define internal fastcc [7 x i32] @callee_St4x7(ptr nocapture noundef readonly by
   ; CHECK-LABEL: callee_St4x7(
   ; CHECK-NEXT:  .param .align 16 .b8 callee_St4x7_param_0[28]
   ; CHECK:       ld.param.v4.b32 {[[R1:%r[0-9]+]], [[R2:%r[0-9]+]], [[R3:%r[0-9]+]], [[R4:%r[0-9]+]]}, [callee_St4x7_param_0];
-  ; CHECK:       ld.param.v2.b32 {[[R5:%r[0-9]+]],  [[R6:%r[0-9]+]]}, [callee_St4x7_param_0+16];
-  ; CHECK:       ld.param.b32    [[R7:%r[0-9]+]],   [callee_St4x7_param_0+24];
+  ; CHECK:       .pragma "used_bytes_mask 0xfff";
+  ; CHECK:       ld.param.v4.b32 {[[R5:%r[0-9]+]], [[R6:%r[0-9]+]], [[R7:%r[0-9]+]], %{{.*}}}, [callee_St4x7_param_0+16];
   ; CHECK-DAG:   st.param.v4.b32 [func_retval0],  {[[R1]], [[R2]], [[R3]], [[R4]]};
   ; CHECK-DAG:   st.param.v2.b32 [func_retval0+16], {[[R5]], [[R6]]};
   ; CHECK-DAG:   st.param.b32    [func_retval0+24], [[R7]];

diff --git a/llvm/test/Transforms/LoadStoreVectorizer/NVPTX/4x2xhalf.ll b/llvm/test/Transforms/LoadStoreVectorizer/NVPTX/4x2xhalf.ll
@@ -1,6 +1,41 @@
+; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 6
 ; RUN: opt -mtriple=nvptx64-nvidia-cuda -passes=load-store-vectorizer -S -o - %s | FileCheck %s
 
 define void @ldg_f16(ptr nocapture align 16 %rd0) {
+; CHECK-LABEL: define void @ldg_f16(
+; CHECK-SAME: ptr align 16 captures(none) [[RD0:%.*]]) {
+; CHECK-NEXT:    [[TMP1:%.*]] = load <8 x half>, ptr [[RD0]], align 16
+; CHECK-NEXT:    [[LOAD11:%.*]] = shufflevector <8 x half> [[TMP1]], <8 x half> poison, <2 x i32> <i32 0, i32 1>
+; CHECK-NEXT:    [[LOAD22:%.*]] = shufflevector <8 x half> [[TMP1]], <8 x half> poison, <2 x i32> <i32 2, i32 3>
+; CHECK-NEXT:    [[LOAD33:%.*]] = shufflevector <8 x half> [[TMP1]], <8 x half> poison, <2 x i32> <i32 4, i32 5>
+; CHECK-NEXT:    [[LOAD44:%.*]] = shufflevector <8 x half> [[TMP1]], <8 x half> poison, <2 x i32> <i32 6, i32 7>
+; CHECK-NEXT:    [[P1:%.*]] = fcmp ogt <2 x half> [[LOAD11]], zeroinitializer
+; CHECK-NEXT:    [[S1:%.*]] = select <2 x i1> [[P1]], <2 x half> [[LOAD11]], <2 x half> zeroinitializer
+; CHECK-NEXT:    [[P2:%.*]] = fcmp ogt <2 x half> [[LOAD22]], zeroinitializer
+; CHECK-NEXT:    [[S2:%.*]] = select <2 x i1> [[P2]], <2 x half> [[LOAD22]], <2 x half> zeroinitializer
+; CHECK-NEXT:    [[P3:%.*]] = fcmp ogt <2 x half> [[LOAD33]], zeroinitializer
+; CHECK-NEXT:    [[S3:%.*]] = select <2 x i1> [[P3]], <2 x half> [[LOAD33]], <2 x half> zeroinitializer
+; CHECK-NEXT:    [[P4:%.*]] = fcmp ogt <2 x half> [[LOAD44]], zeroinitializer
+; CHECK-NEXT:    [[S4:%.*]] = select <2 x i1> [[P4]], <2 x half> [[LOAD44]], <2 x half> zeroinitializer
+; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x half> [[S1]], i32 0
+; CHECK-NEXT:    [[TMP3:%.*]] = insertelement <8 x half> poison, half [[TMP2]], i32 0
+; CHECK-NEXT:    [[TMP4:%.*]] = extractelement <2 x half> [[S1]], i32 1
+; CHECK-NEXT:    [[TMP5:%.*]] = insertelement <8 x half> [[TMP3]], half [[TMP4]], i32 1
+; CHECK-NEXT:    [[TMP6:%.*]] = extractelement <2 x half> [[S2]], i32 0
+; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <8 x half> [[TMP5]], half [[TMP6]], i32 2
+; CHECK-NEXT:    [[TMP8:%.*]] = extractelement <2 x half> [[S2]], i32 1
+; CHECK-NEXT:    [[TMP9:%.*]] = insertelement <8 x half> [[TMP7]], half [[TMP8]], i32 3
+; CHECK-NEXT:    [[TMP10:%.*]] = extractelement <2 x half> [[S3]], i32 0
+; CHECK-NEXT:    [[TMP11:%.*]] = insertelement <8 x half> [[TMP9]], half [[TMP10]], i32 4
+; CHECK-NEXT:    [[TMP12:%.*]] = extractelement <2 x half> [[S3]], i32 1
+; CHECK-NEXT:    [[TMP13:%.*]] = insertelement <8 x half> [[TMP11]], half [[TMP12]], i32 5
+; CHECK-NEXT:    [[TMP14:%.*]] = extractelement <2 x half> [[S4]], i32 0
+; CHECK-NEXT:    [[TMP15:%.*]] = insertelement <8 x half> [[TMP13]], half [[TMP14]], i32 6
+; CHECK-NEXT:    [[TMP16:%.*]] = extractelement <2 x half> [[S4]], i32 1
+; CHECK-NEXT:    [[TMP17:%.*]] = insertelement <8 x half> [[TMP15]], half [[TMP16]], i32 7
+; CHECK-NEXT:    store <8 x half> [[TMP17]], ptr [[RD0]], align 16
+; CHECK-NEXT:    ret void
+;
   %load1 = load <2 x half>, ptr %rd0, align 16
   %p1 = fcmp ogt <2 x half> %load1, zeroinitializer
   %s1 = select <2 x i1> %p1, <2 x half> %load1, <2 x half> zeroinitializer
@@ -22,20 +57,39 @@ define void @ldg_f16(ptr nocapture align 16 %rd0) {
   store <2 x half> %s4, ptr %in4, align 4
   ret void
 
-; CHECK-LABEL: @ldg_f16
-; CHECK: %[[LD:.*]] = load <8 x half>, ptr
-; CHECK: shufflevector <8 x half> %[[LD]], <8 x half> poison, <2 x i32> <i32 0, i32 1>
-; CHECK: shufflevector <8 x half> %[[LD]], <8 x half> poison, <2 x i32> <i32 2, i32 3>
-; CHECK: shufflevector <8 x half> %[[LD]], <8 x half> poison, <2 x i32> <i32 4, i32 5>
-; CHECK: shufflevector <8 x half> %[[LD]], <8 x half> poison, <2 x i32> <i32 6, i32 7>
-; CHECK: store <8 x half>
 }
 
 define void @no_nonpow2_vector(ptr nocapture align 16 %rd0) {
-  %load1 = load <3 x half>, ptr %rd0, align 4
+; CHECK-LABEL: define void @no_nonpow2_vector(
+; CHECK-SAME: ptr align 16 captures(none) [[RD0:%.*]]) {
+; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x half> @llvm.masked.load.v8f16.p0(ptr align 16 [[RD0]], <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 false, i1 false>, <8 x half> poison)
+; CHECK-NEXT:    [[LOAD13:%.*]] = shufflevector <8 x half> [[TMP1]], <8 x half> poison, <3 x i32> <i32 0, i32 1, i32 2>
+; CHECK-NEXT:    [[LOAD24:%.*]] = shufflevector <8 x half> [[TMP1]], <8 x half> poison, <3 x i32> <i32 3, i32 4, i32 5>
+; CHECK-NEXT:    [[EXTEND5:%.*]] = extractelement <8 x half> [[TMP1]], i32 6
+; CHECK-NEXT:    [[EXTEND26:%.*]] = extractelement <8 x half> [[TMP1]], i32 7
+; CHECK-NEXT:    [[P1:%.*]] = fcmp ogt <3 x half> [[LOAD13]], zeroinitializer
+; CHECK-NEXT:    [[S1:%.*]] = select <3 x i1> [[P1]], <3 x half> [[LOAD13]], <3 x half> zeroinitializer
+; CHECK-NEXT:    store <3 x half> [[S1]], ptr [[RD0]], align 16
+; CHECK-NEXT:    [[IN2:%.*]] = getelementptr half, ptr [[RD0]], i64 3
+; CHECK-NEXT:    [[P2:%.*]] = fcmp ogt <3 x half> [[LOAD24]], zeroinitializer
+; CHECK-NEXT:    [[S2:%.*]] = select <3 x i1> [[P2]], <3 x half> [[LOAD24]], <3 x half> zeroinitializer
+; CHECK-NEXT:    store <3 x half> [[S2]], ptr [[IN2]], align 4
+; CHECK-NEXT:    [[IN3:%.*]] = getelementptr half, ptr [[RD0]], i64 6
+; CHECK-NEXT:    [[LOAD3:%.*]] = load <3 x half>, ptr [[IN3]], align 4
+; CHECK-NEXT:    [[P3:%.*]] = fcmp ogt <3 x half> [[LOAD3]], zeroinitializer
+; CHECK-NEXT:    [[S3:%.*]] = select <3 x i1> [[P3]], <3 x half> [[LOAD3]], <3 x half> zeroinitializer
+; CHECK-NEXT:    store <3 x half> [[S3]], ptr [[IN3]], align 4
+; CHECK-NEXT:    [[IN4:%.*]] = getelementptr half, ptr [[RD0]], i64 9
+; CHECK-NEXT:    [[LOAD4:%.*]] = load <3 x half>, ptr [[IN4]], align 4
+; CHECK-NEXT:    [[P4:%.*]] = fcmp ogt <3 x half> [[LOAD4]], zeroinitializer
+; CHECK-NEXT:    [[S4:%.*]] = select <3 x i1> [[P4]], <3 x half> [[LOAD4]], <3 x half> zeroinitializer
+; CHECK-NEXT:    store <3 x half> [[S4]], ptr [[IN4]], align 4
+; CHECK-NEXT:    ret void
+;
+  %load1 = load <3 x half>, ptr %rd0, align 16
   %p1 = fcmp ogt <3 x half> %load1, zeroinitializer
   %s1 = select <3 x i1> %p1, <3 x half> %load1, <3 x half> zeroinitializer
-  store <3 x half> %s1, ptr %rd0, align 4
+  store <3 x half> %s1, ptr %rd0, align 16
   %in2 = getelementptr half, ptr %rd0, i64 3
   %load2 = load <3 x half>, ptr %in2, align 4
   %p2 = fcmp ogt <3 x half> %load2, zeroinitializer
@@ -52,16 +106,36 @@ define void @no_nonpow2_vector(ptr nocapture align 16 %rd0) {
   %s4 = select <3 x i1> %p4, <3 x half> %load4, <3 x half> zeroinitializer
   store <3 x half> %s4, ptr %in4, align 4
   ret void
-
-; CHECK-LABEL: @no_nonpow2_vector
-; CHECK-NOT: shufflevector
 }
 
 define void @no_pointer_vector(ptr nocapture align 16 %rd0) {
-  %load1 = load <2 x ptr>, ptr %rd0, align 4
+; CHECK-LABEL: define void @no_pointer_vector(
+; CHECK-SAME: ptr align 16 captures(none) [[RD0:%.*]]) {
+; CHECK-NEXT:    [[LOAD1:%.*]] = load <2 x ptr>, ptr [[RD0]], align 16
+; CHECK-NEXT:    [[P1:%.*]] = icmp ne <2 x ptr> [[LOAD1]], zeroinitializer
+; CHECK-NEXT:    [[S1:%.*]] = select <2 x i1> [[P1]], <2 x ptr> [[LOAD1]], <2 x ptr> zeroinitializer
+; CHECK-NEXT:    store <2 x ptr> [[S1]], ptr [[RD0]], align 16
+; CHECK-NEXT:    [[IN2:%.*]] = getelementptr ptr, ptr [[RD0]], i64 2
+; CHECK-NEXT:    [[LOAD2:%.*]] = load <2 x ptr>, ptr [[IN2]], align 4
+; CHECK-NEXT:    [[P2:%.*]] = icmp ne <2 x ptr> [[LOAD2]], zeroinitializer
+; CHECK-NEXT:    [[S2:%.*]] = select <2 x i1> [[P2]], <2 x ptr> [[LOAD2]], <2 x ptr> zeroinitializer
+; CHECK-NEXT:    store <2 x ptr> [[S2]], ptr [[IN2]], align 4
+; CHECK-NEXT:    [[IN3:%.*]] = getelementptr ptr, ptr [[RD0]], i64 4
+; CHECK-NEXT:    [[LOAD3:%.*]] = load <2 x ptr>, ptr [[IN3]], align 4
+; CHECK-NEXT:    [[P3:%.*]] = icmp ne <2 x ptr> [[LOAD3]], zeroinitializer
+; CHECK-NEXT:    [[S3:%.*]] = select <2 x i1> [[P3]], <2 x ptr> [[LOAD3]], <2 x ptr> zeroinitializer
+; CHECK-NEXT:    store <2 x ptr> [[S3]], ptr [[IN3]], align 4
+; CHECK-NEXT:    [[IN4:%.*]] = getelementptr ptr, ptr [[RD0]], i64 6
+; CHECK-NEXT:    [[LOAD4:%.*]] = load <2 x ptr>, ptr [[IN4]], align 4
+; CHECK-NEXT:    [[P4:%.*]] = icmp ne <2 x ptr> [[LOAD4]], zeroinitializer
+; CHECK-NEXT:    [[S4:%.*]] = select <2 x i1> [[P4]], <2 x ptr> [[LOAD4]], <2 x ptr> zeroinitializer
+; CHECK-NEXT:    store <2 x ptr> [[S4]], ptr [[IN4]], align 4
+; CHECK-NEXT:    ret void
+;
+  %load1 = load <2 x ptr>, ptr %rd0, align 16
   %p1 = icmp ne <2 x ptr> %load1, zeroinitializer
   %s1 = select <2 x i1> %p1, <2 x ptr> %load1, <2 x ptr> zeroinitializer
-  store <2 x ptr> %s1, ptr %rd0, align 4
+  store <2 x ptr> %s1, ptr %rd0, align 16
   %in2 = getelementptr ptr, ptr %rd0, i64 2
   %load2 = load <2 x ptr>, ptr %in2, align 4
   %p2 = icmp ne <2 x ptr> %load2, zeroinitializer
@@ -78,7 +152,4 @@ define void @no_pointer_vector(ptr nocapture align 16 %rd0) {
   %s4 = select <2 x i1> %p4, <2 x ptr> %load4, <2 x ptr> zeroinitializer
   store <2 x ptr> %s4, ptr %in4, align 4
   ret void
-
-; CHECK-LABEL: @no_pointer_vector
-; CHECK-NOT: shufflevector
 }