deepmodeling
diff --git a/‎source/module_hamilt_pw/hamilt_pwdft/fs_nonlocal_tools.cpp‎
Lines changed: 27 additions & 35 deletions b/‎source/module_hamilt_pw/hamilt_pwdft/fs_nonlocal_tools.cpp‎
Lines changed: 27 additions & 35 deletions
diff --git a/‎source/module_hamilt_pw/hamilt_pwdft/kernels/cuda/force_op.cu‎
Lines changed: 17 additions & 25 deletions b/‎source/module_hamilt_pw/hamilt_pwdft/kernels/cuda/force_op.cu‎
Lines changed: 17 additions & 25 deletions
diff --git a/‎source/module_hamilt_pw/hamilt_pwdft/kernels/cuda/stress_op.cu‎
Lines changed: 17 additions & 26 deletions b/‎source/module_hamilt_pw/hamilt_pwdft/kernels/cuda/stress_op.cu‎
Lines changed: 17 additions & 26 deletions
@@ -415,29 +415,27 @@ void FS_Nonlocal_tools<FPTYPE, Device>::cal_dbecp_s(int ik, int npm, int ipol, i
     // calculate stress for target (ipol, jpol)
     if(npol == 1)
     {
-    const int current_spin = this->kv_->isk[ik];
-    cal_stress_nl_op()(this->ctx,
-                       nondiagonal,
-                       ipol,
-                       jpol,
-                       nkb,
-                       npm,
-                       this->ntype,
-                       current_spin, // uspp only
-                       this->nbands,
-                       ik,
-                       this->nlpp_->deeq.getBound2(),
-                       this->nlpp_->deeq.getBound3(),
-                       this->nlpp_->deeq.getBound4(),
-                       atom_nh,
-                       atom_na,
-                       d_wg,
-                       d_ekb,
-                       qq_nt,
-                       deeq,
-                       becp,
-                       dbecp,
-                       stress);
+        const int current_spin = this->kv_->isk[ik];
+        cal_stress_nl_op()(this->ctx,
+                        nondiagonal,
+                        ipol,
+                        jpol,
+                        nkb,
+                        npm,
+                        this->ntype,
+                        current_spin, // uspp only
+                        this->nlpp_->deeq.getBound2(),
+                        this->nlpp_->deeq.getBound3(),
+                        this->nlpp_->deeq.getBound4(),
+                        atom_nh,
+                        atom_na,
+                        d_wg + this->nbands * ik,
+                        d_ekb + this->nbands * ik,
+                        qq_nt,
+                        deeq,
+                        becp,
+                        dbecp,
+                        stress);
     }
     else
     {
@@ -447,15 +445,13 @@ void FS_Nonlocal_tools<FPTYPE, Device>::cal_dbecp_s(int ik, int npm, int ipol, i
                            nkb,
                            npm,
                            this->ntype,
-                           this->nbands,
-                           ik,
                            this->nlpp_->deeq_nc.getBound2(),
                            this->nlpp_->deeq_nc.getBound3(),
                            this->nlpp_->deeq_nc.getBound4(),
                            atom_nh,
                            atom_na,
-                           d_wg,
-                           d_ekb,
+                           d_wg + this->nbands * ik,
+                           d_ekb + this->nbands * ik,
                            qq_nt,
                            this->nlpp_->template get_deeq_nc_data<FPTYPE>(),
                            becp,
@@ -668,21 +664,19 @@ void FS_Nonlocal_tools<FPTYPE, Device>::cal_force(int ik, int npm, FPTYPE* force
         cal_force_nl_op<FPTYPE, Device>()(this->ctx,
                                         nondiagonal,
                                         npm,
-                                        this->nbands,
                                         this->ntype,
                                         current_spin,
                                         this->nlpp_->deeq.getBound2(),
                                         this->nlpp_->deeq.getBound3(),
                                         this->nlpp_->deeq.getBound4(),
                                         force_nc,
                                         this->nbands,
-                                        ik,
                                         nkb,
                                         atom_nh,
                                         atom_na,
                                         this->ucell_->tpiba,
-                                        d_wg,
-                                        d_ekb,
+                                        d_wg + this->nbands * ik,
+                                        d_ekb + this->nbands * ik,
                                         qq_nt,
                                         deeq,
                                         becp,
@@ -693,20 +687,18 @@ void FS_Nonlocal_tools<FPTYPE, Device>::cal_force(int ik, int npm, FPTYPE* force
     {
         cal_force_nl_op<FPTYPE, Device>()(this->ctx,
                                           npm,
-                                          this->nbands,
                                           this->ntype,
                                           this->nlpp_->deeq_nc.getBound2(),
                                           this->nlpp_->deeq_nc.getBound3(),
                                           this->nlpp_->deeq_nc.getBound4(),
                                           force_nc,
                                           this->nbands,
-                                          ik,
                                           nkb,
                                           atom_nh,
                                           atom_na,
                                           this->ucell_->tpiba,
-                                          d_wg,
-                                          d_ekb,
+                                          d_wg + this->nbands * ik,
+                                          d_ekb + this->nbands * ik,
                                           qq_nt,
                                           this->nlpp_->template get_deeq_nc_data<FPTYPE>(),
                                           becp,
 
@@ -35,15 +35,13 @@ __global__ void cal_vkb1_nl(
 template <typename FPTYPE>
 __global__ void cal_force_nl(
         const bool nondiagonal,
-        const int wg_nc,
         const int ntype,
         const int spin,
         const int deeq_2,
         const int deeq_3,
         const int deeq_4,
         const int forcenl_nc,
         const int nbands,
-        const int ik,
         const int nkb,
         const int *atom_nh,
         const int *atom_na,
@@ -65,11 +63,11 @@ __global__ void cal_force_nl(
         sum += atom_na[ii] * atom_nh[ii];
     }
 
-    int Nprojs = atom_nh[it];
-    FPTYPE fac = d_wg[ik * wg_nc + ib] * 2.0 * tpiba;
-    FPTYPE ekb_now = d_ekb[ik * wg_nc + ib];
+    int nproj = atom_nh[it];
+    FPTYPE fac = d_wg[ib] * 2.0 * tpiba;
+    FPTYPE ekb_now = d_ekb[ib];
     for (int ia = 0; ia < atom_na[it]; ia++) {
-        for (int ip = threadIdx.x; ip < Nprojs; ip += blockDim.x) {
+        for (int ip = threadIdx.x; ip < nproj; ip += blockDim.x) {
             // FPTYPE ps = GlobalC::ppcell.deeq[spin, iat, ip, ip];
             FPTYPE ps = deeq[((spin * deeq_2 + iat) * deeq_3 + ip) * deeq_4 + ip]
                         - ekb_now * qq_nt[it * deeq_3 * deeq_4 + ip * deeq_4 + ip];
@@ -85,8 +83,8 @@ __global__ void cal_force_nl(
             }
 
             if (nondiagonal) {
-                //for (int ip2=0; ip2<Nprojs; ip2++)
-                for (int ip2 = 0; ip2 < Nprojs; ip2++) {
+                //for (int ip2=0; ip2<nproj; ip2++)
+                for (int ip2 = 0; ip2 < nproj; ip2++) {
                     if (ip != ip2) {
                         const int jnkb = sum + ip2;
                         ps = deeq[((spin * deeq_2 + iat) * deeq_3 + ip) * deeq_4 + ip2]
@@ -101,7 +99,7 @@ __global__ void cal_force_nl(
             }
         }
         iat += 1;
-        sum += Nprojs;
+        sum += nproj;
     }
 }
 
@@ -134,15 +132,13 @@ template <typename FPTYPE>
 void cal_force_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_device::DEVICE_GPU* ctx,
                                                                   const bool& nondiagonal,
                                                                   const int& nbands_occ,
-                                                                  const int& wg_nc,
                                                                   const int& ntype,
                                                                   const int& spin,
                                                                   const int& deeq_2,
                                                                   const int& deeq_3,
                                                                   const int& deeq_4,
                                                                   const int& forcenl_nc,
                                                                   const int& nbands,
-                                                                  const int& ik,
                                                                   const int& nkb,
                                                                   const int* atom_nh,
                                                                   const int* atom_na,
@@ -157,9 +153,9 @@ void cal_force_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_dev
 {
     cal_force_nl<FPTYPE><<<nbands_occ * ntype, THREADS_PER_BLOCK>>>(
             nondiagonal,
-            wg_nc, ntype, spin,
+            ntype, spin,
             deeq_2, deeq_3, deeq_4,
-            forcenl_nc, nbands, ik, nkb,
+            forcenl_nc, nbands, nkb,
             atom_nh, atom_na,
             tpiba,
             d_wg, d_ekb, qq_nt, deeq,
@@ -172,14 +168,12 @@ void cal_force_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_dev
 
 template <typename FPTYPE>
 __global__ void cal_force_nl(
-        const int wg_nc,
         const int ntype,
         const int deeq_2,
         const int deeq_3,
         const int deeq_4,
         const int forcenl_nc,
         const int nbands,
-        const int ik,
         const int nkb,
         const int *atom_nh,
         const int *atom_na,
@@ -202,13 +196,13 @@ __global__ void cal_force_nl(
         sum += atom_na[ii] * atom_nh[ii];
     }
 
-    int Nprojs = atom_nh[it];
-    FPTYPE fac = d_wg[ik * wg_nc + ib] * 2.0 * tpiba;
-    FPTYPE ekb_now = d_ekb[ik * wg_nc + ib];
+    int nproj = atom_nh[it];
+    FPTYPE fac = d_wg[ib] * 2.0 * tpiba;
+    FPTYPE ekb_now = d_ekb[ib];
     for (int ia = 0; ia < atom_na[it]; ia++) {
-        for (int ip = threadIdx.x; ip < Nprojs; ip += blockDim.x) {
+        for (int ip = threadIdx.x; ip < nproj; ip += blockDim.x) {
             const int inkb = sum + ip;
-            for (int ip2 = 0; ip2 < Nprojs; ip2++) 
+            for (int ip2 = 0; ip2 < nproj; ip2++) 
             {
                 // Effective values of the D-eS coefficients
                 const thrust::complex<FPTYPE> ps_qq = - ekb_now * qq_nt[it * deeq_3 * deeq_4 + ip * deeq_4 + ip2];
@@ -231,22 +225,20 @@ __global__ void cal_force_nl(
             }
         }
         iat += 1;
-        sum += Nprojs;
+        sum += nproj;
     }
 }
 
 // interface for nspin=4 only
 template <typename FPTYPE>
 void cal_force_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_device::DEVICE_GPU* ctx,
                     const int& nbands_occ,
-                    const int& wg_nc,
                     const int& ntype,
                     const int& deeq_2,
                     const int& deeq_3,
                     const int& deeq_4,
                     const int& forcenl_nc,
                     const int& nbands,
-                    const int& ik,
                     const int& nkb,
                     const int* atom_nh,
                     const int* atom_na,
@@ -260,9 +252,9 @@ void cal_force_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_dev
                     FPTYPE* force)
 {
     cal_force_nl<FPTYPE><<<nbands_occ * ntype, THREADS_PER_BLOCK>>>(
-            wg_nc, ntype,
+            ntype,
             deeq_2, deeq_3, deeq_4,
-            forcenl_nc, nbands, ik, nkb,
+            forcenl_nc, nbands, nkb,
             atom_nh, atom_na,
             tpiba,
             d_wg, d_ekb, qq_nt, 
 
@@ -107,8 +107,6 @@ __global__ void cal_stress_nl(
         const int nkb,
         const int ntype,
         const int spin,
-        const int wg_nc,
-        const int ik,
         const int deeq_2,
         const int deeq_3,
         const int deeq_4,
@@ -125,22 +123,25 @@ __global__ void cal_stress_nl(
     int ib = blockIdx.x / ntype;
     int it = blockIdx.x % ntype;
 
-    int iat = 0, sum = 0;
+    int iat = 0;
+    int sum = 0;
     for (int ii = 0; ii < it; ii++) {
         iat += atom_na[ii];
         sum += atom_na[ii] * atom_nh[ii];
     }
 
-    FPTYPE stress_var = 0, fac = d_wg[ik * wg_nc + ib] * 1.0, ekb_now = d_ekb[ik * wg_nc + ib];
-    const int Nprojs = atom_nh[it];
+    FPTYPE stress_var = 0;
+    const FPTYPE fac = d_wg[ib];
+    const FPTYPE ekb_now = d_ekb[ib];
+    const int nproj = atom_nh[it];
     for (int ia = 0; ia < atom_na[it]; ia++)
     {
-        for (int ii = threadIdx.x; ii < Nprojs * Nprojs; ii += blockDim.x) {
-            int ip1 = ii / Nprojs, ip2 = ii % Nprojs;
+        for (int ii = threadIdx.x; ii < nproj * nproj; ii += blockDim.x) {
+            const int ip1 = ii / nproj, ip2 = ii % nproj;
             if(!nondiagonal && ip1 != ip2) {
                 continue;
             }
-            FPTYPE ps = deeq[((spin * deeq_2 + iat) * deeq_3 + ip1) * deeq_4 + ip2]
+            const FPTYPE ps = deeq[((spin * deeq_2 + iat) * deeq_3 + ip1) * deeq_4 + ip2]
                         - ekb_now * qq_nt[it * deeq_3 * deeq_4 + ip1 * deeq_4 + ip2];
             const int inkb1 = sum + ip1;
             const int inkb2 = sum + ip2;
@@ -149,7 +150,7 @@ __global__ void cal_stress_nl(
             stress_var -= ps * fac * dbb;
         }
         ++iat;
-        sum+=Nprojs;
+        sum+=nproj;
     }//ia
     __syncwarp();
     warp_reduce(stress_var);
@@ -204,8 +205,6 @@ void cal_stress_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_de
                                                                    const int& nbands_occ,
                                                                    const int& ntype,
                                                                    const int& spin,
-                                                                   const int& wg_nc,
-                                                                   const int& ik,
                                                                    const int& deeq_2,
                                                                    const int& deeq_3,
                                                                    const int& deeq_4,
@@ -226,8 +225,6 @@ void cal_stress_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_de
              nkb,
              ntype,
              spin,
-             wg_nc,
-             ik,
              deeq_2,
              deeq_3,
              deeq_4,
@@ -250,8 +247,6 @@ __global__ void cal_stress_nl(
         const int jpol,
         const int nkb,
         const int ntype,
-        const int wg_nc,
-        const int ik,
         const int deeq_2,
         const int deeq_3,
         const int deeq_4,
@@ -277,14 +272,14 @@ __global__ void cal_stress_nl(
     }
 
     FPTYPE stress_var = 0;
-    const FPTYPE fac = d_wg[ik * wg_nc + ib] * 1.0;
-    const FPTYPE ekb_now = d_ekb[ik * wg_nc + ib];
-    const int Nprojs = atom_nh[it];
+    const FPTYPE fac = d_wg[ib];
+    const FPTYPE ekb_now = d_ekb[ib];
+    const int nproj = atom_nh[it];
     for (int ia = 0; ia < atom_na[it]; ia++)
     {
-        for (int ii = threadIdx.x; ii < Nprojs * Nprojs; ii += blockDim.x) {
-            const int ip1 = ii / Nprojs;
-	        const int ip2 = ii % Nprojs;
+        for (int ii = threadIdx.x; ii < nproj * nproj; ii += blockDim.x) {
+            const int ip1 = ii / nproj;
+	        const int ip2 = ii % nproj;
             const thrust::complex<FPTYPE> ps_qq = - ekb_now * qq_nt[it * deeq_3 * deeq_4 + ip1 * deeq_4 + ip2];
             const thrust::complex<FPTYPE> ps0 = deeq_nc[((iat + ia) * deeq_3 + ip1) * deeq_4 + ip2] + ps_qq;
             const thrust::complex<FPTYPE> ps1 = deeq_nc[((1 * deeq_2 + iat + ia) * deeq_3 + ip1) * deeq_4 + ip2];
@@ -300,7 +295,7 @@ __global__ void cal_stress_nl(
             stress_var -= fac * (ps0 * dbb0 + ps1 * dbb1 + ps2 * dbb2 + ps3 * dbb3).real();
         }
         ++iat;
-        sum+=Nprojs;
+        sum+=nproj;
     }//ia
     __syncwarp();
     warp_reduce(stress_var);
@@ -316,8 +311,6 @@ void cal_stress_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_de
                                                                    const int& nkb,
                                                                    const int& nbands_occ,
                                                                    const int& ntype,
-                                                                   const int& wg_nc,
-                                                                   const int& ik,
                                                                    const int& deeq_2,
                                                                    const int& deeq_3,
                                                                    const int& deeq_4,
@@ -336,8 +329,6 @@ void cal_stress_nl_op<FPTYPE, base_device::DEVICE_GPU>::operator()(const base_de
              jpol,
              nkb,
              ntype,
-             wg_nc,
-             ik,
              deeq_2,
              deeq_3,
              deeq_4,