deepmodeling
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎source/source_base/element_basis_index.cpp‎
Lines changed: 8 additions & 6 deletions b/‎source/source_base/element_basis_index.cpp‎
Lines changed: 8 additions & 6 deletions
diff --git a/‎source/source_base/element_basis_index.h‎
Lines changed: 20 additions & 19 deletions b/‎source/source_base/element_basis_index.h‎
Lines changed: 20 additions & 19 deletions
diff --git a/‎source/source_base/module_container/ATen/kernels/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion b/‎source/source_base/module_container/ATen/kernels/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎source/source_base/module_container/ATen/kernels/cuda/lapack.cu‎
Lines changed: 97 additions & 6 deletions b/‎source/source_base/module_container/ATen/kernels/cuda/lapack.cu‎
Lines changed: 97 additions & 6 deletions
@@ -23,4 +23,5 @@ __pycache__
 abacus.json
 *.npy
 toolchain/install/
-toolchain/abacus_env.sh
+toolchain/abacus_env.sh
+.trae
@@ -4,24 +4,26 @@
 //==========================================================
 
 #include "element_basis_index.h"
+
 namespace ModuleBase
 {
 
-Element_Basis_Index::IndexLNM Element_Basis_Index::construct_index( const Range &range )
+Element_Basis_Index::IndexLNM
+Element_Basis_Index::construct_index( const Range &range )
 {
 	IndexLNM index;
 	index.resize( range.size() );
-	for( size_t T=0; T!=range.size(); ++T )
+	for( std::size_t T=0; T!=range.size(); ++T )
 	{
-		size_t count=0;
+		std::size_t count=0;
 		index[T].resize( range[T].size() );
-		for( size_t L=0; L!=range[T].size(); ++L )
+		for( std::size_t L=0; L!=range[T].size(); ++L )
 		{
 			index[T][L].resize( range[T][L].N );
-			for( size_t N=0; N!=range[T][L].N; ++N )
+			for( std::size_t N=0; N!=range[T][L].N; ++N )
 			{
 				index[T][L][N].resize( range[T][L].M );
-				for( size_t M=0; M!=range[T][L].M; ++M )
+				for( std::size_t M=0; M!=range[T][L].M; ++M )
 				{
 					index[T][L][N][M] = count;
 					++count;
 
@@ -8,40 +8,41 @@
 
 #include <cstddef>
 #include <vector>
+
 namespace ModuleBase
 {
 
-class Element_Basis_Index
+namespace Element_Basis_Index
 {
-private:
-	
+  //private:
+
 	struct NM
 	{
 		public:
-		size_t N;
-		size_t M;
+		std::size_t N;
+		std::size_t M;
 	};
-	
-	class Index_TL: public std::vector<std::vector<size_t>>
+
+	class Index_TL: public std::vector<std::vector<std::size_t>>
 	{
 		public:
-		size_t N;
-		size_t M;
+		std::size_t N;
+		std::size_t M;
 	};
-	
+
 	class Index_T: public std::vector<Index_TL>
 	{
 		public:
-		size_t count_size;
-	};	
-	
-public:
-	
-	typedef std::vector<std::vector<NM>> Range; 								// range[T][L]
+		std::size_t count_size;
+	};
+
+  //public:
+
+	typedef std::vector<std::vector<NM>> Range; 						// range[T][L]
 	typedef std::vector<Index_T> IndexLNM;								// index[T][L][N][M]
-	
-	static IndexLNM construct_index( const Range &range );
-};
+
+	extern IndexLNM construct_index( const Range &range );
+}
 
 }
 
 
@@ -16,4 +16,4 @@ if(BUILD_TESTING)
   if(ENABLE_MPI)
     add_subdirectory(test)
   endif()
-endif()
+endif()
@@ -6,6 +6,9 @@
 #include <cuda_runtime.h>
 #include <thrust/complex.h>
 
+#include <cassert>
+
+
 namespace container {
 namespace kernels {
 
@@ -101,22 +104,100 @@ struct lapack_heevd<T, DEVICE_GPU> {
     }
 };
 
+template <typename T>
+struct lapack_heevx<T, DEVICE_GPU> {
+    using Real = typename GetTypeReal<T>::type;
+    void operator()(
+        const int n,
+        const int lda,
+        const T *d_Mat,
+        const int neig,
+        Real *d_eigen_val,
+        T *d_eigen_vec)
+    {
+        assert(n <= lda);
+        // copy d_Mat to d_eigen_vec, and results will be overwritten into d_eigen_vec
+        // by cuSolver
+        cudaErrcheck(cudaMemcpy(d_eigen_vec, d_Mat, sizeof(T) * n * lda, cudaMemcpyDeviceToDevice));
+
+        int meig = 0;
+
+        cuSolverConnector::heevdx(
+            cusolver_handle,
+            n,
+            lda,
+            d_eigen_vec,
+            'V',        // jobz: compute vectors
+            'L',        // uplo: lower triangle
+            'I',        // range: by index
+            1, neig,    // il, iu
+            Real(0), Real(0), // vl, vu (unused)
+            d_eigen_val,
+            &meig
+        );
+
+    }
+};
 template <typename T>
 struct lapack_hegvd<T, DEVICE_GPU> {
     using Real = typename GetTypeReal<T>::type;
     void operator()(
-        const int& itype,
-        const char& jobz,
-        const char& uplo,
+        const int dim,
+        const int lda,
         T* Mat_A,
         T* Mat_B,
-        const int& dim,
-        Real* eigen_val)
+        Real* eigen_val,
+        T *eigen_vec)
     {
-        cuSolverConnector::hegvd(cusolver_handle, itype, jobz, uplo, dim, Mat_A, dim, Mat_B, dim, eigen_val);
+        const int itype = 1;
+        const char jobz = 'V';
+        const char uplo = 'L';
+        cudaErrcheck(cudaMemcpy(eigen_vec, Mat_A, sizeof(T) * dim * lda, cudaMemcpyDeviceToDevice));
+
+        // prevent B from being overwritten by Cholesky
+        T *d_B_backup = nullptr;
+        cudaErrcheck(cudaMalloc(&d_B_backup, sizeof(T) * dim * lda));
+        cudaErrcheck(cudaMemcpy(d_B_backup, Mat_B, sizeof(T) * dim * lda, cudaMemcpyDeviceToDevice));
+
+        cuSolverConnector::hegvd(cusolver_handle, itype, jobz, uplo, dim,
+                eigen_vec, lda,
+                d_B_backup, lda,
+                eigen_val);
+        cudaErrcheck(cudaFree(d_B_backup));
+    }
+};
+
+template <typename T>
+struct lapack_hegvx<T, DEVICE_GPU> {
+    using Real = typename GetTypeReal<T>::type;
+    void operator()(
+        const int n,
+        const int lda,
+        T *A,
+        T *B,
+        const int m,
+        Real *eigen_val,
+        T *eigen_vec)
+    {
+        const int itype = 1;
+        const char jobz = 'V';
+        const char range = 'I';
+        const char uplo = 'U';
+        int meig = 0;
+
+        // this hegvdx will protect the input A, B from being overwritten
+        // and write the eigenvectors into eigen_vec.
+        cuSolverConnector::hegvdx(cusolver_handle,
+            itype, jobz, range, uplo,
+            n, lda, A, B,
+            Real(0), Real(0),
+            1, m, &meig,
+            eigen_val, eigen_vec);
     }
 };
 
+
+
 template <typename T>
 struct lapack_getrf<T, DEVICE_GPU> {
     void operator()(
@@ -180,11 +261,21 @@ template struct lapack_heevd<double, DEVICE_GPU>;
 template struct lapack_heevd<std::complex<float>,  DEVICE_GPU>;
 template struct lapack_heevd<std::complex<double>, DEVICE_GPU>;
 
+template struct lapack_heevx<float, DEVICE_GPU>;
+template struct lapack_heevx<double, DEVICE_GPU>;
+template struct lapack_heevx<std::complex<float>, DEVICE_GPU>;
+template struct lapack_heevx<std::complex<double>, DEVICE_GPU>;
+
 template struct lapack_hegvd<float,  DEVICE_GPU>;
 template struct lapack_hegvd<double, DEVICE_GPU>;
 template struct lapack_hegvd<std::complex<float>,  DEVICE_GPU>;
 template struct lapack_hegvd<std::complex<double>, DEVICE_GPU>;
 
+template struct lapack_hegvx<float,  DEVICE_GPU>;
+template struct lapack_hegvx<double, DEVICE_GPU>;
+template struct lapack_hegvx<std::complex<float>,  DEVICE_GPU>;
+template struct lapack_hegvx<std::complex<double>, DEVICE_GPU>;
+
 template struct lapack_getrf<float,  DEVICE_GPU>;
 template struct lapack_getrf<double, DEVICE_GPU>;
 template struct lapack_getrf<std::complex<float>,  DEVICE_GPU>;
Original file line number	Diff line number	Diff line change
`@@ -4,24 +4,26 @@`
`4`	`4`	`//==========================================================`
`5`	`5`
`6`	`6`	`#include "element_basis_index.h"`
	`7`	`+`
`7`	`8`	`namespace ModuleBase`
`8`	`9`	`{`
`9`	`10`
`10`		`-Element_Basis_Index::IndexLNM Element_Basis_Index::construct_index( const Range &range )`
	`11`	`+Element_Basis_Index::IndexLNM`
	`12`	`+Element_Basis_Index::construct_index( const Range &range )`
`11`	`13`	`{`
`12`	`14`	`IndexLNM index;`
`13`	`15`	`index.resize( range.size() );`
`14`		`- for( size_t T=0; T!=range.size(); ++T )`
	`16`	`+ for( std::size_t T=0; T!=range.size(); ++T )`
`15`	`17`	`{`
`16`		`- size_t count=0;`
	`18`	`+ std::size_t count=0;`
`17`	`19`	`index[T].resize( range[T].size() );`
`18`		`- for( size_t L=0; L!=range[T].size(); ++L )`
	`20`	`+ for( std::size_t L=0; L!=range[T].size(); ++L )`
`19`	`21`	`{`
`20`	`22`	`index[T][L].resize( range[T][L].N );`
`21`		`- for( size_t N=0; N!=range[T][L].N; ++N )`
	`23`	`+ for( std::size_t N=0; N!=range[T][L].N; ++N )`
`22`	`24`	`{`
`23`	`25`	`index[T][L][N].resize( range[T][L].M );`
`24`		`- for( size_t M=0; M!=range[T][L].M; ++M )`
	`26`	`+ for( std::size_t M=0; M!=range[T][L].M; ++M )`
`25`	`27`	`{`
`26`	`28`	`index[T][L][N][M] = count;`
`27`	`29`	`++count;`