Add huge sum-reduction and pepper kernel with restrict keyword, it

obilaniu · obilaniu · commit 0eb633c54ff8 · 2017-07-24T13:25:44.000-04:00
doubles the speed.
diff --git a/src/gpuarray_buffer_cuda.c b/src/gpuarray_buffer_cuda.c
@@ -510,6 +510,7 @@ static const char CUDA_PREAMBLE[] =
     "#define GA_DECL_SHARED_PARAM(type, name)\n"
     "#define GA_DECL_SHARED_BODY(type, name) extern __shared__ type name[];\n"
     "#define GA_WARP_SIZE warpSize\n"
+    "#define restrict __restrict__\n"
     "#line 1\n";
 
 /* XXX: add complex, quads, longlong */
diff --git a/src/gpuarray_reduction.c b/src/gpuarray_reduction.c
@@ -416,7 +416,6 @@ static int        reduxInvCleanupMsg            (redux_ctx*           ctx, int r
 static size_t     reduxInvEstimateParallelism   (const redux_ctx*  ctx);
 static int        reduxInvRequiresDst           (const redux_ctx*  ctx);
 static int        reduxInvRequiresDstArg        (const redux_ctx*  ctx);
-static int        reduxInvKernelRequiresDst     (const redux_ctx*  ctx);
 static unsigned   reduxInvGetSplitFree          (const redux_ctx*  ctx);
 static unsigned   reduxInvGetSplitReduce        (const redux_ctx*  ctx);
 static axis_desc* reduxInvGetSrcAxis            (const redux_ctx*  ctx, int i);
@@ -1144,12 +1143,6 @@ static int        reduxInvRequiresDst           (const redux_ctx*  ctx){
 static int        reduxInvRequiresDstArg        (const redux_ctx*  ctx){
 	return reduxGenRequiresDstArg(ctx->gr);
 }
-static int        reduxInvKernelRequiresDst     (const redux_ctx*  ctx){
-	return reduxGenKernelRequiresDst(ctx->gr);
-}
-static int        reduxInvKernelRequiresDstArg  (const redux_ctx*  ctx){
-	return reduxGenKernelRequiresDstArg(ctx->gr);
-}
 static unsigned   reduxInvGetSplitFree          (const redux_ctx*  ctx){
 	if(ctx->xdSplit && !axisIsReduced(ctx->xdSplit)){
 		return axisGetIntraLen(ctx->xdSplit);
@@ -1512,26 +1505,26 @@ static void       reduxGenIterArgs              (GpuReduction*        gr,
 	for(k=gr->ndd;k < gr->nds && reduxGenRequiresDstArg(gr);k++){
 		fn(gr, GA_SIZE,   "TX",                       "l%dPDim",     k, user);
 	}
-	fn(gr, GA_BUFFER, "const GLOBAL_MEM char*",   "s",           0, user);
+	fn(gr, GA_BUFFER, "const GLOBAL_MEM char* restrict",   "s",           0, user);
 	fn(gr, GA_SSIZE,  "TX",                       "sOff",        0, user);
 	for(k=0;k < gr->nds;k++){
 		fn(gr, GA_SIZE,   "TX",                       "sJ%d",        k, user);
 	}
 	if(reduxGenRequiresDst   (gr)){
-		fn(gr, GA_BUFFER, "GLOBAL_MEM char*",         "d",           0, user);
+		fn(gr, GA_BUFFER, "GLOBAL_MEM char* restrict",         "d",           0, user);
 		fn(gr, GA_SSIZE,  "TX",                       "dOff",        0, user);
 		for(k=0;k < gr->ndd;k++){
 			fn(gr, GA_SIZE,   "TX",                       "dJ%d",        k, user);
 		}
 	}
 	if(reduxGenRequiresDstArg(gr)){
-		fn(gr, GA_BUFFER, "GLOBAL_MEM char*",         "a",           0, user);
+		fn(gr, GA_BUFFER, "GLOBAL_MEM char* restrict",         "a",           0, user);
 		fn(gr, GA_SSIZE,  "TX",                       "aOff",        0, user);
 		for(k=0;k < gr->ndd;k++){
 			fn(gr, GA_SIZE,   "TX",                       "aJ%d",        k, user);
 		}
 	}
-	fn(gr, GA_BUFFER, "GLOBAL_MEM char*",         "w",           0, user);
+	fn(gr, GA_BUFFER, "GLOBAL_MEM char* restrict",         "w",           0, user);
 	if(reduxGenKernelRequiresDst   (gr)){
 		fn(gr, GA_SSIZE,  "TX",                       "wdOff",       0, user);
 		fn(gr, GA_SSIZE,  "TX",                       "pdOff",       0, user);
@@ -1624,9 +1617,9 @@ static void       reduxGenSrcAppendMacroDefs    (GpuReduction*     gr){
 	 */
 	
 	if (gr->srcTypeCode == GA_HALF && gr->accTypeCode == GA_FLOAT){
-		srcbAppends(&gr->srcGen, "#define LOADS(v, p) do{(v) = (TK)load_half((TS*)(p));}while(0)\n");
+		srcbAppends(&gr->srcGen, "#define LOADS(v, p) do{(v) = (TK)load_half((const TS* restrict)(p));}while(0)\n");
 	}else{
-		srcbAppends(&gr->srcGen, "#define LOADS(v, p) do{(v) = (TK)*(TS*)(p);}while(0)\n");
+		srcbAppends(&gr->srcGen, "#define LOADS(v, p) do{(v) = (TK)*(const TS* restrict)(p);}while(0)\n");
 	}
 	
 	
@@ -1737,9 +1730,9 @@ static void       reduxGenSrcAppendMacroDefs    (GpuReduction*     gr){
 	
 	if (reduxGenRequiresDst(gr)){
 		if (gr->dstTypeCode == GA_HALF && gr->accTypeCode == GA_FLOAT){
-			srcbAppends(&gr->srcGen, "#define STORED(p, v) do{store_half((TD*)(p), (v));}while(0)\n");
+			srcbAppends(&gr->srcGen, "#define STORED(p, v) do{store_half((TD* restrict)(p), (v));}while(0)\n");
 		}else{
-			srcbAppends(&gr->srcGen, "#define STORED(p, v) do{*(TD*)(p) = (v);}while(0)\n");
+			srcbAppends(&gr->srcGen, "#define STORED(p, v) do{*(TD* restrict)(p) = (v);}while(0)\n");
 		}
 	}else{
 		srcbAppends(&gr->srcGen, "#define STORED(p, v) do{}while(0)\n");
@@ -1753,7 +1746,7 @@ static void       reduxGenSrcAppendMacroDefs    (GpuReduction*     gr){
 	 */
 	
 	if (reduxGenRequiresDstArg(gr)){
-		srcbAppends(&gr->srcGen, "#define STOREA(p, v) do{*(TA*)(p) = (v);}while(0)\n");
+		srcbAppends(&gr->srcGen, "#define STOREA(p, v) do{*(TA* restrict)(p) = (v);}while(0)\n");
 	}else{
 		srcbAppends(&gr->srcGen, "#define STOREA(p, v) do{}while(0)\n");
 	}
@@ -2085,17 +2078,17 @@ static void       reduxGenSrcAppendBlockDecode  (GpuReduction*     gr){
 	srcbAppends(&gr->srcGen, "    \n");
 	if(reduxGenKernelRequiresDst(gr)){
 		srcbAppends(&gr->srcGen,
-		"    TK*         wd       = (TK*)(w     + wdOff);\n"
-		"    TK*         wdL      = &wd[0];\n"
-		"    TK*         wdR      = &wd[GDIM_0*D];\n"
-		"    TK*         pd       = (TK*)(SHMEM + pdOff);\n");
+		"    TK* restrict wd       = (TK* restrict)(w     + wdOff);\n"
+		"    TK* restrict wdL      = &wd[0];\n"
+		"    TK* restrict wdR      = &wd[GDIM_0*D];\n"
+		"    TK* restrict pd       = (TK* restrict)(SHMEM + pdOff);\n");
 	}
 	if(reduxGenKernelRequiresDstArg(gr)){
 		srcbAppends(&gr->srcGen,
-		"    TA*         wa       = (TA*)(w     + waOff);\n"
-		"    TA*         waL      = &wa[0];\n"
-		"    TA*         waR      = &wa[GDIM_0*D];\n"
-		"    TA*         pa       = (TA*)(SHMEM + paOff);\n");
+		"    TA* restrict wa       = (TA* restrict)(w     + waOff);\n"
+		"    TA* restrict waL      = &wa[0];\n"
+		"    TA* restrict waR      = &wa[GDIM_0*D];\n"
+		"    TA* restrict pa       = (TA* restrict)(SHMEM + paOff);\n");
 	}
 	srcbAppends(&gr->srcGen, "    \n");
 }
@@ -2173,12 +2166,12 @@ static void       reduxGenSrcAppendThreadDecode (GpuReduction*     gr){
 		                         "    local_barrier();\n");
 	}
 	srcbAppends(&gr->srcGen, "    \n"
-	                         "    const char* ts       = s + sOff;\n");
+	                         "    const char* restrict ts       = s + sOff;\n");
 	if(reduxGenRequiresDst(gr)){
-		srcbAppends(&gr->srcGen, "    char*       td       = d + dOff;\n");
+		srcbAppends(&gr->srcGen, "    char* restrict       td       = d + dOff;\n");
 	}
 	if(reduxGenRequiresDstArg(gr)){
-		srcbAppends(&gr->srcGen, "    char*       ta       = a + aOff;\n");
+		srcbAppends(&gr->srcGen, "    char* restrict       ta       = a + aOff;\n");
 	}
 	srcbAppends(&gr->srcGen, "    \n"
 	                         "    \n");
diff --git a/tests/check_reduction.c b/tests/check_reduction.c
@@ -2054,6 +2054,79 @@ START_TEST(test_sum_alldimsreduced){
 	GpuArray_clear(&gaD);
 }END_TEST
 
+START_TEST(test_sum_huge){
+	pcgSeed(1);
+
+	/**
+	 * We test here a reduction of a huge 1D tensor on all dimensions.
+	 */
+
+	size_t i;
+	size_t dims[1]  = {100000000};
+	size_t prodDims = dims[0];
+	const int reduxList[] = {0};
+	const float TOL = 1e-2;
+
+	float*  pS = calloc(1, sizeof(*pS) * dims[0]);
+	float*  pD = calloc(1, sizeof(*pD));
+
+	ck_assert_ptr_ne(pS,    NULL);
+	ck_assert_ptr_ne(pD,    NULL);
+
+
+	/**
+	 * Initialize source data.
+	 */
+
+	for(i=0;i<prodDims;i++){
+		pS[i] = pcgRand01()-0.5;
+	}
+
+
+	/**
+	 * Run the kernel.
+	 */
+
+	GpuArray gaS;
+	GpuArray gaD;
+
+	ga_assert_ok(GpuArray_empty (&gaS, ctx, GA_FLOAT, 1, &dims[0], GA_C_ORDER));
+	ga_assert_ok(GpuArray_empty (&gaD, ctx, GA_FLOAT, 0, NULL, GA_C_ORDER));
+
+	ga_assert_ok(GpuArray_write (&gaS, pS, sizeof(*pS)*prodDims));
+	ga_assert_ok(GpuArray_memset(&gaD, -1));  /* 0xFFFFFFFF is a qNaN. */
+
+	GpuReduction* gr;
+	GpuReduction_new(&gr, GpuArray_context(&gaS),
+	                 GA_REDUCE_SUM, 0, 1, gaS.typecode, 0);
+	ck_assert_ptr_nonnull(gr);
+	ga_assert_ok(GpuReduction_call(gr, &gaD, NULL, &gaS, 1, reduxList, 0));
+	GpuReduction_free(gr);
+
+	ga_assert_ok(GpuArray_read  (pD,   sizeof(*pD), &gaD));
+
+
+	/**
+	 * Check that the destination tensors are correct.
+	 */
+	
+	double  gtD = 0;
+	for(i=0;i<dims[0];i++){
+		double  v   = pS[i];
+		gtD += v;
+	}
+	ck_assert_double_eq_tol(gtD, pD[0], TOL);
+
+	/**
+	 * Deallocate.
+	 */
+
+	free(pS);
+	free(pD);
+	GpuArray_clear(&gaS);
+	GpuArray_clear(&gaD);
+}END_TEST
+
 START_TEST(test_prod_reduction){
 	pcgSeed(1);
 
@@ -3938,6 +4011,7 @@ Suite *get_suite(void) {
 	tcase_add_test(tc, test_sum_reduction);
 	tcase_add_test(tc, test_sum_veryhighrank);
 	tcase_add_test(tc, test_sum_alldimsreduced);
+	tcase_add_test(tc, test_sum_huge);
 
 	tcase_add_test(tc, test_prod_reduction);
 	tcase_add_test(tc, test_prod_veryhighrank);