avoid pushState in critial section

ben-schwen · ben-schwen · commit f5ba89bf306e · 2025-04-24T00:23:29.000+02:00
diff --git a/src/forder.c b/src/forder.c
@@ -1064,7 +1064,8 @@ void radix_i(int from, int to, int radix) {
       push(my_gs, ngrp);
     } else {
       for (int i=0, f=from; i<ngrp; i++) {
-        pushState((State){f, f+my_gs[i]-1, radix+1});
+        if (my_gs[i] - 1 >= 0)
+          pushState((State){f, f+my_gs[i]-1, radix+1});
         f+=my_gs[i];
       }
     }
@@ -1167,7 +1168,7 @@ void radix_i(int from, int to, int radix) {
     } else {
       // this single thread will now descend and resolve all groups, now that the groups are close in cache
       for (int i=0, my_from=from; i<ngrp; i++) {
-        pushState((State){my_from, my_from+my_gs[i]-1, radix+1});
+        if (my_gs[i] - 1 >= 0) pushState((State){my_from, my_from+my_gs[i]-1, radix+1});
         my_from+=my_gs[i];
       }
     }
@@ -1379,6 +1380,7 @@ void radix_i(int from, int to, int radix) {
         #pragma omp parallel for ordered schedule(dynamic) num_threads(MIN(nth, ngrp))  // #5077
         for (int i=0; i<ngrp; i++) {
           int start = from + starts[ugrp[i]];
+          #pragma omp critical(pushState)
           pushState((State){start, start+my_gs[i]-1, radix+1});
           #pragma omp ordered
           flush();
@@ -1388,6 +1390,7 @@ void radix_i(int from, int to, int radix) {
         #pragma omp parallel for schedule(dynamic) num_threads(MIN(nth, ngrp))  // #5077
         for (int i=0; i<ngrp; i++) {
           int start = from + starts[ugrp[i]];
+          #pragma omp critical(pushState)
           pushState((State){start, start+my_gs[i]-1, radix+1});
         }
       }

Original file line number	Diff line number	Diff line change
`@@ -1064,7 +1064,8 @@ void radix_i(int from, int to, int radix) {`
`1064`	`1064`	`push(my_gs, ngrp);`
`1065`	`1065`	`} else {`
`1066`	`1066`	`for (int i=0, f=from; i<ngrp; i++) {`
`1067`		`- pushState((State){f, f+my_gs[i]-1, radix+1});`
	`1067`	`+ if (my_gs[i] - 1 >= 0)`
	`1068`	`+ pushState((State){f, f+my_gs[i]-1, radix+1});`
`1068`	`1069`	`f+=my_gs[i];`
`1069`	`1070`	`}`
`1070`	`1071`	`}`
`@@ -1167,7 +1168,7 @@ void radix_i(int from, int to, int radix) {`
`1167`	`1168`	`} else {`
`1168`	`1169`	`// this single thread will now descend and resolve all groups, now that the groups are close in cache`
`1169`	`1170`	`for (int i=0, my_from=from; i<ngrp; i++) {`
`1170`		`- pushState((State){my_from, my_from+my_gs[i]-1, radix+1});`
	`1171`	`+ if (my_gs[i] - 1 >= 0) pushState((State){my_from, my_from+my_gs[i]-1, radix+1});`
`1171`	`1172`	`my_from+=my_gs[i];`
`1172`	`1173`	`}`
`1173`	`1174`	`}`
`@@ -1379,6 +1380,7 @@ void radix_i(int from, int to, int radix) {`
`1379`	`1380`	`#pragma omp parallel for ordered schedule(dynamic) num_threads(MIN(nth, ngrp)) // #5077`
`1380`	`1381`	`for (int i=0; i<ngrp; i++) {`
`1381`	`1382`	`int start = from + starts[ugrp[i]];`
	`1383`	`+ #pragma omp critical(pushState)`
`1382`	`1384`	`pushState((State){start, start+my_gs[i]-1, radix+1});`
`1383`	`1385`	`#pragma omp ordered`
`1384`	`1386`	`flush();`
`@@ -1388,6 +1390,7 @@ void radix_i(int from, int to, int radix) {`
`1388`	`1390`	`#pragma omp parallel for schedule(dynamic) num_threads(MIN(nth, ngrp)) // #5077`
`1389`	`1391`	`for (int i=0; i<ngrp; i++) {`
`1390`	`1392`	`int start = from + starts[ugrp[i]];`
	`1393`	`+ #pragma omp critical(pushState)`
`1391`	`1394`	`pushState((State){start, start+my_gs[i]-1, radix+1});`
`1392`	`1395`	`}`
`1393`	`1396`	`}`