Fix policies minfloat (#22)

sorgfresser · web-flow · commit 4474cfff5dcb · 2025-04-12T02:26:21.000+01:00
* Add policy minfloat

* Set alpha min = 0

* Add minfloat handling for RPO

* Fix pi difference

* Fix logarithmic policy
diff --git a/src/graph/htps.cpp b/src/graph/htps.cpp
@@ -891,6 +891,13 @@ Simulation HTPS::find_leaves_to_expand(std::vector<std::shared_ptr<theorem>> &te
             tactic_id = std::distance(node_policy.begin(), std::max_element(node_policy.begin(), node_policy.end()));
         } else {
             // Normal softmax with temperature, i.e. exp(p / temperature)
+            // But take logarithm of policy first, as done in evariste
+            for (size_t i = 0; i < node_policy.size(); i++) {
+                if (node_policy[i] > MIN_FLOAT)
+                    node_policy[i] = std::log(node_policy[i]);
+                else
+                    node_policy[i] = MIN_FLOAT;
+            }
             double p_sum = 0;
             for (auto &p: node_policy) {
                 p = std::exp(p / params.policy_temperature);
diff --git a/src/model/policy.cpp b/src/model/policy.cpp
@@ -36,6 +36,7 @@ void Policy::get_policy(const std::vector<double> &q_values, const std::vector<d
         throw std::invalid_argument("No valid q-values");
     }
     if (valid_count == 1) {
+        std::fill(result.begin(), result.end(), MIN_FLOAT);
         result[valid_indices[0]] = 1;
         return;
     }
@@ -52,7 +53,11 @@ void Policy::get_policy(const std::vector<double> &q_values, const std::vector<d
     bool is_nan = std::any_of(result.begin(), result.end(), [](double d) { return std::isnan(d); });
     assert (!is_nan);
     assert (q_values.size() == result.size());
-    double sum = std::accumulate(result.begin(), result.end(), 0.0);
+    double sum = 0.0;
+    for (size_t i = 0; i < result.size(); i++) {
+        if (result[i] > MIN_FLOAT)
+            sum += result[i];
+    }
     assert (sum > 0.99 && sum < 1.01);
 }
 
@@ -68,10 +73,10 @@ void Policy::alpha_zero(const std::vector<double> &q_values, const std::vector<d
         if (pi_values[i] > MIN_FLOAT && q_values[i] > MIN_FLOAT) {
             scores[i] = q_values[i] + exploration * pi_values[i] * std::sqrt(count_sum) / (1 + counts_d[i]);
             valid_count++;
+            score_sum += scores[i];
         } else {
-            scores[i] = 0;
+            scores[i] = MIN_FLOAT;
         }
-        score_sum += scores[i];
     }
     assert (valid_count > 0);
     // If score sum is 0, simply return the uniform distribution over valid actions
@@ -80,14 +85,17 @@ void Policy::alpha_zero(const std::vector<double> &q_values, const std::vector<d
             if (q_values[i] > MIN_FLOAT && pi_values[i] > MIN_FLOAT) {
                 result[i] = 1.0 / static_cast<double>(valid_count);
             } else {
-                result[i] = 0;
+                result[i] = MIN_FLOAT;
             }
         }
         return;
     }
     // Normalize the scores
     for (size_t i = 0; i < q_values.size(); i++) {
-        result[i] = scores[i] / score_sum;
+        if (scores[i] > MIN_FLOAT)
+            result[i] = scores[i] / score_sum;
+        else
+            result[i] = MIN_FLOAT;
     }
 }
 
@@ -108,7 +116,7 @@ double Policy::find_rpo_alpha(double alpha_min, double alpha_max, const std::vec
             }
             pi_difference_sum += scaled_pi_values[i] / diff;
         }
-        if ((pi_difference_sum - 1) < TOLERANCE) {
+        if (std::abs(pi_difference_sum - 1) < TOLERANCE) {
             return alpha_mid;
         }
         if (pi_difference_sum > 1)
@@ -133,7 +141,7 @@ void Policy::mcts_rpo(const std::vector<double> &q_values, const std::vector<dou
                 q_sum += q_values[i];
                 valid_count++;
             } else {
-                result[i] = 0;
+                result[i] = MIN_FLOAT;
             }
         }
         // If q sum is 0, simply return the uniform distribution over valid actions
@@ -143,21 +151,25 @@ void Policy::mcts_rpo(const std::vector<double> &q_values, const std::vector<dou
                 if (q_values[i] > MIN_FLOAT && pi_values[i] > MIN_FLOAT) {
                     result[i] = 1.0 / static_cast<double>(valid_count);
                 } else {
-                    result[i] = 0;
+                    result[i] = MIN_FLOAT;
                 }
             }
             return;
         }
 
         for (size_t i = 0; i < q_values.size(); i++) {
-            result[i] /= q_sum;
+            if (q_values[i] > MIN_FLOAT) {
+                result[i] = result[i] / q_sum;
+            } else {
+                result[i] = MIN_FLOAT;
+            }
         }
         return;
     }
 
     std::vector<double> scaled_pi_values(q_values.size());
 
-    double alpha_min, alpha_max = 0;
+    double alpha_min = 0, alpha_max = 0;
 
     for (size_t i = 0; i < q_values.size(); i++) {
         scaled_pi_values[i] = pi_values[i] * multiplier;
@@ -167,11 +179,19 @@ void Policy::mcts_rpo(const std::vector<double> &q_values, const std::vector<dou
     double alpha = find_rpo_alpha(alpha_min, alpha_max, q_values, scaled_pi_values);
     double result_sum = 0;
     for (size_t i = 0; i < q_values.size(); i++) {
-        result[i] = scaled_pi_values[i] / std::max((alpha - q_values[i]), EPSILON);
-        result_sum += result[i];
+        if (q_values[i] > MIN_FLOAT) {
+            result[i] = scaled_pi_values[i] / std::max((alpha - q_values[i]), EPSILON);
+            result_sum += result[i];
+        }
+        else {
+            result[i] = MIN_FLOAT;
+        }
     }
     for (size_t i = 0; i < q_values.size(); i++) {
-        result[i] /= result_sum;
+        if (result[i] > MIN_FLOAT)
+            result[i] = result[i] / result_sum;
+        else
+            result[i] = MIN_FLOAT;
     }
 }
 

Original file line number	Diff line number	Diff line change
`@@ -36,6 +36,7 @@ void Policy::get_policy(const std::vector<double> &q_values, const std::vector<d`
`36`	`36`	`throw std::invalid_argument("No valid q-values");`
`37`	`37`	`}`
`38`	`38`	`if (valid_count == 1) {`
	`39`	`+ std::fill(result.begin(), result.end(), MIN_FLOAT);`
`39`	`40`	`result[valid_indices[0]] = 1;`
`40`	`41`	`return;`
`41`	`42`	`}`
`@@ -52,7 +53,11 @@ void Policy::get_policy(const std::vector<double> &q_values, const std::vector<d`
`52`	`53`	`bool is_nan = std::any_of(result.begin(), result.end(), [](double d) { return std::isnan(d); });`
`53`	`54`	`assert (!is_nan);`
`54`	`55`	`assert (q_values.size() == result.size());`
`55`		`- double sum = std::accumulate(result.begin(), result.end(), 0.0);`
	`56`	`+ double sum = 0.0;`
	`57`	`+ for (size_t i = 0; i < result.size(); i++) {`
	`58`	`+ if (result[i] > MIN_FLOAT)`
	`59`	`+ sum += result[i];`
	`60`	`+ }`
`56`	`61`	`assert (sum > 0.99 && sum < 1.01);`
`57`	`62`	`}`
`58`	`63`
`@@ -68,10 +73,10 @@ void Policy::alpha_zero(const std::vector<double> &q_values, const std::vector<d`
`68`	`73`	`if (pi_values[i] > MIN_FLOAT && q_values[i] > MIN_FLOAT) {`
`69`	`74`	`scores[i] = q_values[i] + exploration * pi_values[i] * std::sqrt(count_sum) / (1 + counts_d[i]);`
`70`	`75`	`valid_count++;`
	`76`	`+ score_sum += scores[i];`
`71`	`77`	`} else {`
`72`		`- scores[i] = 0;`
	`78`	`+ scores[i] = MIN_FLOAT;`
`73`	`79`	`}`
`74`		`- score_sum += scores[i];`
`75`	`80`	`}`
`76`	`81`	`assert (valid_count > 0);`
`77`	`82`	`// If score sum is 0, simply return the uniform distribution over valid actions`
`@@ -80,14 +85,17 @@ void Policy::alpha_zero(const std::vector<double> &q_values, const std::vector<d`
`80`	`85`	`if (q_values[i] > MIN_FLOAT && pi_values[i] > MIN_FLOAT) {`
`81`	`86`	`result[i] = 1.0 / static_cast<double>(valid_count);`
`82`	`87`	`} else {`
`83`		`- result[i] = 0;`
	`88`	`+ result[i] = MIN_FLOAT;`
`84`	`89`	`}`
`85`	`90`	`}`
`86`	`91`	`return;`
`87`	`92`	`}`
`88`	`93`	`// Normalize the scores`
`89`	`94`	`for (size_t i = 0; i < q_values.size(); i++) {`
`90`		`- result[i] = scores[i] / score_sum;`
	`95`	`+ if (scores[i] > MIN_FLOAT)`
	`96`	`+ result[i] = scores[i] / score_sum;`
	`97`	`+ else`
	`98`	`+ result[i] = MIN_FLOAT;`
`91`	`99`	`}`
`92`	`100`	`}`
`93`	`101`
`@@ -108,7 +116,7 @@ double Policy::find_rpo_alpha(double alpha_min, double alpha_max, const std::vec`
`108`	`116`	`}`
`109`	`117`	`pi_difference_sum += scaled_pi_values[i] / diff;`
`110`	`118`	`}`
`111`		`- if ((pi_difference_sum - 1) < TOLERANCE) {`
	`119`	`+ if (std::abs(pi_difference_sum - 1) < TOLERANCE) {`
`112`	`120`	`return alpha_mid;`
`113`	`121`	`}`
`114`	`122`	`if (pi_difference_sum > 1)`
`@@ -133,7 +141,7 @@ void Policy::mcts_rpo(const std::vector<double> &q_values, const std::vector<dou`
`133`	`141`	`q_sum += q_values[i];`
`134`	`142`	`valid_count++;`
`135`	`143`	`} else {`
`136`		`- result[i] = 0;`
	`144`	`+ result[i] = MIN_FLOAT;`
`137`	`145`	`}`
`138`	`146`	`}`
`139`	`147`	`// If q sum is 0, simply return the uniform distribution over valid actions`
`@@ -143,21 +151,25 @@ void Policy::mcts_rpo(const std::vector<double> &q_values, const std::vector<dou`
`143`	`151`	`if (q_values[i] > MIN_FLOAT && pi_values[i] > MIN_FLOAT) {`
`144`	`152`	`result[i] = 1.0 / static_cast<double>(valid_count);`
`145`	`153`	`} else {`
`146`		`- result[i] = 0;`
	`154`	`+ result[i] = MIN_FLOAT;`
`147`	`155`	`}`
`148`	`156`	`}`
`149`	`157`	`return;`
`150`	`158`	`}`
`151`	`159`
`152`	`160`	`for (size_t i = 0; i < q_values.size(); i++) {`
`153`		`- result[i] /= q_sum;`
	`161`	`+ if (q_values[i] > MIN_FLOAT) {`
	`162`	`+ result[i] = result[i] / q_sum;`
	`163`	`+ } else {`
	`164`	`+ result[i] = MIN_FLOAT;`
	`165`	`+ }`
`154`	`166`	`}`
`155`	`167`	`return;`
`156`	`168`	`}`
`157`	`169`
`158`	`170`	`std::vector<double> scaled_pi_values(q_values.size());`
`159`	`171`
`160`		`- double alpha_min, alpha_max = 0;`
	`172`	`+ double alpha_min = 0, alpha_max = 0;`
`161`	`173`
`162`	`174`	`for (size_t i = 0; i < q_values.size(); i++) {`
`163`	`175`	`scaled_pi_values[i] = pi_values[i] * multiplier;`
`@@ -167,11 +179,19 @@ void Policy::mcts_rpo(const std::vector<double> &q_values, const std::vector<dou`
`167`	`179`	`double alpha = find_rpo_alpha(alpha_min, alpha_max, q_values, scaled_pi_values);`
`168`	`180`	`double result_sum = 0;`
`169`	`181`	`for (size_t i = 0; i < q_values.size(); i++) {`
`170`		`- result[i] = scaled_pi_values[i] / std::max((alpha - q_values[i]), EPSILON);`
`171`		`- result_sum += result[i];`
	`182`	`+ if (q_values[i] > MIN_FLOAT) {`
	`183`	`+ result[i] = scaled_pi_values[i] / std::max((alpha - q_values[i]), EPSILON);`
	`184`	`+ result_sum += result[i];`
	`185`	`+ }`
	`186`	`+ else {`
	`187`	`+ result[i] = MIN_FLOAT;`
	`188`	`+ }`
`172`	`189`	`}`
`173`	`190`	`for (size_t i = 0; i < q_values.size(); i++) {`
`174`		`- result[i] /= result_sum;`
	`191`	`+ if (result[i] > MIN_FLOAT)`
	`192`	`+ result[i] = result[i] / result_sum;`
	`193`	`+ else`
	`194`	`+ result[i] = MIN_FLOAT;`
`175`	`195`	`}`
`176`	`196`	`}`
`177`	`197`