[WIP] Initial implementation for AADCrossEntropyEvaluator

matwey · matwey · commit 2b74f34dc06e · 2025-08-06T10:21:13.000+02:00
diff --git a/src/coniferest/aadforest.py b/src/coniferest/aadforest.py
@@ -4,6 +4,7 @@
 
 import numpy as np
 from scipy.optimize import minimize
+from scipy.special import log_expit, expit
 
 from .calc_trees import calc_paths_sum, calc_paths_sum_transpose  # noqa
 from .coniferest import Coniferest, ConiferestEvaluator
@@ -31,6 +32,85 @@ def fit_known(self, data, known_data, known_labels):
         raise NotImplementedError()
 
 
+class AADCrossEntropyEvaluator(AADEvaluator):
+    def __init__(self, aad):
+        super(AADCrossEntropyEvaluator, self).__init__(aad)
+        self.weights = np.ones(shape=(self.n_leaves,))
+        self.bias = 0.0 # Not sure about 0.0
+
+    def score_samples(self, x, weights=None):
+        # Anomaly score is a probability of being REGULAR data.
+
+        if not x.flags["C_CONTIGUOUS"]:
+            x = np.ascontiguousarray(x)
+
+        if weights is None:
+            weights = self.weights
+
+        return expit(calc_paths_sum(
+            self.selectors,
+            self.node_offsets,
+            x,
+            weights,
+            num_threads=self.num_threads,
+            batch_size=self.get_batch_size(self.n_trees),
+        ) + self.bias)
+
+    def loss(
+        self,
+        weights,
+        known_data,
+        known_labels):
+
+        v = calc_paths_sum(
+            self.selectors,
+            self.node_offsets,
+            known_data,
+            weights[1:],
+            num_threads=self.num_threads,
+            batch_size=self.get_batch_size(self.n_trees),
+        ) + weights[0]
+
+        return -np.sum(log_expit(known_labels * v))
+
+    def loss_gradient(
+        self,
+        weights,
+        known_data,
+        known_labels):
+
+        v = calc_paths_sum(
+            self.selectors,
+            self.node_offsets,
+            known_data,
+            weights[1:],
+            num_threads=self.num_threads,
+            batch_size=self.get_batch_size(self.n_trees),
+        ) + weights[0]
+
+        dloss_dv = -known_labels * expit(-known_labels * v)
+        dloss_dbias = np.sum(dloss_dv)
+        dloss_dweights = calc_paths_sum_transpose(
+            self.selectors,
+            self.node_offsets,
+            self.leaf_offsets,
+            known_data,
+            dloss_dv,
+            num_threads=self.num_threads,
+            batch_size=self.get_batch_size(len(known_data)),
+        )
+
+        return np.concatenate([[dloss_dbias], dloss_dweights])
+
+    def loss_hessian(
+        self,
+        weights,
+        vector,
+        known_data,
+        known_labels):
+        pass
+        
+
 class AADHingeEvaluator(AADEvaluator):
     def __init__(self, aad):
         super(AADHingeEvaluator, self).__init__(aad)