Adding random landmarking

Mohamed-Elyes Kanoun · Mohamed-Elyes Kanoun · commit e169ec500428 · 2025-07-24T11:40:10.000-04:00
diff --git a/graphtools/graphs.py b/graphtools/graphs.py
@@ -13,6 +13,8 @@
 from sklearn.neighbors import NearestNeighbors
 from sklearn.preprocessing import normalize
 from sklearn.utils.extmath import randomized_svd
+from sklearn.metrics.pairwise import euclidean_distances
+
 
 import numbers
 import numpy as np
@@ -487,7 +489,7 @@ class LandmarkGraph(DataGraph):
     >>> X_full = G.interpolate(X_landmark)
     """
 
-    def __init__(self, data, n_landmark=2000, n_svd=100, **kwargs):
+    def __init__(self, data, n_landmark=2000, n_svd=100, random_landmarking = False, **kwargs):
         """Initialize a landmark graph.
 
         Raises
@@ -506,6 +508,7 @@ def __init__(self, data, n_landmark=2000, n_svd=100, **kwargs):
                 "using kNNGraph or lower n_svd".format(n_svd, data.shape[0]),
                 RuntimeWarning,
             )
+        self.random_landmarking = random_landmarking
         self.n_landmark = n_landmark
         self.n_svd = n_svd
         super().__init__(data, **kwargs)
@@ -635,10 +638,8 @@ def _data_transitions(self):
     def build_landmark_op(self):
         """Build the landmark operator
 
-        Calculates spectral clusters on the kernel, and calculates transition
-        probabilities between cluster centers by using transition probabilities
-        between samples assigned to each cluster.
-        """
+        Sélectionne aléatoirement n_landmark points comme landmarks, puis assigne chaque point à son landmark le plus proche.
+                
         with _logger.log_task("landmark operator"):
             is_sparse = sparse.issparse(self.kernel)
             # spectral clustering
@@ -657,6 +658,43 @@ def build_landmark_op(self):
                     random_state=self.random_state,
                 )
                 self._clusters = kmeans.fit_predict(self.diff_op.dot(VT.T))
+            
+        """
+        if self.random_landmarking :
+            with _logger.log_task("landmark operator"):
+                is_sparse = sparse.issparse(self.kernel)
+                n_samples = self.data.shape[0]
+                rng = np.random.default_rng(self.random_state)
+                landmark_indices = rng.choice(n_samples, self.n_landmark, replace=False)
+                data = self.data if not hasattr(self, 'data_nu') else self.data_nu 
+                distances = cdist(data, data[landmark_indices], metric="euclidean")
+                if n_samples > 5000:   # sklearn.euclidean_distances is faster than cdist for big dataset 
+                    distances = euclidean_distances(data, data[landmark_indices])
+                else:
+                    distances = cdist(data, data[landmark_indices], metric="euclidean")
+                self._clusters = np.argmin(distances, axis=1)
+
+        else:
+            with _logger.log_task("landmark operator"):
+                is_sparse = sparse.issparse(self.kernel)
+                # spectral clustering
+                with _logger.log_task("SVD"):
+                    _, _, VT = randomized_svd(
+                        self.diff_aff,
+                        n_components=self.n_svd,
+                        random_state=self.random_state,
+                    )
+                with _logger.log_task("KMeans"):
+                    kmeans = MiniBatchKMeans(
+                        self.n_landmark,
+                        init_size=3 * self.n_landmark,
+                        n_init=1,
+                        batch_size=10000,
+                        random_state=self.random_state,
+                    )
+                    self._clusters = kmeans.fit_predict(self.diff_op.dot(VT.T))
+
+
 
             # transition matrices
             pmn = self._landmarks_to_data()