KDTree: api extended (#211)

gyrdym · web-flow · commit a2fe388dc277 · 2022-03-31T00:20:00.000+03:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,5 +1,10 @@
 # Changelog
 
+## 16.6.3
+- KDTree:
+    - `fromIterable` constructor added
+    - `splitStrategy` option added to all constructors
+
 ## 16.6.2
 - KDTree:
     - KDTree build optimization: split algorithm changed
diff --git a/benchmark/kd_tree/kd_tree_building.dart b/benchmark/kd_tree/kd_tree_building.dart
@@ -1,10 +1,8 @@
-// 0.8 sec (MacBook Air mid 2017)
-import 'dart:convert';
-import 'dart:io';
-
+// 0.5 sec (MacBook Air mid 2017)
 import 'package:benchmark_harness/benchmark_harness.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree.dart';
 import 'package:ml_dataframe/ml_dataframe.dart';
+import 'package:ml_linalg/matrix.dart';
 
 late DataFrame trainData;
 
@@ -24,11 +22,9 @@ class KDTreeBuildingBenchmark extends BenchmarkBase {
 }
 
 Future main() async {
-  final file = File('benchmark/data/sample_data.json');
-  final dataAsString = await file.readAsString();
-  final decoded = jsonDecode(dataAsString) as Map<String, dynamic>;
+  final points = Matrix.random(1000, 10, seed: 1, min: -5000, max: 5000);
 
-  trainData = DataFrame.fromJson(decoded);
+  trainData = DataFrame.fromMatrix(points);
 
   print(
       'Data dimension: ${trainData.rows.length}x${trainData.rows.first.length}');
diff --git a/benchmark/kd_tree/kd_tree_querying.dart b/benchmark/kd_tree/kd_tree_querying.dart
@@ -1,12 +1,9 @@
-// 0.03 sec (MacBook Air mid 2017)
-import 'dart:convert';
-import 'dart:io';
-
+// 0.1 sec (MacBook Air mid 2017)
 import 'package:benchmark_harness/benchmark_harness.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_impl.dart';
 import 'package:ml_dataframe/ml_dataframe.dart';
 import 'package:ml_linalg/linalg.dart';
-import 'package:ml_linalg/vector.dart';
 
 final k = 10;
 
@@ -30,12 +27,10 @@ class KDTreeQueryingBenchmark extends BenchmarkBase {
 }
 
 Future main() async {
-  final file = File('benchmark/data/sample_data.json');
-  final dataAsString = await file.readAsString();
-  final decodedPoints = jsonDecode(dataAsString) as Map<String, dynamic>;
+  final points = Matrix.random(20000, 10, seed: 1, min: -5000, max: 5000);
 
-  trainData = DataFrame.fromJson(decodedPoints);
-  tree = KDTree(trainData, leafSie: 1);
+  trainData = DataFrame.fromMatrix(points);
+  tree = KDTree(trainData, leafSize: 1);
   point = Vector.randomFilled(trainData.rows.first.length,
       seed: 10, min: -5000, max: 5000);
 
@@ -44,4 +39,7 @@ Future main() async {
   print('Number of neighbours: $k');
 
   KDTreeQueryingBenchmark.main();
+
+  print(
+      'Amount of search iterations: ${(tree as KDTreeImpl).searchIterationCount}');
 }
diff --git a/lib/ml_algo.dart b/lib/ml_algo.dart
@@ -13,3 +13,4 @@ export 'package:ml_algo/src/model_selection/split_data.dart';
 export 'package:ml_algo/src/regressor/knn_regressor/knn_regressor.dart';
 export 'package:ml_algo/src/regressor/linear_regressor/linear_regressor.dart';
 export 'package:ml_algo/src/retrieval/kd_tree/kd_tree.dart';
+export 'package:ml_algo/src/retrieval/kd_tree/kd_tree_split_strategy.dart';
diff --git a/lib/src/retrieval/kd_tree/helpers/create_kd_tree.dart b/lib/src/retrieval/kd_tree/helpers/create_kd_tree.dart
@@ -1,12 +1,14 @@
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_builder.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_constants.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_impl.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_split_strategy.dart';
 import 'package:ml_dataframe/ml_dataframe.dart';
 import 'package:ml_linalg/dtype.dart';
 
-KDTreeImpl createKDTree(DataFrame pointsSrc, int leafSize, DType dtype) {
+KDTreeImpl createKDTree(DataFrame pointsSrc, int leafSize, DType dtype,
+    KDTreeSplitStrategy splitStrategy) {
   final points = pointsSrc.toMatrix(dtype);
-  final builder = KDTreeBuilder(leafSize, points);
+  final builder = KDTreeBuilder(leafSize, points, splitStrategy);
   final root = builder.train();
 
   return KDTreeImpl(points, leafSize, root, dtype, kdTreeJsonSchemaVersion);
diff --git a/lib/src/retrieval/kd_tree/helpers/create_kd_tree_from_iterable.dart b/lib/src/retrieval/kd_tree/helpers/create_kd_tree_from_iterable.dart
@@ -0,0 +1,19 @@
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_builder.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_constants.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_impl.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_split_strategy.dart';
+import 'package:ml_linalg/dtype.dart';
+import 'package:ml_linalg/matrix.dart';
+
+KDTreeImpl createKDTreeFromIterable(Iterable<Iterable<num>> pointsSrc,
+    int leafSize, DType dtype, KDTreeSplitStrategy splitStrategy) {
+  final points = Matrix.fromList(
+      pointsSrc
+          .map((row) => row.map((element) => element.toDouble()).toList())
+          .toList(),
+      dtype: dtype);
+  final builder = KDTreeBuilder(leafSize, points, splitStrategy);
+  final root = builder.train();
+
+  return KDTreeImpl(points, leafSize, root, dtype, kdTreeJsonSchemaVersion);
+}
diff --git a/lib/src/retrieval/kd_tree/kd_tree.dart b/lib/src/retrieval/kd_tree/kd_tree.dart
@@ -1,19 +1,83 @@
 import 'package:ml_algo/src/common/serializable/serializable.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/helpers/create_kd_tree.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/helpers/create_kd_tree_from_iterable.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_impl.dart';
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_neighbour.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_split_strategy.dart';
 import 'package:ml_dataframe/ml_dataframe.dart';
 import 'package:ml_linalg/dtype.dart';
 import 'package:ml_linalg/matrix.dart';
 import 'package:ml_linalg/vector.dart';
 
-/// KD-tree - an algorithm that provides efficient data retrieval. It splits
-/// the whole searching space into partitions in binary tree form which means
+/// KD-tree - an algorithm that provides efficient data retrieval by splitting
+/// the whole searching space into partitions in form of binary tree which means
 /// that data querying on average will take O(log(n)) time
+///
+/// One can use this algorithm to perform KNN-search. It's recommended to use
+/// [KDTree] when the number of the input data columns is much less than the
+/// number of rows of the data - in this case, the search will be more efficient
 abstract class KDTree implements Serializable {
+  /// [points] Data points which will be used to build the tree.
+  ///
+  /// [leafSize] A number of points on a leaf node.
+  ///
+  /// The bigger the number, the less effective search is. If [leafSize] is
+  /// equal to the number of [points], a regular KNN-search will take place.
+  ///
+  /// Extremely small [leafSize] leads to ineffective memory usage since in
+  /// this case a lot of kd-tree nodes will be allocated
+  ///
+  /// [dtype] A data type which will be used to convert raw data from [points]
+  /// into internal numerical representation
+  ///
+  /// [splitStrategy] Describes how to choose a split dimension. Default value
+  /// is [KDTreeSplitStrategy.largestVariance]
+  ///
+  /// if [splitStrategy] is [KDTreeSplitStrategy.largestVariance], dimension with
+  /// the widest column (in terms of variance) will be chosen to split the data
+  ///
+  /// if [splitStrategy] is [KDTreeSplitStrategy.inOrder], dimension for data
+  /// splits will be chosen one by one in order
+  ///
+  /// [KDTreeSplitStrategy.largestVariance] provides more accurate KNN-search,
+  /// but this strategy takes much more time to build the tree than [KDTreeSplitStrategy.inOrder]
   factory KDTree(DataFrame points,
-          {int leafSie = 10, DType dtype = DType.float32}) =>
-      createKDTree(points, leafSie, dtype);
+          {int leafSize = 1,
+          DType dtype = DType.float32,
+          KDTreeSplitStrategy splitStrategy =
+              KDTreeSplitStrategy.largestVariance}) =>
+      createKDTree(points, leafSize, dtype, splitStrategy);
+
+  /// [pointsSrc] Data points which will be used to build the tree.
+  ///
+  /// [leafSize] A number of points on a leaf node.
+  ///
+  /// The bigger the number, the less effective search is. If [leafSize] is
+  /// equal to the number of [pointsSrc], a regular KNN-search will take place.
+  ///
+  /// Extremely small [leafSize] leads to ineffective memory usage since in
+  /// this case a lot of kd-tree nodes will be allocated
+  ///
+  /// [dtype] A data type which will be used to convert raw data from [points]
+  /// into internal numerical representation
+  ///
+  /// [splitStrategy] Describes how to choose a split dimension. Default value
+  /// is [KDTreeSplitStrategy.largestVariance]
+  ///
+  /// if [splitStrategy] is [KDTreeSplitStrategy.largestVariance], dimension with
+  /// the widest column (in terms of variance) will be chosen to split the data
+  ///
+  /// if [splitStrategy] is [KDTreeSplitStrategy.inOrder], dimension for data
+  /// splits will be chosen one by one in order
+  ///
+  /// [KDTreeSplitStrategy.largestVariance] provides more accurate KNN-search,
+  /// but this strategy takes much more time to build the tree than [KDTreeSplitStrategy.inOrder]
+  factory KDTree.fromIterable(Iterable<Iterable<num>> pointsSrc,
+          {int leafSize = 1,
+          DType dtype = DType.float32,
+          KDTreeSplitStrategy splitStrategy =
+              KDTreeSplitStrategy.largestVariance}) =>
+      createKDTreeFromIterable(pointsSrc, leafSize, dtype, splitStrategy);
 
   factory KDTree.fromJson(Map<String, dynamic> json) =>
       KDTreeImpl.fromJson(json);
@@ -30,7 +94,7 @@ abstract class KDTree implements Serializable {
   /// this case a lot of kd-tree nodes will be allocated
   int get leafSize;
 
-  /// Data type for [points] matrix
+  /// Data type for internal representation of [points]
   DType get dtype;
 
   /// Returns [k] nearest neighbours for [point]
diff --git a/lib/src/retrieval/kd_tree/kd_tree_builder.dart b/lib/src/retrieval/kd_tree/kd_tree_builder.dart
@@ -1,4 +1,5 @@
 import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_node.dart';
+import 'package:ml_algo/src/retrieval/kd_tree/kd_tree_split_strategy.dart';
 import 'package:ml_linalg/matrix.dart';
 
 class _Split {
@@ -10,17 +11,20 @@ class _Split {
 }
 
 class KDTreeBuilder {
-  KDTreeBuilder(this._leafSize, this._points);
+  KDTreeBuilder(this._leafSize, this._points, this._splitStrategy);
 
   final int _leafSize;
   final Matrix _points;
+  final KDTreeSplitStrategy _splitStrategy;
 
-  KDTreeNode train() => _train(_points.rowIndices.toList());
+  KDTreeNode train() => _train(_points.rowIndices.toList(), 0);
 
-  KDTreeNode _train(List<int> pointIndices) {
+  KDTreeNode _train(List<int> pointIndices, int splitDim) {
     final isLeaf = pointIndices.length <= _leafSize;
     final points = _points.sample(rowIndices: pointIndices);
-    final splitIdx = _getSplitIdx(points);
+    final splitIdx = _splitStrategy == KDTreeSplitStrategy.largestVariance
+        ? _getSplitIdx(points)
+        : splitDim % _points.columnsNum;
 
     if (isLeaf) {
       return KDTreeNode(splitIndex: splitIdx, pointIndices: pointIndices);
@@ -31,8 +35,8 @@ class KDTreeBuilder {
     return KDTreeNode(
       pointIndices: [split.midPoint],
       splitIndex: splitIdx,
-      left: _train(split.left),
-      right: _train(split.right),
+      left: _train(split.left, splitDim + 1),
+      right: _train(split.right, splitDim + 1),
     );
   }
 
diff --git a/lib/src/retrieval/kd_tree/kd_tree_split_strategy.dart b/lib/src/retrieval/kd_tree/kd_tree_split_strategy.dart
@@ -0,0 +1,4 @@
+enum KDTreeSplitStrategy {
+  largestVariance,
+  inOrder,
+}
diff --git a/pubspec.yaml b/pubspec.yaml
@@ -1,6 +1,6 @@
 name: ml_algo
 description: Machine learning algorithms, Machine learning models performance evaluation functionality
-version: 16.6.2
+version: 16.6.3
 homepage: https://github.com/gyrdym/ml_algo
 
 environment:
diff --git a/test/retrieval/kd_tree/kd_tree_test.dart b/test/retrieval/kd_tree/kd_tree_test.dart