Add a type-erased Vamana index (which only supports creation) (#286)

jparismorgan · web-flow · commit 7b5f96e31d76 · 2024-03-26T12:17:05.000+01:00
diff --git a/apis/python/src/tiledb/vector_search/__init__.py b/apis/python/src/tiledb/vector_search/__init__.py
@@ -35,6 +35,7 @@
     "Index",
     "FlatIndex",
     "IVFFlatIndex",
+    "VamanaIndex",
     "Mode",
     "load_as_array",
     "load_as_matrix",
diff --git a/apis/python/src/tiledb/vector_search/type_erased_module.cc b/apis/python/src/tiledb/vector_search/type_erased_module.cc
@@ -166,8 +166,11 @@ void init_type_erased_module(py::module_& m) {
 
   py::class_<FeatureVectorArray>(m, "FeatureVectorArray", py::buffer_protocol())
       .def(py::init<const tiledb::Context&, const std::string&>())
-      //      .def(py::init<size_t, size_t, const std::string&>())
-      //      .def(py::init<size_t, size_t void*, const std::string&>())
+      .def(py::init<
+           const tiledb::Context&,
+           const std::string&,
+           const std::string&>())
+      .def(py::init<size_t, size_t, const std::string&, const std::string&>())
       .def("dimension", &FeatureVectorArray::dimension)
       .def("num_vectors", &FeatureVectorArray::num_vectors)
       .def("feature_type", &FeatureVectorArray::feature_type)
@@ -277,6 +280,15 @@ void init_type_erased_module(py::module_& m) {
           py::arg("vectors"),
           py::arg("top_k"),
           py::arg("opt_l"))
+      .def(
+          "write_index",
+          [](IndexVamana& index,
+             const tiledb::Context& ctx,
+             const std::string& group_uri,
+             bool overwrite) { index.write_index(ctx, group_uri, overwrite); },
+          py::arg("ctx"),
+          py::arg("group_uri"),
+          py::arg_v("overwrite", true))
       .def("feature_type_string", &IndexVamana::feature_type_string)
       .def("id_type_string", &IndexVamana::id_type_string)
       .def(
diff --git a/apis/python/src/tiledb/vector_search/vamana_index.py b/apis/python/src/tiledb/vector_search/vamana_index.py
@@ -0,0 +1,119 @@
+import json
+import multiprocessing
+from typing import Any, Mapping
+
+import numpy as np
+from tiledb.cloud.dag import Mode
+
+from tiledb.vector_search import index
+from tiledb.vector_search.module import *
+from tiledb.vector_search.storage_formats import (STORAGE_VERSION,
+                                                  storage_formats,
+                                                  validate_storage_version)
+from tiledb.vector_search.utils import add_to_group
+from tiledb.vector_search import _tiledbvspy as vspy
+
+MAX_UINT64 = np.iinfo(np.dtype("uint64")).max
+INDEX_TYPE = "VAMANA"
+
+class VamanaIndex(index.Index):
+    """
+    Open a Vamana index
+
+    Parameters
+    ----------
+    uri: str
+        URI of the index
+    config: Optional[Mapping[str, Any]]
+        config dictionary, defaults to None
+    """
+
+    def __init__(
+        self,
+        uri: str,
+        config: Optional[Mapping[str, Any]] = None,
+        timestamp=None,
+        **kwargs,
+    ):
+        super().__init__(uri=uri, config=config, timestamp=timestamp)
+        self.index_type = INDEX_TYPE
+        self.index = vspy.IndexVamana(vspy.Ctx(config), uri)
+        self.db_uri = self.group[storage_formats[self.storage_version]["PARTS_ARRAY_NAME"]].uri
+        self.ids_uri = self.group[storage_formats[self.storage_version]["IDS_ARRAY_NAME"]].uri
+        
+        schema = tiledb.ArraySchema.load(self.db_uri, ctx=tiledb.Ctx(self.config))
+        self.dimensions = self.index.dimension()
+        
+        self.dtype = np.dtype(self.group.meta.get("dtype", None))
+        if self.dtype is None:
+            self.dtype = np.dtype(schema.attr("values").dtype)
+        else:
+            self.dtype = np.dtype(self.dtype)
+
+        if self.base_size == -1:
+            self.size = schema.domain.dim(1).domain[1] + 1
+        else:
+            self.size = self.base_size
+
+    def get_dimensions(self):
+        return self.dimensions
+
+    def query_internal(
+        self,
+        queries: np.ndarray,
+        k: int = 10,
+    ):
+        """
+        Query an VAMANA index
+
+        Parameters
+        ----------
+        queries: numpy.ndarray
+            ND Array of queries
+        k: int
+            Number of top results to return per query
+        """
+        if self.size == 0:
+            return np.full((queries.shape[0], k), index.MAX_FLOAT_32), np.full(
+                (queries.shape[0], k), index.MAX_UINT64
+            )
+
+        assert queries.dtype == np.float32
+
+        if queries.ndim == 1:
+            queries = np.array([queries])
+
+        # TODO(paris): Actually run the query.
+        return [], []
+
+# TODO(paris): Pass more arguments to C++, i.e. storage_version.
+def create(
+    uri: str,
+    dimensions: int,
+    vector_type: np.dtype,
+    id_type: np.dtype = np.uint32,
+    adjacency_row_index_type: np.dtype = np.uint32,
+    group_exists: bool = False,
+    config: Optional[Mapping[str, Any]] = None,
+    storage_version: str = STORAGE_VERSION,
+    **kwargs,
+) -> VamanaIndex:
+      if not group_exists:
+        ctx = vspy.Ctx(config)
+        index = vspy.IndexVamana(
+            feature_type=np.dtype(vector_type).name, 
+            id_type=np.dtype(id_type).name, 
+            adjacency_row_index_type=np.dtype(adjacency_row_index_type).name, 
+            dimension=dimensions,
+        )
+        # TODO(paris): Run all of this with a single C++ call.
+        empty_vector = vspy.FeatureVectorArray(
+            dimensions, 
+            0, 
+            np.dtype(vector_type).name, 
+            np.dtype(id_type).name
+            )
+        index.train(empty_vector)
+        index.add(empty_vector)
+        index.write_index(ctx, uri)
+      return VamanaIndex(uri=uri, config=config, memory_budget=1000000)
diff --git a/apis/python/test/test_index.py b/apis/python/test/test_index.py
@@ -8,11 +8,13 @@
 from tiledb.vector_search import Index
 from tiledb.vector_search import flat_index
 from tiledb.vector_search import ivf_flat_index
+from tiledb.vector_search import vamana_index
 from tiledb.vector_search.index import create_metadata
 from tiledb.vector_search.index import DATASET_TYPE
 from tiledb.vector_search.flat_index import FlatIndex
 from tiledb.vector_search.ingestion import ingest
 from tiledb.vector_search.ivf_flat_index import IVFFlatIndex
+from tiledb.vector_search.vamana_index import VamanaIndex
 from tiledb.vector_search.utils import load_fvecs
 
 
@@ -159,6 +161,30 @@ def test_ivf_flat_index(tmp_path):
         index, np.array([[2, 2, 2]], dtype=np.float32), 3, {0, 2, 4}, nprobe=partitions
     )
 
+def test_vamana_index(tmp_path):
+    uri = os.path.join(tmp_path, "array")
+    dimensions = 3
+    vector_type = np.dtype(np.uint8)
+
+    # Create the index.
+    index = vamana_index.create(uri=uri, dimensions=dimensions, vector_type=vector_type, id_type=np.dtype(np.uint32))
+    assert index.get_dimensions() == dimensions
+    query_and_check(
+        index,
+        np.array([[2, 2, 2]], dtype=np.float32),
+        3,
+        {ind.MAX_UINT64}
+    )
+
+    # Open the index.
+    index = VamanaIndex(uri=uri)
+    assert index.get_dimensions() == dimensions
+    query_and_check(
+        index,
+        np.array([[2, 2, 2]], dtype=np.float32),
+        3,
+        {ind.MAX_UINT64}
+    )
 
 def test_delete_invalid_index(tmp_path):
     # We don't throw with an invalid uri.
@@ -179,7 +205,7 @@ def test_delete_index(tmp_path):
 
 
 def test_index_with_incorrect_dimensions(tmp_path):
-    indexes = [flat_index, ivf_flat_index]
+    indexes = [flat_index, ivf_flat_index, vamana_index]
     for index_type in indexes:
         uri = os.path.join(tmp_path, f"array_{index_type.__name__}")
         index = index_type.create(uri=uri, dimensions=3, vector_type=np.dtype(np.uint8))
diff --git a/src/include/detail/linalg/tdb_io.h b/src/include/detail/linalg/tdb_io.h
@@ -212,6 +212,10 @@ void write_matrix(
     create_matrix<T, LayoutPolicy, I>(ctx, A, uri);
   }
 
+  if (A.num_rows() == 0 || A.num_cols() == 0) {
+    return;
+  }
+
   std::vector<int32_t> subarray_vals{
       0,
       (int)A.num_rows() - 1,
@@ -324,6 +328,11 @@ void write_vector(
   if (create) {
     create_vector(ctx, v, uri);
   }
+
+  if (size(v) == 0) {
+    return;
+  }
+
   // Set the subarray to write into
   std::vector<int32_t> subarray_vals{
       (int)start_pos, (int)start_pos + (int)size(v) - 1};
diff --git a/src/include/index/index_defs.h b/src/include/index/index_defs.h
@@ -49,23 +49,11 @@
 enum class IndexKind {
   FlatL2,
   IVFFlat,
-  FlatPQ,
-  IVFPQ,
   Vamana,
-  VamanaPQ,
-  NNDescent,
-  Last
 };
 
 [[maybe_unused]] static std::vector<std::string> index_kind_strings{
-    "FlatL2",
-    "IVFFlat",
-    "FlatPQ",
-    "IVFPQ",
-    "Vamana",
-    "VamanaPQ",
-    "NNDescent",
-    "Last"};
+    "FLAT", "IVF_FLAT", "VAMANA"};
 
 [[maybe_unused]] static inline auto str(IndexKind kind) {
   return index_kind_strings[static_cast<int>(kind)];
diff --git a/src/include/index/index_metadata.h b/src/include/index/index_metadata.h
@@ -33,7 +33,7 @@
  *  "base_sizes",            // (json) list
  *  "dataset_type",          // "vector_search"
  *  "dtype",                 // "float32", etc (Python dtype names)
- *  "index_type",            // "FLAT", "IVF_FLAT", "Vamana"
+ *  "index_type",            // "FLAT", "IVF_FLAT", "VAMANA"
  *  "ingestion_timestamps",  // (json) list
  *  "storage_version",       // "0.3"
  *  "temp_size",             // TILEDB_INT64 or TILEDB_FLOAT64
diff --git a/src/include/index/vamana_group.h b/src/include/index/vamana_group.h
@@ -48,7 +48,6 @@
 [[maybe_unused]] static StorageFormat vamana_storage_formats = {
     {"0.3",
      {
-         {"feature_vectors_array_name", "feature_vectors"},
          {"adjacency_scores_array_name", "adjacency_scores"},
          {"adjacency_ids_array_name", "adjacency_ids"},
          {"adjacency_row_index_array_name", "adjacency_row_index"},
@@ -169,7 +168,10 @@ class vamana_index_group : public base_index_group<vamana_index_group<Index>> {
   }
 
   [[nodiscard]] auto feature_vectors_uri() const {
-    return this->array_key_to_uri("feature_vectors_array_name");
+    return this->array_key_to_uri("parts_array_name");
+  }
+  [[nodiscard]] auto feature_vector_ids_uri() const {
+    return this->array_key_to_uri("ids_array_name");
   }
   [[nodiscard]] auto adjacency_scores_uri() const {
     return this->array_key_to_uri("adjacency_scores_array_name");
@@ -181,7 +183,10 @@ class vamana_index_group : public base_index_group<vamana_index_group<Index>> {
     return this->array_key_to_uri("adjacency_row_index_array_name");
   }
   [[nodiscard]] auto feature_vectors_array_name() const {
-    return this->array_key_to_array_name("feature_vectors_array_name");
+    return this->array_key_to_array_name("parts_array_name");
+  }
+  [[nodiscard]] auto feature_vector_ids_name() const {
+    return this->array_key_to_array_name("ids_array_name");
   }
   [[nodiscard]] auto adjacency_scores_array_name() const {
     return this->array_key_to_array_name("adjacency_scores_array_name");
@@ -248,8 +253,9 @@ class vamana_index_group : public base_index_group<vamana_index_group<Index>> {
     metadata_.dimension_ = this->get_dimension();
 
     /**
-     * Create the arrays: feature_vectors (matrix), adjacency_scores (vector),
-     * adjacency_ids (vector), adjacency_row_index (vector).
+     * Create the arrays: feature_vectors (matrix), feature_vectors_ids
+     * (vector), adjacency_scores (vector), adjacency_ids (vector),
+     * adjacency_row_index (vector).
      */
     create_empty_for_matrix<
         typename index_type::feature_type,
@@ -264,6 +270,15 @@ class vamana_index_group : public base_index_group<vamana_index_group<Index>> {
     write_group.add_member(
         feature_vectors_array_name(), true, feature_vectors_array_name());
 
+    create_empty_for_vector<typename index_type::id_type>(
+        cached_ctx_,
+        feature_vector_ids_uri(),
+        default_domain,
+        tile_size,
+        default_compression);
+    write_group.add_member(
+        feature_vector_ids_name(), true, feature_vector_ids_name());
+
     create_empty_for_vector<typename index_type::score_type>(
         cached_ctx_,
         adjacency_scores_uri(),
diff --git a/src/include/index/vamana_index.h b/src/include/index/vamana_index.h
diff --git a/src/include/index/vamana_metadata.h b/src/include/index/vamana_metadata.h
diff --git a/src/include/test/unit_vamana_metadata.cc b/src/include/test/unit_vamana_metadata.cc