Update FLAT migration notebook to use all-mpnet-base-v2 with 768 dimensions

Nitin Kanukolanu · Nitin Kanukolanu · commit fb32a5684b31 · 2025-10-17T14:43:57.000-04:00
- Change from all-MiniLM-L6-v2 (384 dims) to all-mpnet-base-v2 (768 dims)
- Update embedding model references throughout the notebook
- Update compression configuration description for 768 dimensions
- Maintain compatibility with existing schema structure
diff --git a/python-recipes/vector-search/07_flat_to_svs_vamana_migration.ipynb b/python-recipes/vector-search/07_flat_to_svs_vamana_migration.ipynb
@@ -25,7 +25,7 @@
     "\n",
     "- Redis Stack 8.2.0+ with RediSearch 2.8.10+\n",
     "- Existing vector index with substantial data (1000+ documents recommended)\n",
-    "- Vector embeddings (384 dimensions using sentence-transformers/all-MiniLM-L6-v2)"
+    "- Vector embeddings (768 dimensions using sentence-transformers/all-mpnet-base-v2)"
    ]
   },
   {
@@ -193,13 +193,13 @@
    ],
    "source": [
     "# Configuration for demonstration  \n",
-    "dims = 384  # sentence-transformers/all-MiniLM-L6-v2 - 384 dims\n",
+    "dims = 768  # sentence-transformers/all-mpnet-base-v2 - 768 dims\n",
     "\n",
     "num_docs = len(movies_data)  # Use actual dataset size\n",
     "\n",
     "print(\n",
     "    \"📊 Migration Assessment\",\n",
-    "    f\"Vector dimensions: {dims} (sentence-transformers/all-MiniLM-L6-v2)\",\n",
+    "    f\"Vector dimensions: {dims} (sentence-transformers/all-mpnet-base-v2)\",\n",
     "    f\"Dataset size: {num_docs} movie documents\",\n",
     "    \"Data includes: title, genre, rating, description\",\n",
     "    sep=\"\\n\"\n",
@@ -311,7 +311,7 @@
     "from sentence_transformers import SentenceTransformer\n",
     "\n",
     "print(\"🔄 Generating embeddings for movie descriptions...\")\n",
-    "embedding_model=\"sentence-transformers/all-MiniLM-L6-v2\"\n",
+    "embedding_model=\"sentence-transformers/all-mpnet-base-v2\"\n",
     "\n",
     "try:\n",
     "    # Try to use sentence-transformers for real embeddings\n",
@@ -413,7 +413,7 @@
     "**Lower-Dimensional Vectors (<1024 dims)**: Uses **LVQ compression** without dimensionality reduction. Memory priority uses LVQ4 (4 bits), speed uses LVQ4x8 (12 bits),\n",
     "balanced uses LVQ4x4 (8 bits). Achieves 60-87% memory savings.\n",
     "\n",
-    "**Our Configuration (384 dims)**: Will use **LVQ compression** as we're below the 1024 dimension threshold. This provides excellent compression without dimensionality reduction.\n",
+    "**Our Configuration (768 dims)**: Will use **LVQ compression** as we're below the 1024 dimension threshold. This provides excellent compression without dimensionality reduction.\n",
     "\n",
     "## Available Compression Types\n",
     "- **LVQ4/LVQ4x4/LVQ4x8**: 4/8/12 bits per dimension\n",