REFACTOR: A Simpler way of interacting with embeddings' tables.

romanrizzi · romanrizzi · commit 1e2936db780f · 2024-12-11T17:26:10.000-03:00
This change adds a new abstraction called `Schema`, which acts as a repository that supports the same DB features `VectorRepresentation::Base` has, with the exception that removes the need to have duplicated methods per embeddings table.

It is also a bit more flexible when performing a similarity search because you can pass it a block that gives you access to the builder, allowing you to add multiple joins/where conditions.
diff --git a/app/jobs/regular/digest_rag_upload.rb b/app/jobs/regular/digest_rag_upload.rb
@@ -18,9 +18,7 @@ def execute(args)
       target = target_type.constantize.find_by(id: target_id)
       return if !target
 
-      truncation = DiscourseAi::Embeddings::Strategies::Truncation.new
-      vector_rep =
-        DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(truncation)
+      vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
 
       tokenizer = vector_rep.tokenizer
       chunk_tokens = target.rag_chunk_tokens
diff --git a/app/jobs/regular/generate_embeddings.rb b/app/jobs/regular/generate_embeddings.rb
@@ -16,9 +16,7 @@ def execute(args)
       return if topic.private_message? && !SiteSetting.ai_embeddings_generate_for_pms
       return if post.raw.blank?
 
-      strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-      vector_rep =
-        DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+      vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
 
       vector_rep.generate_representation_from(target)
     end
diff --git a/app/jobs/regular/generate_rag_embeddings.rb b/app/jobs/regular/generate_rag_embeddings.rb
@@ -8,9 +8,7 @@ class GenerateRagEmbeddings < ::Jobs::Base
     def execute(args)
       return if (fragments = RagDocumentFragment.where(id: args[:fragment_ids].to_a)).empty?
 
-      truncation = DiscourseAi::Embeddings::Strategies::Truncation.new
-      vector_rep =
-        DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(truncation)
+      vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
 
       # generate_representation_from checks compares the digest value to make sure
       # the embedding is only generated once per fragment unless something changes.
diff --git a/app/jobs/scheduled/embeddings_backfill.rb b/app/jobs/scheduled/embeddings_backfill.rb
@@ -20,9 +20,7 @@ def execute(args)
 
       rebaked = 0
 
-      strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-      vector_rep =
-        DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+      vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
       table_name = vector_rep.topic_table_name
 
       topics =
@@ -41,7 +39,7 @@ def execute(args)
       relation = topics.where(<<~SQL).limit(limit - rebaked)
           #{table_name}.model_version < #{vector_rep.version}
           OR
-          #{table_name}.strategy_version < #{strategy.version}
+          #{table_name}.strategy_version < #{vector_rep.strategy_version}
         SQL
 
       rebaked += populate_topic_embeddings(vector_rep, relation)
diff --git a/app/models/rag_document_fragment.rb b/app/models/rag_document_fragment.rb
@@ -39,9 +39,7 @@ def update_target_uploads(target, upload_ids)
     end
 
     def indexing_status(persona, uploads)
-      truncation = DiscourseAi::Embeddings::Strategies::Truncation.new
-      vector_rep =
-        DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(truncation)
+      vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
 
       embeddings_table = vector_rep.rag_fragments_table_name
 
diff --git a/db/migrate/20240611170905_move_embeddings_to_single_table_per_type.rb b/db/migrate/20240611170905_move_embeddings_to_single_table_per_type.rb
@@ -147,9 +147,7 @@ def up
     SQL
 
     begin
-      strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-      vector_rep =
-        DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+      vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
     rescue StandardError => e
       Rails.logger.error("Failed to index embeddings: #{e}")
     end
diff --git a/lib/ai_bot/personas/persona.rb b/lib/ai_bot/personas/persona.rb
@@ -314,9 +314,7 @@ def rag_fragments_prompt(conversation_context, llm:, user:)
 
           return nil if !consolidated_question
 
-          strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-          vector_rep =
-            DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+          vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
           reranker = DiscourseAi::Inference::HuggingFaceTextEmbeddings
 
           interactions_vector = vector_rep.vector_from(consolidated_question)
diff --git a/lib/ai_bot/tool_runner.rb b/lib/ai_bot/tool_runner.rb
@@ -141,9 +141,7 @@ def rag_search(query, filenames: nil, limit: 10)
 
         return [] if upload_refs.empty?
 
-        strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-        vector_rep =
-          DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+        vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
         query_vector = vector_rep.vector_from(query)
         fragment_ids =
           vector_rep.asymmetric_rag_fragment_similarity_search(
diff --git a/lib/ai_helper/semantic_categorizer.rb b/lib/ai_helper/semantic_categorizer.rb
@@ -92,9 +92,7 @@ def tags
       private
 
       def nearest_neighbors(limit: 100)
-        strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-        vector_rep =
-          DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+        vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
 
         raw_vector = vector_rep.vector_from(@text)
 
diff --git a/lib/embeddings/schema.rb b/lib/embeddings/schema.rb
@@ -0,0 +1,182 @@
+# frozen_string_literal: true
+
+# We don't have AR objects for our embeddings, so this class
+# acts as an intermediary between us and the DB.
+# It lets us retrieve embeddings either symmetrically and asymmetrically,
+# and also store them.
+
+module DiscourseAi
+  module Embeddings
+    class Schema
+      TOPICS_TABLE = "ai_topic_embeddings"
+      POSTS_TABLE = "ai_post_embeddings"
+      RAG_DOCS_TABLE = "ai_document_fragment_embeddings"
+
+      def self.for(
+        target_klass,
+        vector: DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
+      )
+        case target_klass&.name
+        when "Topic"
+          new(TOPICS_TABLE, "topic_id", vector)
+        when "Post"
+          new(POSTS_TABLE, "post_id", vector)
+        when "RagDocumentFragment"
+          new(RAG_DOCS_TABLE, "rag_document_fragment_id", vector)
+        else
+          raise ArgumentError, "Invalid target type for embeddings"
+        end
+      end
+
+      def initialize(table, target_column, vector)
+        @table = table
+        @target_column = target_column
+        @vector = vector
+      end
+
+      attr_reader :table, :target_column, :vector
+
+      def find_by_embedding(embedding)
+        DB.query(<<~SQL, query_embedding: embedding, vid: vector.id, vsid: vector.strategy_id).first
+          SELECT *
+          FROM #{table}
+          WHERE
+            model_id = :vid AND strategy_id = :vsid
+          ORDER BY
+            embeddings::halfvec(#{dimensions}) #{pg_function} '[:query_embedding]'::halfvec(#{dimensions})
+          LIMIT 1
+        SQL
+      end
+
+      def find_by_target(target)
+        DB.query(<<~SQL, target_id: target.id, vid: vector.id, vsid: vector.strategy_id).first
+          SELECT *
+          FROM #{table}
+          WHERE
+            model_id = :vid AND
+            strategy_id = :vsid AND
+            #{target_column} = :target_id
+          LIMIT 1
+        SQL
+      end
+
+      def asymmetric_similarity_search(embedding, limit:, offset:)
+        builder = DB.build(<<~SQL)
+          WITH candidates AS (
+            SELECT
+              #{target_column},
+              embeddings::halfvec(#{dimensions}) AS embeddings
+            FROM
+              #{table}
+            /*join*/
+            /*where*/
+            ORDER BY
+              binary_quantize(embeddings)::bit(#{dimensions}) <~> binary_quantize('[:query_embedding]'::halfvec(#{dimensions}))
+            LIMIT :limit * 2
+          )
+          SELECT
+            #{target_column},
+            embeddings::halfvec(#{dimensions}) #{pg_function} '[:query_embedding]'::halfvec(#{dimensions}) AS distance
+          FROM
+            candidates
+          ORDER BY
+            embeddings::halfvec(#{dimensions}) #{pg_function} '[:query_embedding]'::halfvec(#{dimensions})
+          LIMIT :limit
+          OFFSET :offset
+        SQL
+
+        builder.where(
+          "model_id = :model_id AND strategy_id = :strategy_id",
+          model_id: vector.id,
+          strategy_id: vector.strategy_id,
+        )
+
+        yield(builder) if block_given?
+
+        builder.query(query_embedding: embedding, limit: limit, offset: offset)
+      rescue PG::Error => e
+        Rails.logger.error("Error #{e} querying embeddings for model #{name}")
+        raise MissingEmbeddingError
+      end
+
+      def symmetric_similarity_search(record)
+        builder = DB.build(<<~SQL)
+          WITH le_target AS (
+            SELECT
+              embeddings
+            FROM
+              #{table}
+            WHERE
+              model_id = :vid AND
+              strategy_id = :vsid AND
+              #{target_column} = :target_id
+            LIMIT 1
+          )
+          SELECT #{target_column} FROM (
+            SELECT
+              #{target_column}, embeddings
+            FROM
+              #{table}
+            /*join*/
+            /*where*/
+            ORDER BY
+              binary_quantize(embeddings)::bit(#{dimensions}) <~> (
+                SELECT
+                  binary_quantize(embeddings)::bit(#{dimensions})
+                FROM
+                  le_target
+                LIMIT 1
+              )
+            LIMIT 200
+          ) AS widenet
+          ORDER BY
+            embeddings::halfvec(#{dimensions}) #{pg_function} (
+              SELECT
+                embeddings::halfvec(#{dimensions})
+              FROM
+                le_target
+              LIMIT 1
+            )
+          LIMIT 100;
+        SQL
+
+        builder.where("model_id = :vid AND strategy_id = :vsid")
+
+        yield(builder) if block_given?
+
+        builder.query(vid: vector.id, vsid: vector.strategy_id, target_id: record.id)
+      rescue PG::Error => e
+        Rails.logger.error("Error #{e} querying embeddings for model #{name}")
+        raise MissingEmbeddingError
+      end
+
+      def store(record, embedding, digest)
+        DB.exec(
+          <<~SQL,
+          INSERT INTO #{table} (#{target_column}, model_id, model_version, strategy_id, strategy_version, digest, embeddings, created_at, updated_at)
+          VALUES (:target_id, :model_id, :model_version, :strategy_id, :strategy_version, :digest, '[:embeddings]', :now, :now)
+          ON CONFLICT (model_id, strategy_id, post_id)
+          DO UPDATE SET
+            model_version = :model_version,
+            strategy_version = :strategy_version,
+            digest = :digest,
+            embeddings = '[:embeddings]',
+            updated_at = :now
+          SQL
+          target_id: record.id,
+          model_id: vector.id,
+          model_version: vector.version,
+          strategy_id: vector.strategy_id,
+          strategy_version: vector.strategy_version,
+          digest: digest,
+          embeddings: embedding,
+          now: Time.zone.now,
+        )
+      end
+
+      private
+
+      delegate :dimensions, :pg_function, to: :vector
+    end
+  end
+end
diff --git a/lib/embeddings/semantic_related.rb b/lib/embeddings/semantic_related.rb
@@ -13,9 +13,7 @@ def self.clear_cache_for(topic)
       def related_topic_ids_for(topic)
         return [] if SiteSetting.ai_embeddings_semantic_related_topics < 1
 
-        strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-        vector_rep =
-          DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+        vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
         cache_for = results_ttl(topic)
 
         Discourse
diff --git a/lib/embeddings/semantic_search.rb b/lib/embeddings/semantic_search.rb
@@ -31,10 +31,7 @@ def cached_query?(query)
       end
 
       def vector_rep
-        @vector_rep ||=
-          DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(
-            DiscourseAi::Embeddings::Strategies::Truncation.new,
-          )
+        @vector_rep ||= DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
       end
 
       def hyde_embedding(search_term)
@@ -115,9 +112,7 @@ def quick_search(query)
 
         return [] if search_term.nil? || search_term.length < SiteSetting.min_search_term_length
 
-        strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
-        vector_rep =
-          DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+        vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
 
         digest = OpenSSL::Digest::SHA1.hexdigest(search_term)
 
diff --git a/lib/embeddings/vector_representations/base.rb b/lib/embeddings/vector_representations/base.rb
@@ -20,8 +20,9 @@ def find_representation(model_name)
             ].find { _1.name == model_name }
           end
 
-          def current_representation(strategy)
-            find_representation(SiteSetting.ai_embeddings_model).new(strategy)
+          def current_representation
+            truncation = DiscourseAi::Embeddings::Strategies::Truncation.new
+            find_representation(SiteSetting.ai_embeddings_model).new(truncation)
           end
 
           def correctly_configured?
@@ -390,6 +391,14 @@ def asymmetric_query_prefix
           raise NotImplementedError
         end
 
+        def strategy_id
+          @strategy.id
+        end
+
+        def strategy_version
+          @strategy.version
+        end
+
         protected
 
         def find_digest_of(target)
diff --git a/lib/tasks/modules/embeddings/database.rake b/lib/tasks/modules/embeddings/database.rake
@@ -4,15 +4,14 @@ desc "Backfill embeddings for all topics and posts"
 task "ai:embeddings:backfill", %i[model concurrency] => [:environment] do |_, args|
   public_categories = Category.where(read_restricted: false).pluck(:id)
 
-  strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
   if args[:model].present?
+    strategy = DiscourseAi::Embeddings::Strategies::Truncation.new
     vector_rep =
       DiscourseAi::Embeddings::VectorRepresentations::Base.find_representation(args[:model]).new(
         strategy,
       )
   else
-    vector_rep =
-      DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(strategy)
+    vector_rep = DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation
   end
   table_name = vector_rep.topic_table_name
 
diff --git a/spec/jobs/regular/digest_rag_upload_spec.rb b/spec/jobs/regular/digest_rag_upload_spec.rb
@@ -6,10 +6,7 @@
 
   let(:document_file) { StringIO.new("some text" * 200) }
 
-  let(:truncation) { DiscourseAi::Embeddings::Strategies::Truncation.new }
-  let(:vector_rep) do
-    DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(truncation)
-  end
+  let(:vector_rep) { DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation }
 
   let(:expected_embedding) { [0.0038493] * vector_rep.dimensions }
 
diff --git a/spec/jobs/regular/generate_rag_embeddings_spec.rb b/spec/jobs/regular/generate_rag_embeddings_spec.rb
@@ -2,10 +2,7 @@
 
 RSpec.describe Jobs::GenerateRagEmbeddings do
   describe "#execute" do
-    let(:truncation) { DiscourseAi::Embeddings::Strategies::Truncation.new }
-    let(:vector_rep) do
-      DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation(truncation)
-    end
+    let(:vector_rep) { DiscourseAi::Embeddings::VectorRepresentations::Base.current_representation }
 
     let(:expected_embedding) { [0.0038493] * vector_rep.dimensions }
 
diff --git a/spec/jobs/scheduled/embeddings_backfill_spec.rb b/spec/jobs/scheduled/embeddings_backfill_spec.rb
diff --git a/spec/lib/modules/ai_bot/personas/persona_spec.rb b/spec/lib/modules/ai_bot/personas/persona_spec.rb
diff --git a/spec/lib/modules/ai_helper/semantic_categorizer_spec.rb b/spec/lib/modules/ai_helper/semantic_categorizer_spec.rb
diff --git a/spec/lib/modules/embeddings/jobs/generate_embeddings_spec.rb b/spec/lib/modules/embeddings/jobs/generate_embeddings_spec.rb
diff --git a/spec/lib/modules/embeddings/schema_spec.rb b/spec/lib/modules/embeddings/schema_spec.rb
diff --git a/spec/lib/modules/embeddings/semantic_related_spec.rb b/spec/lib/modules/embeddings/semantic_related_spec.rb
diff --git a/spec/models/rag_document_fragment_spec.rb b/spec/models/rag_document_fragment_spec.rb
diff --git a/spec/requests/embeddings/embeddings_controller_spec.rb b/spec/requests/embeddings/embeddings_controller_spec.rb