Prefer some vector models to others (#2263)

computermacgyver · caiosba · caiosba · commit f26e1776a351 · 2025-04-07T10:00:01.000-03:00
Some vector models are better than others! 😅

We currently have a heuristic that any vector model is better than Elasticsearch. The intention of this PR is to extend that to also prefer some vector models to others. In particular, OpenAI &gt; Paraphrase &gt; (default) &gt; Elasticsearch.

References: CV2-6265.

---------

Co-authored-by: computermacgyver &lt;computermacgyver&gt;
Co-authored-by: Caio &lt;117518+caiosba@users.noreply.github.com&gt;
diff --git a/app/models/bot/alegre.rb b/app/models/bot/alegre.rb
@@ -17,6 +17,16 @@ class Error < ::StandardError
   OPENAI_ADA_MODEL = 'openai-text-embedding-ada-002'
   PARAPHRASE_MULTILINGUAL_MODEL = 'paraphrase-multilingual-mpnet-base-v2'
   ELASTICSEARCH_MODEL = 'elasticsearch'
+
+  TEXT_MODEL_RANKS = { # Higher is better
+    Bot::Alegre::OPENAI_ADA_MODEL => 3,
+    Bot::Alegre::PARAPHRASE_MULTILINGUAL_MODEL => 2,
+    Bot::Alegre::FILIPINO_MODEL => 2,
+    Bot::Alegre::MEAN_TOKENS_MODEL => 1,
+    Bot::Alegre::INDIAN_MODEL => 1,
+    Bot::Alegre::ELASTICSEARCH_MODEL => 0
+  }
+
   DEFAULT_ES_SCORE = 10
 
   REPORT_TEXT_SIMILARITY_FIELDS = ['report_text_title', 'report_text_content', 'report_visual_card_title', 'report_visual_card_content']
@@ -173,7 +183,6 @@ def self.run(body)
     handled
   end
 
-
   def self.get_number_of_words(text)
     # Get the number of space-separated words (Does not work with Chinese/Japanese)
     space_separted_words = text.to_s.gsub(/[^\p{L}\s]/u, '').strip.chomp.split(/\s+/).size
@@ -504,11 +513,34 @@ def self.build_context(team_id, fields = nil)
   end
 
   def self.return_prioritized_matches(pm_id_scores)
+    # Examples for "pm_id_scores":
+    # pm_id_scores = [ # Array
+    #   { score: 0.75, context: { 'team_id' => 1, 'project_media_id' => 2, 'has_custom_id' => true, 'field' => 'original_title', 'temporary_media' => false }, model: Bot::Alegre::OPENAI_ADA_MODEL },
+    #   { score: 0.85, context: { 'team_id' => 1, 'project_media_id' => 3, 'has_custom_id' => true, 'field' => 'original_title', 'temporary_media' => false }, model: Bot::Alegre::MEAN_TOKENS_MODEL }
+    # ]
+    # pm_id_scores = { # Hash
+    #   2 => {
+    #     score: 0.75,
+    #     context: { 'has_custom_id' => true, 'field' => 'original_description', 'project_media_id' => 2, 'temporary_media' => false, 'team_id' => 1 },
+    #     model: Bot::Alegre::OPENAI_ADA_MODEL,
+    #     source_field: 'original_description',
+    #     target_field: 'original_description',
+    #     relationship_type: { source: 'confirmed_sibling', target: 'confirmed_sibling' }
+    #   },
+    #   3 => {
+    #     score: 0.85,
+    #     context: { 'has_custom_id' => true, 'field' => 'original_description', 'project_media_id' => 3, 'temporary_media' => false, 'team_id' => 1 },
+    #     model: Bot::Alegre::MEAN_TOKENS_MODEL,
+    #     source_field: 'original_description',
+    #     target_field: 'original_description',
+    #     relationship_type: { source: 'confirmed_sibling', target: 'confirmed_sibling' }
+    #   }
+    # }
     if pm_id_scores.is_a?(Hash)
-      # make K negative so that we bias towards older IDs
-      pm_id_scores.sort_by{|k,v| [Bot::Alegre::ELASTICSEARCH_MODEL != v[:model] ? 1 : 0, v[:score], -k]}.reverse
+      # Make K negative so that we bias towards older IDs
+      pm_id_scores.sort_by{ |k,v| [Bot::Alegre::TEXT_MODEL_RANKS.fetch(v[:model], 1), v[:score], -k] }.reverse
     elsif pm_id_scores.is_a?(Array)
-      pm_id_scores.sort_by{|v| [Bot::Alegre::ELASTICSEARCH_MODEL != v[:model] ? 1 : 0, v[:score]]}.reverse
+      pm_id_scores.sort_by{ |v| [Bot::Alegre::TEXT_MODEL_RANKS.fetch(v[:model], 1), v[:score]] }.reverse
     else
       Rails.logger.error("[Alegre Bot] Unknown variable type in return_prioritized_matches: ##{pm_id_scores.class}")
       pm_id_scores
diff --git a/app/models/concerns/smooch_search.rb b/app/models/concerns/smooch_search.rb
@@ -103,7 +103,20 @@ def reject_temporary_results(results)
     end
 
     def parse_search_results_from_alegre(results, limit, published_only, after = nil, feed_id = nil, team_ids = nil)
-      pms = reject_temporary_results(results).sort_by{ |a| [a[1][:model] != Bot::Alegre::ELASTICSEARCH_MODEL ? 1 : 0, a[1][:score]] }.to_h.keys.reverse.collect{ |id| Relationship.confirmed_parent(ProjectMedia.find_by_id(id)) }
+      # Example for "results":
+      # results = {
+      #   2 => {
+      #     score: 0.75,
+      #     context: { 'team_id' => 1, 'project_media_id' => 2, 'has_custom_id' => true, 'field' => 'claim_description_content|report_visual_card_title', 'temporary_media' => false, 'contexts_count' => 14 },
+      #     model: Bot::Alegre::FILIPINO_MODEL
+      #   },
+      #   3 => {
+      #     score: 0.85,
+      #     context: { 'team_id' => 1, 'project_media_id' => 2, 'has_custom_id' => true, 'field' => 'claim_description_content|report_visual_card_title', 'temporary_media' => false, 'contexts_count' => 4 },
+      #     model: Bot::Alegre::MEAN_TOKENS_MODEL
+      #   }
+      # }
+      pms = Bot::Alegre.return_prioritized_matches(reject_temporary_results(results)).to_h.keys.collect { |id| Relationship.confirmed_parent(ProjectMedia.find_by_id(id)) }
       filter_search_results(pms, after, feed_id, team_ids, published_only).uniq(&:id).first(limit)
     end
 
diff --git a/app/models/explainer.rb b/app/models/explainer.rb
@@ -106,6 +106,33 @@ def self.update_paragraphs_in_alegre(id, previous_paragraphs_count, timestamp)
     end
   end
 
+  def self.sort_similarity_search_results(response)
+    # Example for "response":
+    # response = {
+    #   'result' => [
+    #     {
+    #       'content_hash' => 'abc123',
+    #       'doc_id' => 'xyz321',
+    #       'context' => { 'type' => 'explainer', 'team_id' => 1, 'language' => 'en', 'explainer_id' => 2, 'paragraph' => 1 },
+    #       'models' => [Bot::Alegre::FILIPINO_MODEL],
+    #       'suppress_search_response' => true,
+    #       'content' => 'Foo',
+    #       'created_at' => '2025-04-05T01:59:08.010665',
+    #       'language' => nil,
+    #       'suppress_response' => false,
+    #       'contexts' => [{ 'type' => 'explainer', 'team_id' => 1, 'language' => 'en', 'explainer_id' => 3, 'paragraph' => 1 }],
+    #       'model' => Bot::Alegre::FILIPINO_MODEL,
+    #       '_id' => 'qwe789',
+    #       'id' => 'qwe789',
+    #       'index' => 'alegre_similarity',
+    #       '_score' => 0.75,
+    #       'score' => 0.75
+    #     }
+    #   ]
+    # }
+    Bot::Alegre.return_prioritized_matches(response['result'].to_a.map(&:with_indifferent_access))
+  end
+
   def self.search_by_similarity(text, language, team_id, limit, custom_threshold = nil)
     models_thresholds = Explainer.get_alegre_models_and_thresholds(team_id)
     models_thresholds.each { |model, _threshold| models_thresholds[model] = custom_threshold } unless custom_threshold.blank?
@@ -121,7 +148,7 @@ def self.search_by_similarity(text, language, team_id, limit, custom_threshold =
       context: context
     }
     response = Bot::Alegre.query_sync_with_params(params, 'text')
-    results = response['result'].to_a.sort_by{ |result| [result['model'] != Bot::Alegre::ELASTICSEARCH_MODEL ? 1 : 0, result['_score']] }.reverse
+    results = Explainer.sort_similarity_search_results(response)
     explainer_ids = results.collect{ |result| result.dig('context', 'explainer_id').to_i }.uniq.first(limit)
     explainer_ids.empty? ? Explainer.none : Explainer.where(team_id: team_id, id: explainer_ids)
   end
diff --git a/test/models/bot/alegre_5_test.rb b/test/models/bot/alegre_5_test.rb
@@ -0,0 +1,121 @@
+require_relative '../../test_helper'
+
+class Bot::Alegre5Test < ActiveSupport::TestCase
+  def setup
+    @team = create_team
+    @pm1 = create_project_media team: @team
+    @pm2 = create_project_media team: @team
+    @ex1 = create_explainer team: @team
+    @ex2 = create_explainer team: @team
+  end
+
+  def teardown
+  end
+
+  test "should rank results based on vector models rank when prioritizing matches" do
+    pm_id_scores_array = [
+      { score: 0.75, context: { 'team_id' => @team.id, 'project_media_id' => @pm1.id, 'has_custom_id' => true, 'field' => 'original_title', 'temporary_media' => false }, model: Bot::Alegre::FILIPINO_MODEL },
+      { score: 0.85, context: { 'team_id' => @team.id, 'project_media_id' => @pm2.id, 'has_custom_id' => true, 'field' => 'original_title', 'temporary_media' => false }, model: Bot::Alegre::MEAN_TOKENS_MODEL }
+    ]
+    pm_id_scores_hash = {
+      @pm1.id => {
+        score: 0.75,
+        context: { 'has_custom_id' => true, 'field' => 'original_description', 'project_media_id' => @pm1.id, 'temporary_media' => false, 'team_id' => @team.id },
+        model: Bot::Alegre::FILIPINO_MODEL,
+        source_field: 'original_description',
+        target_field: 'original_description',
+        relationship_type: { source: 'confirmed_sibling', target: 'confirmed_sibling' }
+      },
+      @pm2.id => {
+        score: 0.85,
+        context: { 'has_custom_id' => true, 'field' => 'original_description', 'project_media_id' => @pm2.id, 'temporary_media' => false, 'team_id' => @team.id },
+        model: Bot::Alegre::MEAN_TOKENS_MODEL,
+        source_field: 'original_description',
+        target_field: 'original_description',
+        relationship_type: { source: 'confirmed_sibling', target: 'confirmed_sibling' }
+      }
+    }
+
+    assert_equal @pm1.id, Bot::Alegre.return_prioritized_matches(pm_id_scores_hash).first.first
+    assert_equal @pm1.id, Bot::Alegre.return_prioritized_matches(pm_id_scores_array).first.dig(:context, 'project_media_id')
+    assert_equal @pm1.id, Bot::Alegre.return_prioritized_matches(pm_id_scores_array.reverse).first.dig(:context, 'project_media_id')
+
+    pm_id_scores_hash[@pm2.id][:model] = Bot::Alegre::OPENAI_ADA_MODEL
+    pm_id_scores_array[1][:model] = Bot::Alegre::OPENAI_ADA_MODEL
+
+    assert_equal @pm2.id, Bot::Alegre.return_prioritized_matches(pm_id_scores_hash).first.first
+    assert_equal @pm2.id, Bot::Alegre.return_prioritized_matches(pm_id_scores_array).first.dig(:context, 'project_media_id')
+    assert_equal @pm2.id, Bot::Alegre.return_prioritized_matches(pm_id_scores_array.reverse).first.dig(:context, 'project_media_id')
+  end
+
+  test "should rank results based on vector models rank when parsing fact-check search results" do
+    results = {
+      @pm1.id => {
+        score: 0.75,
+        context: { 'team_id' => @team.id, 'project_media_id' => @pm1.id, 'has_custom_id' => true, 'field' => 'claim_description_content|report_visual_card_title', 'temporary_media' => false, 'contexts_count' => 14 },
+        model: Bot::Alegre::FILIPINO_MODEL
+      },
+      @pm2.id => {
+        score: 0.85,
+        context: { 'team_id' => @team.id, 'project_media_id' => @pm2.id, 'has_custom_id' => true, 'field' => 'claim_description_content|report_visual_card_title', 'temporary_media' => false, 'contexts_count' => 4 },
+        model: Bot::Alegre::MEAN_TOKENS_MODEL
+      }
+    }
+
+    assert_equal @pm1.id, Bot::Smooch.parse_search_results_from_alegre(results, 10, false).first.id
+
+    results[@pm2.id][:model] = Bot::Alegre::OPENAI_ADA_MODEL
+
+    assert_equal @pm2.id, Bot::Smooch.parse_search_results_from_alegre(results, 10, false).first.id
+  end
+
+  test "should rank results based on vector models rank when parsing explainer search results" do
+    response = {
+      'result' => [
+        {
+          'content_hash' => 'abc123',
+          'doc_id' => 'xyz321',
+          'context' => { 'type' => 'explainer', 'team_id' => @team.id, 'language' => 'en', 'explainer_id' => @ex1.id, 'paragraph' => 1 },
+          'models' => [Bot::Alegre::FILIPINO_MODEL],
+          'suppress_search_response' => true,
+          'content' => 'Foo',
+          'created_at' => '2025-04-05T01:59:08.010665',
+          'language' => nil,
+          'suppress_response' => false,
+          'contexts' => [{ 'type' => 'explainer', 'team_id' => @team.id, 'language' => 'en', 'explainer_id' => @ex1.id, 'paragraph' => 1 }],
+          'model' => Bot::Alegre::FILIPINO_MODEL,
+          '_id' => 'qwe789',
+          'id' => 'qwe789',
+          'index' => 'alegre_similarity',
+          '_score' => 0.75,
+          'score' => 0.75
+        },
+        {
+          'content_hash' => 'abc456',
+          'doc_id' => 'xyz654',
+          'context' => { 'type' => 'explainer', 'team_id' => @team.id, 'language' => 'en', 'explainer_id' => @ex2.id, 'paragraph' => 1 },
+          'models' => [Bot::Alegre::MEAN_TOKENS_MODEL],
+          'suppress_search_response' => true,
+          'content' => 'Foo',
+          'created_at' => '2025-04-04T01:59:08.010665',
+          'language' => nil,
+          'suppress_response' => false,
+          'contexts' => [{ 'type' => 'explainer', 'team_id' => @team.id, 'language' => 'en', 'explainer_id' => @ex2.id, 'paragraph' => 1 }],
+          'model' => Bot::Alegre::MEAN_TOKENS_MODEL,
+          '_id' => 'qwe987',
+          'id' => 'qwe987',
+          'index' => 'alegre_similarity',
+          '_score' => 0.85,
+          'score' => 0.85
+        }
+      ]
+    }
+
+    assert_equal @ex1.id, Explainer.sort_similarity_search_results(response).first.dig('context', 'explainer_id')
+
+    response['result'][1]['model'] = Bot::Alegre::OPENAI_ADA_MODEL
+    response['result'][1]['models'] = [Bot::Alegre::OPENAI_ADA_MODEL]
+
+    assert_equal @ex2.id, Explainer.sort_similarity_search_results(response).first.dig('context', 'explainer_id')
+  end
+end