discourse
diff --git a/‎app/models/embedding_definition.rb‎
Lines changed: 15 additions & 15 deletions b/‎app/models/embedding_definition.rb‎
Lines changed: 15 additions & 15 deletions
diff --git a/‎config/eval-llms.yml‎
Lines changed: 8 additions & 8 deletions b/‎config/eval-llms.yml‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎lib/automation/report_context_generator.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/automation/report_context_generator.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/dialects/fake.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/completions/dialects/fake.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/dialects/open_ai_compatible.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/completions/dialects/open_ai_compatible.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/endpoints/canned_response.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/completions/endpoints/canned_response.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/llm.rb‎
Lines changed: 7 additions & 7 deletions b/‎lib/completions/llm.rb‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎lib/sentiment/post_classification.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/sentiment/post_classification.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎plugin.rb‎
Lines changed: 1 addition & 1 deletion b/‎plugin.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎spec/fabricators/embedding_definition_fabricator.rb‎
Lines changed: 4 additions & 4 deletions b/‎spec/fabricators/embedding_definition_fabricator.rb‎
Lines changed: 4 additions & 4 deletions
@@ -17,14 +17,14 @@ def distance_functions
 
     def tokenizer_names
       [
-        DiscourseAi::Tokenizers::AllMpnetBaseV2Tokenizer,
-        DiscourseAi::Tokenizers::BgeLargeEnTokenizer,
-        DiscourseAi::Tokenizers::BgeM3Tokenizer,
-        DiscourseAi::Tokenizers::GeminiTokenizer,
-        DiscourseAi::Tokenizers::MultilingualE5LargeTokenizer,
-        DiscourseAi::Tokenizers::OpenAiTokenizer,
-        DiscourseAi::Tokenizers::MistralTokenizer,
-        DiscourseAi::Tokenizers::QwenTokenizer,
+        DiscourseAi::Tokenizer::AllMpnetBaseV2Tokenizer,
+        DiscourseAi::Tokenizer::BgeLargeEnTokenizer,
+        DiscourseAi::Tokenizer::BgeM3Tokenizer,
+        DiscourseAi::Tokenizer::GeminiTokenizer,
+        DiscourseAi::Tokenizer::MultilingualE5LargeTokenizer,
+        DiscourseAi::Tokenizer::OpenAiTokenizer,
+        DiscourseAi::Tokenizer::MistralTokenizer,
+        DiscourseAi::Tokenizer::QwenTokenizer,
       ].map(&:name)
     end
 
@@ -42,7 +42,7 @@ def presets
               dimensions: 1024,
               max_sequence_length: 512,
               pg_function: "<#>",
-              tokenizer_class: "DiscourseAi::Tokenizers::BgeLargeEnTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::BgeLargeEnTokenizer",
               provider: HUGGING_FACE,
               search_prompt: "Represent this sentence for searching relevant passages:",
             },
@@ -52,7 +52,7 @@ def presets
               dimensions: 1024,
               max_sequence_length: 8192,
               pg_function: "<#>",
-              tokenizer_class: "DiscourseAi::Tokenizers::BgeM3Tokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::BgeM3Tokenizer",
               provider: HUGGING_FACE,
             },
             {
@@ -63,7 +63,7 @@ def presets
               pg_function: "<=>",
               url:
                 "https://generativelanguage.googleapis.com/v1beta/models/embedding-001:embedContent",
-              tokenizer_class: "DiscourseAi::Tokenizers::GeminiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::GeminiTokenizer",
               provider: GOOGLE,
             },
             {
@@ -72,7 +72,7 @@ def presets
               dimensions: 1024,
               max_sequence_length: 512,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizers::MultilingualE5LargeTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::MultilingualE5LargeTokenizer",
               provider: HUGGING_FACE,
             },
             # "text-embedding-3-large" real dimentions are 3072, but we only support up to 2000 in the
@@ -83,7 +83,7 @@ def presets
               dimensions: 2000,
               max_sequence_length: 8191,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizers::OpenAiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::OpenAiTokenizer",
               url: "https://api.openai.com/v1/embeddings",
               provider: OPEN_AI,
               matryoshka_dimensions: true,
@@ -97,7 +97,7 @@ def presets
               dimensions: 1536,
               max_sequence_length: 8191,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizers::OpenAiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::OpenAiTokenizer",
               url: "https://api.openai.com/v1/embeddings",
               provider: OPEN_AI,
               matryoshka_dimensions: true,
@@ -111,7 +111,7 @@ def presets
               dimensions: 1536,
               max_sequence_length: 8191,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizers::OpenAiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizer::OpenAiTokenizer",
               url: "https://api.openai.com/v1/embeddings",
               provider: OPEN_AI,
               provider_params: {
 
@@ -2,7 +2,7 @@ llms:
   gpt-4o:
     display_name: GPT-4o
     name: gpt-4o
-    tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer
+    tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer
     api_key_env: OPENAI_API_KEY
     provider: open_ai
     url: https://api.openai.com/v1/chat/completions
@@ -12,7 +12,7 @@ llms:
   gpt-4o-mini:
     display_name: GPT-4o-mini
     name: gpt-4o-mini
-    tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer
+    tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer
     api_key_env: OPENAI_API_KEY
     provider: open_ai
     url: https://api.openai.com/v1/chat/completions
@@ -22,7 +22,7 @@ llms:
   claude-3.5-haiku:
     display_name: Claude 3.5 Haiku
     name: claude-3-5-haiku-latest
-    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -32,7 +32,7 @@ llms:
   claude-3.5-sonnet:
     display_name: Claude 3.5 Sonnet
     name: claude-3-5-sonnet-latest
-    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -42,7 +42,7 @@ llms:
   claude-3.7-sonnet:
     display_name: Claude 3.7 Sonnet
     name: claude-3-7-sonnet-latest
-    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -52,7 +52,7 @@ llms:
   claude-3.7-sonnet-thinking:
     display_name: Claude 3.7 Sonnet
     name: claude-3-7-sonnet-latest
-    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -67,7 +67,7 @@ llms:
   gemini-2.0-flash:
     display_name: Gemini 2.0 Flash
     name: gemini-2-0-flash
-    tokenizer: DiscourseAi::Tokenizers::GeminiTokenizer
+    tokenizer: DiscourseAi::Tokenizer::GeminiTokenizer
     api_key_env: GEMINI_API_KEY
     provider: google
     url: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash
@@ -77,7 +77,7 @@ llms:
   gemini-2.0-pro-exp:
     display_name: Gemini 2.0 pro
     name: gemini-2-0-pro-exp
-    tokenizer: DiscourseAi::Tokenizers::GeminiTokenizer
+    tokenizer: DiscourseAi::Tokenizer::GeminiTokenizer
     api_key_env: GEMINI_API_KEY
     provider: google
     url: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-pro-exp
 
@@ -26,7 +26,7 @@ def initialize(
         @tags = tags
         @allow_secure_categories = allow_secure_categories
         @max_posts = max_posts
-        @tokenizer = tokenizer || DiscourseAi::Tokenizers::OpenAiTokenizer
+        @tokenizer = tokenizer || DiscourseAi::Tokenizer::OpenAiTokenizer
         @tokens_per_post = tokens_per_post
         @prioritized_group_ids = prioritized_group_ids
 
 
@@ -11,7 +11,7 @@ def can_translate?(llm_model)
         end
 
         def tokenizer
-          DiscourseAi::Tokenizers::OpenAiTokenizer
+          DiscourseAi::Tokenizer::OpenAiTokenizer
         end
 
         def translate
 
@@ -12,7 +12,7 @@ def can_translate?(_llm_model)
         end
 
         def tokenizer
-          llm_model&.tokenizer_class || DiscourseAi::Tokenizers::Llama3Tokenizer
+          llm_model&.tokenizer_class || DiscourseAi::Tokenizer::Llama3Tokenizer
         end
 
         def tools
 
@@ -74,7 +74,7 @@ def perform_completion!(
         end
 
         def tokenizer
-          DiscourseAi::Tokenizers::OpenAiTokenizer
+          DiscourseAi::Tokenizer::OpenAiTokenizer
         end
 
         private
 
@@ -59,7 +59,7 @@ def presets
                       output_cost: 75,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer,
+                  tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer,
                   endpoint: "https://api.anthropic.com/v1/messages",
                   provider: "anthropic",
                 },
@@ -103,7 +103,7 @@ def presets
                       output_cost: 0.30,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizers::GeminiTokenizer,
+                  tokenizer: DiscourseAi::Tokenizer::GeminiTokenizer,
                   provider: "google",
                 },
                 {
@@ -150,7 +150,7 @@ def presets
                       output_cost: 0.40,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer,
+                  tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer,
                   endpoint: "https://api.openai.com/v1/chat/completions",
                   provider: "open_ai",
                 },
@@ -172,7 +172,7 @@ def presets
                       output_cost: 0.20,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizers::Llama3Tokenizer,
+                  tokenizer: DiscourseAi::Tokenizer::Llama3Tokenizer,
                   endpoint: "https://api.sambanova.ai/v1/chat/completions",
                   provider: "samba_nova",
                 },
@@ -190,7 +190,7 @@ def presets
                       display_name: "Pixtral Large",
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizers::MistralTokenizer,
+                  tokenizer: DiscourseAi::Tokenizer::MistralTokenizer,
                   endpoint: "https://api.mistral.ai/v1/chat/completions",
                   provider: "mistral",
                 },
@@ -217,7 +217,7 @@ def presets
                       output_cost: 0.25,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer,
+                  tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer,
                   endpoint: "https://openrouter.ai/api/v1/chat/completions",
                   provider: "open_router",
                 },
@@ -248,7 +248,7 @@ def provider_names
         end
 
         def tokenizer_names
-          DiscourseAi::Tokenizers::BasicTokenizer.available_llm_tokenizers.map(&:name)
+          DiscourseAi::Tokenizer::BasicTokenizer.available_llm_tokenizers.map(&:name)
         end
 
         def valid_provider_models
 
@@ -161,7 +161,7 @@ def prepare_text(target)
             target.raw
           end
 
-        DiscourseAi::Tokenizers::BertTokenizer.truncate(
+        DiscourseAi::Tokenizer::BertTokenizer.truncate(
           content,
           512,
           strict: SiteSetting.ai_strict_token_counting,
 
@@ -10,7 +10,7 @@
 
 gem "tokenizers", "0.5.4"
 gem "tiktoken_ruby", "0.0.11.1"
-gem "discourse_ai-tokenizers", "0.1.1", require_name: "discourse_ai/tokenizers"
+gem "discourse_ai-tokenizers", "0.1.2", require_name: "discourse_ai/tokenizers"
 gem "ed25519", "1.2.4" #TODO remove this as existing ssl gem should handle this
 
 # we probably want to move all dependencies directly in to the Discourse Gemfile, this
 
@@ -3,7 +3,7 @@
 Fabricator(:embedding_definition) do
   display_name "Multilingual E5 Large"
   provider "hugging_face"
-  tokenizer_class "DiscourseAi::Tokenizers::MultilingualE5LargeTokenizer"
+  tokenizer_class "DiscourseAi::Tokenizer::MultilingualE5LargeTokenizer"
   api_key "123"
   url "https://test.com/embeddings"
   provider_params nil
@@ -16,15 +16,15 @@
   display_name "BGE Large EN"
   provider "cloudflare"
   pg_function "<#>"
-  tokenizer_class "DiscourseAi::Tokenizers::BgeLargeEnTokenizer"
+  tokenizer_class "DiscourseAi::Tokenizer::BgeLargeEnTokenizer"
   provider_params nil
 end
 
 Fabricator(:open_ai_embedding_def, from: :embedding_definition) do
   display_name "ADA 002"
   provider "open_ai"
   url "https://api.openai.com/v1/embeddings"
-  tokenizer_class "DiscourseAi::Tokenizers::OpenAiTokenizer"
+  tokenizer_class "DiscourseAi::Tokenizer::OpenAiTokenizer"
   provider_params { { model_name: "text-embedding-ada-002" } }
   max_sequence_length 8191
   dimensions 1536
@@ -35,6 +35,6 @@
   provider "google"
   dimensions 768
   max_sequence_length 1536
-  tokenizer_class "DiscourseAi::Tokenizers::OpenAiTokenizer"
+  tokenizer_class "DiscourseAi::Tokenizer::OpenAiTokenizer"
   url "https://generativelanguage.googleapis.com/v1beta/models/embedding-001:embedContent"
 end