discourse
diff --git a/‎.gitignore‎
Lines changed: 0 additions & 1 deletion b/‎.gitignore‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎app/models/embedding_definition.rb‎
Lines changed: 15 additions & 15 deletions b/‎app/models/embedding_definition.rb‎
Lines changed: 15 additions & 15 deletions
diff --git a/‎config/eval-llms.yml‎
Lines changed: 8 additions & 8 deletions b/‎config/eval-llms.yml‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎lib/automation/llm_triage.rb‎
Lines changed: 6 additions & 1 deletion b/‎lib/automation/llm_triage.rb‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎lib/automation/report_context_generator.rb‎
Lines changed: 7 additions & 2 deletions b/‎lib/automation/report_context_generator.rb‎
Lines changed: 7 additions & 2 deletions
diff --git a/‎lib/completions/dialects/dialect.rb‎
Lines changed: 1 addition & 0 deletions b/‎lib/completions/dialects/dialect.rb‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lib/completions/dialects/fake.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/completions/dialects/fake.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/dialects/open_ai_compatible.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/completions/dialects/open_ai_compatible.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/endpoints/canned_response.rb‎
Lines changed: 1 addition & 1 deletion b/‎lib/completions/endpoints/canned_response.rb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/completions/llm.rb‎
Lines changed: 7 additions & 7 deletions b/‎lib/completions/llm.rb‎
Lines changed: 7 additions & 7 deletions
@@ -6,5 +6,4 @@ evals/log
 evals/cases
 config/eval-llms.local.yml
 # this gets rid of search results from ag, ripgrep, etc
-tokenizers/
 public/ai-share/highlight.min.js
@@ -17,14 +17,14 @@ def distance_functions
 
     def tokenizer_names
       [
-        DiscourseAi::Tokenizer::AllMpnetBaseV2Tokenizer,
-        DiscourseAi::Tokenizer::BgeLargeEnTokenizer,
-        DiscourseAi::Tokenizer::BgeM3Tokenizer,
-        DiscourseAi::Tokenizer::GeminiTokenizer,
-        DiscourseAi::Tokenizer::MultilingualE5LargeTokenizer,
-        DiscourseAi::Tokenizer::OpenAiTokenizer,
-        DiscourseAi::Tokenizer::MixtralTokenizer,
-        DiscourseAi::Tokenizer::QwenTokenizer,
+        DiscourseAi::Tokenizers::AllMpnetBaseV2Tokenizer,
+        DiscourseAi::Tokenizers::BgeLargeEnTokenizer,
+        DiscourseAi::Tokenizers::BgeM3Tokenizer,
+        DiscourseAi::Tokenizers::GeminiTokenizer,
+        DiscourseAi::Tokenizers::MultilingualE5LargeTokenizer,
+        DiscourseAi::Tokenizers::OpenAiTokenizer,
+        DiscourseAi::Tokenizers::MistralTokenizer,
+        DiscourseAi::Tokenizers::QwenTokenizer,
       ].map(&:name)
     end
 
@@ -42,7 +42,7 @@ def presets
               dimensions: 1024,
               max_sequence_length: 512,
               pg_function: "<#>",
-              tokenizer_class: "DiscourseAi::Tokenizer::BgeLargeEnTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::BgeLargeEnTokenizer",
               provider: HUGGING_FACE,
               search_prompt: "Represent this sentence for searching relevant passages:",
             },
@@ -52,7 +52,7 @@ def presets
               dimensions: 1024,
               max_sequence_length: 8192,
               pg_function: "<#>",
-              tokenizer_class: "DiscourseAi::Tokenizer::BgeM3Tokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::BgeM3Tokenizer",
               provider: HUGGING_FACE,
             },
             {
@@ -63,7 +63,7 @@ def presets
               pg_function: "<=>",
               url:
                 "https://generativelanguage.googleapis.com/v1beta/models/embedding-001:embedContent",
-              tokenizer_class: "DiscourseAi::Tokenizer::GeminiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::GeminiTokenizer",
               provider: GOOGLE,
             },
             {
@@ -72,7 +72,7 @@ def presets
               dimensions: 1024,
               max_sequence_length: 512,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizer::MultilingualE5LargeTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::MultilingualE5LargeTokenizer",
               provider: HUGGING_FACE,
             },
             # "text-embedding-3-large" real dimentions are 3072, but we only support up to 2000 in the
@@ -83,7 +83,7 @@ def presets
               dimensions: 2000,
               max_sequence_length: 8191,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizer::OpenAiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::OpenAiTokenizer",
               url: "https://api.openai.com/v1/embeddings",
               provider: OPEN_AI,
               matryoshka_dimensions: true,
@@ -97,7 +97,7 @@ def presets
               dimensions: 1536,
               max_sequence_length: 8191,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizer::OpenAiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::OpenAiTokenizer",
               url: "https://api.openai.com/v1/embeddings",
               provider: OPEN_AI,
               matryoshka_dimensions: true,
@@ -111,7 +111,7 @@ def presets
               dimensions: 1536,
               max_sequence_length: 8191,
               pg_function: "<=>",
-              tokenizer_class: "DiscourseAi::Tokenizer::OpenAiTokenizer",
+              tokenizer_class: "DiscourseAi::Tokenizers::OpenAiTokenizer",
               url: "https://api.openai.com/v1/embeddings",
               provider: OPEN_AI,
               provider_params: {
 
@@ -2,7 +2,7 @@ llms:
   gpt-4o:
     display_name: GPT-4o
     name: gpt-4o
-    tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer
+    tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer
     api_key_env: OPENAI_API_KEY
     provider: open_ai
     url: https://api.openai.com/v1/chat/completions
@@ -12,7 +12,7 @@ llms:
   gpt-4o-mini:
     display_name: GPT-4o-mini
     name: gpt-4o-mini
-    tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer
+    tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer
     api_key_env: OPENAI_API_KEY
     provider: open_ai
     url: https://api.openai.com/v1/chat/completions
@@ -22,7 +22,7 @@ llms:
   claude-3.5-haiku:
     display_name: Claude 3.5 Haiku
     name: claude-3-5-haiku-latest
-    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -32,7 +32,7 @@ llms:
   claude-3.5-sonnet:
     display_name: Claude 3.5 Sonnet
     name: claude-3-5-sonnet-latest
-    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -42,7 +42,7 @@ llms:
   claude-3.7-sonnet:
     display_name: Claude 3.7 Sonnet
     name: claude-3-7-sonnet-latest
-    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -52,7 +52,7 @@ llms:
   claude-3.7-sonnet-thinking:
     display_name: Claude 3.7 Sonnet
     name: claude-3-7-sonnet-latest
-    tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer
+    tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer
     api_key_env: ANTHROPIC_API_KEY
     provider: anthropic
     url: https://api.anthropic.com/v1/messages
@@ -67,7 +67,7 @@ llms:
   gemini-2.0-flash:
     display_name: Gemini 2.0 Flash
     name: gemini-2-0-flash
-    tokenizer: DiscourseAi::Tokenizer::GeminiTokenizer
+    tokenizer: DiscourseAi::Tokenizers::GeminiTokenizer
     api_key_env: GEMINI_API_KEY
     provider: google
     url: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash
@@ -77,7 +77,7 @@ llms:
   gemini-2.0-pro-exp:
     display_name: Gemini 2.0 pro
     name: gemini-2-0-pro-exp
-    tokenizer: DiscourseAi::Tokenizer::GeminiTokenizer
+    tokenizer: DiscourseAi::Tokenizers::GeminiTokenizer
     api_key_env: GEMINI_API_KEY
     provider: google
     url: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-pro-exp
 
@@ -40,7 +40,12 @@ def self.handle(
 
         content = "title: #{post.topic.title}\n#{post.raw}"
 
-        content = llm.tokenizer.truncate(content, max_post_tokens) if max_post_tokens.present?
+        content =
+          llm.tokenizer.truncate(
+            content,
+            max_post_tokens,
+            strict: SiteSetting.ai_strict_token_counting,
+          ) if max_post_tokens.present?
 
         if post.upload_ids.present?
           content = [content]
 
@@ -26,7 +26,7 @@ def initialize(
         @tags = tags
         @allow_secure_categories = allow_secure_categories
         @max_posts = max_posts
-        @tokenizer = tokenizer || DiscourseAi::Tokenizer::OpenAiTokenizer
+        @tokenizer = tokenizer || DiscourseAi::Tokenizers::OpenAiTokenizer
         @tokens_per_post = tokens_per_post
         @prioritized_group_ids = prioritized_group_ids
 
@@ -99,7 +99,12 @@ def format_post(post)
         buffer << post.created_at.strftime("%Y-%m-%d %H:%M")
         buffer << "user: #{post.user&.username}"
         buffer << "likes: #{post.like_count}"
-        excerpt = @tokenizer.truncate(post.raw, @tokens_per_post)
+        excerpt =
+          @tokenizer.truncate(
+            post.raw,
+            @tokens_per_post,
+            strict: SiteSetting.ai_strict_token_counting,
+          )
         excerpt = "excerpt: #{excerpt}..." if excerpt.length < post.raw.length
         buffer << "#{excerpt}"
         { likes: post.like_count, info: buffer.join("\n") }
 
@@ -147,6 +147,7 @@ def trim_messages(messages)
               system_message[:content] = tokenizer.truncate(
                 system_message[:content],
                 max_system_tokens,
+                strict: SiteSetting.ai_strict_token_counting,
               )
             end
 
 
@@ -11,7 +11,7 @@ def can_translate?(llm_model)
         end
 
         def tokenizer
-          DiscourseAi::Tokenizer::OpenAiTokenizer
+          DiscourseAi::Tokenizers::OpenAiTokenizer
         end
 
         def translate
 
@@ -12,7 +12,7 @@ def can_translate?(_llm_model)
         end
 
         def tokenizer
-          llm_model&.tokenizer_class || DiscourseAi::Tokenizer::Llama3Tokenizer
+          llm_model&.tokenizer_class || DiscourseAi::Tokenizers::Llama3Tokenizer
         end
 
         def tools
 
@@ -74,7 +74,7 @@ def perform_completion!(
         end
 
         def tokenizer
-          DiscourseAi::Tokenizer::OpenAiTokenizer
+          DiscourseAi::Tokenizers::OpenAiTokenizer
         end
 
         private
 
@@ -59,7 +59,7 @@ def presets
                       output_cost: 75,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizer::AnthropicTokenizer,
+                  tokenizer: DiscourseAi::Tokenizers::AnthropicTokenizer,
                   endpoint: "https://api.anthropic.com/v1/messages",
                   provider: "anthropic",
                 },
@@ -103,7 +103,7 @@ def presets
                       output_cost: 0.30,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizer::GeminiTokenizer,
+                  tokenizer: DiscourseAi::Tokenizers::GeminiTokenizer,
                   provider: "google",
                 },
                 {
@@ -150,7 +150,7 @@ def presets
                       output_cost: 0.40,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer,
+                  tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer,
                   endpoint: "https://api.openai.com/v1/chat/completions",
                   provider: "open_ai",
                 },
@@ -172,7 +172,7 @@ def presets
                       output_cost: 0.20,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizer::Llama3Tokenizer,
+                  tokenizer: DiscourseAi::Tokenizers::Llama3Tokenizer,
                   endpoint: "https://api.sambanova.ai/v1/chat/completions",
                   provider: "samba_nova",
                 },
@@ -190,7 +190,7 @@ def presets
                       display_name: "Pixtral Large",
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizer::MixtralTokenizer,
+                  tokenizer: DiscourseAi::Tokenizers::MixtralTokenizer,
                   endpoint: "https://api.mistral.ai/v1/chat/completions",
                   provider: "mistral",
                 },
@@ -217,7 +217,7 @@ def presets
                       output_cost: 0.25,
                     },
                   ],
-                  tokenizer: DiscourseAi::Tokenizer::OpenAiTokenizer,
+                  tokenizer: DiscourseAi::Tokenizers::OpenAiTokenizer,
                   endpoint: "https://openrouter.ai/api/v1/chat/completions",
                   provider: "open_router",
                 },
@@ -248,7 +248,7 @@ def provider_names
         end
 
         def tokenizer_names
-          DiscourseAi::Tokenizer::BasicTokenizer.available_llm_tokenizers.map(&:name)
+          DiscourseAi::Tokenizers::BasicTokenizer.available_llm_tokenizers.map(&:name)
         end
 
         def valid_provider_models
Original file line number	Diff line number	Diff line change
`@@ -147,6 +147,7 @@ def trim_messages(messages)`
`147`	`147`	`system_message[:content] = tokenizer.truncate(`
`148`	`148`	`system_message[:content],`
`149`	`149`	`max_system_tokens,`
	`150`	`+ strict: SiteSetting.ai_strict_token_counting,`
`150`	`151`	`)`
`151`	`152`	`end`
`152`	`153`