Restricted stemming to the multilang feature (quickwit-oss#6085)

fulmicoton · fulmicoton-dd · web-flow · commit 98ced0f4d573 · 2026-01-09T11:09:05.000+01:00
Co-authored-by: fulmicoton &lt;paul.masurel@datadoghq.com&gt;
diff --git a/quickwit/Cargo.toml b/quickwit/Cargo.toml
@@ -359,7 +359,6 @@ tantivy = { git = "https://github.com/quickwit-oss/tantivy/", rev = "d904630", d
   "lz4-compression",
   "mmap",
   "quickwit",
-  "stemmer",
   "zstd-compression",
   "columnar-zstd-compression",
 ] }
diff --git a/quickwit/quickwit-query/Cargo.toml b/quickwit/quickwit-query/Cargo.toml
@@ -48,6 +48,7 @@ multilang = [
     "lindera-dictionary",
     "lindera-tokenizer",
     "whichlang",
+    "tantivy/stemmer",
 ]
 
 [[bench]]
diff --git a/quickwit/quickwit-query/src/tokenizers/mod.rs b/quickwit/quickwit-query/src/tokenizers/mod.rs
@@ -20,8 +20,8 @@ mod tokenizer_manager;
 
 use once_cell::sync::Lazy;
 use tantivy::tokenizer::{
-    AsciiFoldingFilter, Language, LowerCaser, RawTokenizer, RemoveLongFilter, SimpleTokenizer,
-    Stemmer, TextAnalyzer, WhitespaceTokenizer,
+    AsciiFoldingFilter, LowerCaser, RawTokenizer, RemoveLongFilter, SimpleTokenizer, TextAnalyzer,
+    WhitespaceTokenizer,
 };
 
 use self::chinese_compatible::ChineseTokenizer;
@@ -58,14 +58,17 @@ pub fn create_default_quickwit_tokenizer_manager() -> TokenizerManager {
         .filter(LowerCaser)
         .build();
     tokenizer_manager.register("default", default_tokenizer, true);
-
-    let en_stem_tokenizer = TextAnalyzer::builder(SimpleTokenizer::default())
-        .filter(RemoveLongFilter::limit(DEFAULT_REMOVE_TOKEN_LENGTH))
-        .filter(LowerCaser)
-        .filter(Stemmer::new(Language::English))
-        .build();
-    tokenizer_manager.register("en_stem", en_stem_tokenizer, true);
-
+    #[cfg(feature = "multilang")]
+    {
+        let en_stem_tokenizer = TextAnalyzer::builder(SimpleTokenizer::default())
+            .filter(RemoveLongFilter::limit(DEFAULT_REMOVE_TOKEN_LENGTH))
+            .filter(LowerCaser)
+            .filter(tantivy::tokenizer::Stemmer::new(
+                tantivy::tokenizer::Language::English,
+            ))
+            .build();
+        tokenizer_manager.register("en_stem", en_stem_tokenizer, true);
+    }
     tokenizer_manager.register("whitespace", WhitespaceTokenizer::default(), false);
 
     let chinese_tokenizer = TextAnalyzer::builder(ChineseTokenizer)

Original file line number	Diff line number	Diff line change
`@@ -48,6 +48,7 @@ multilang = [`
`48`	`48`	`"lindera-dictionary",`
`49`	`49`	`"lindera-tokenizer",`
`50`	`50`	`"whichlang",`
	`51`	`+ "tantivy/stemmer",`
`51`	`52`	`]`
`52`	`53`
`53`	`54`	`[[bench]]`