open-metadata · edg956 · Feb 16, 2026 · Feb 13, 2026 · Feb 13, 2026 · Feb 13, 2026
@@ -32,6 +32,7 @@
 LANGUAGE_MODEL_MAPPING = defaultdict(
     lambda: SPACY_MULTILANG_MODEL,
     {
+        ClassificationLanguage.any: SPACY_EN_MODEL,
         ClassificationLanguage.ca: "ca_core_news_md",
         ClassificationLanguage.zh: "zh_core_web_md",
         ClassificationLanguage.hr: "hr_core_news_md",

@@ -1,4 +1,5 @@
-from typing import List, Optional, Sequence, final
+from itertools import groupby
+from typing import List, Optional, Sequence, Union, final
 
 from presidio_analyzer import (
     AnalyzerEngine,
@@ -94,7 +95,10 @@ def get_recognizers_by(self, target: recognizer.Target) -> list[EntityRecognizer
 
             created = PresidioRecognizerFactory.create_recognizer(recognizer)
             if created is not None:
-                if created.supported_language != self._language.value:
+                if (
+                    self._language is not ClassificationLanguage.any
+                    and created.supported_language != self._language.value
+                ):
                     continue
                 recognizers.append(created)
 
@@ -113,37 +117,70 @@ def _column_name(self) -> str:
         return self._column.name.root
 
     def build_analyzer_with(
-        self, recognizers: list[EntityRecognizer]
+        self,
+        recognizers: list[EntityRecognizer],
+        nlp_engine: Optional[NlpEngine] = None,
     ) -> AnalyzerEngine:
         supported_languages = [rec.supported_language for rec in recognizers]
         recognizer_registry = RecognizerRegistry(
             recognizers=recognizers, supported_languages=supported_languages
         )
+        effective_nlp = nlp_engine if nlp_engine is not None else self._nlp_engine
         return AnalyzerEngine(
             registry=recognizer_registry,
-            nlp_engine=self._nlp_engine,
+            nlp_engine=effective_nlp,
             supported_languages=supported_languages,
         )
 
+    def _analyze_with(
+        self,
+        text_or_values: Union[str, Sequence[str]],
+        recognizers: list[EntityRecognizer],
+        context: Optional[list[str]] = None,
+    ) -> list[RecognizerResult]:
+        values = (
+            [text_or_values]
+            if isinstance(text_or_values, str)
+            else list(text_or_values)
+        )
+        results: list[RecognizerResult] = []
+
+        if self._language is not ClassificationLanguage.any:
+            analyzer = self.build_analyzer_with(recognizers)
+            for value in values:
+                results.extend(
+                    analyzer.analyze(
+                        value,
+                        language=self._language.value,
+                        context=context,
+                        return_decision_process=True,
+                    )
+                )
+            return results
+
+        sorted_recs = sorted(recognizers, key=lambda r: r.supported_language)
+        for lang, group in groupby(sorted_recs, key=lambda r: r.supported_language):
+            lang_recognizers = list(group)
+            analyzer = self.build_analyzer_with(lang_recognizers, nlp_engine=None)
+            for value in values:
+                results.extend(
+                    analyzer.analyze(
+                        value,
+                        language=lang,
+                        context=context,
+                        return_decision_process=True,
+                    )
+                )
+        return results
+
     def analyze_content(self, values: Sequence[str]) -> TagAnalysis:
         recognizers = self.content_recognizers
 
         if not recognizers:
             return self._build_tag_analysis([], 1, recognizer.Target.content)
 
         context = split_column_name(self._column_name)
-        analyzer = self.build_analyzer_with(recognizers)
-
-        results: list[RecognizerResult] = []
-        for value in values:
-            results.extend(
-                analyzer.analyze(
-                    value,
-                    language=self._language.value,
-                    context=context,
-                    return_decision_process=True,
-                )
-            )
+        results = self._analyze_with(values, recognizers, context=context)
 
         return self._build_tag_analysis(results, len(values), recognizer.Target.content)
 
@@ -153,12 +190,7 @@ def analyze_column(self) -> TagAnalysis:
         if not recognizers:
             return self._build_tag_analysis([], 1, recognizer.Target.column_name)
 
-        analyzer = self.build_analyzer_with(recognizers)
-        results = analyzer.analyze(
-            self._column_name,
-            language=self._language.value,
-            return_decision_process=True,
-        )
+        results = self._analyze_with(self._column_name, recognizers)
 
         return self._build_tag_analysis(results, 1, recognizer.Target.column_name)