data

xadupre · xadupre · commit 1b7f5fac4962 · 2025-03-27T10:29:29.000+01:00
diff --git a/_doc/api/torch_models/hghub/hub_api.rst b/_doc/api/torch_models/hghub/hub_api.rst
@@ -0,0 +1,7 @@
+
+onnx_diagnostic.torch_models.hghub.hub_api
+==========================================
+
+.. automodule:: onnx_diagnostic.torch_models.hghub.hub_api
+    :members:
+    :no-undoc-members:
diff --git a/_doc/api/torch_models/hghub/hub_data.rst b/_doc/api/torch_models/hghub/hub_data.rst
@@ -0,0 +1,7 @@
+
+onnx_diagnostic.torch_models.hghub.hub_data
+===========================================
+
+.. automodule:: onnx_diagnostic.torch_models.hghub.hub_data
+    :members:
+    :no-undoc-members:
diff --git a/_doc/api/torch_models/hghub/index.rst b/_doc/api/torch_models/hghub/index.rst
@@ -0,0 +1,13 @@
+onnx_diagnostic.torch_models.hghub
+==================================
+
+.. toctree::
+    :maxdepth: 1
+    :caption: submodules
+
+    hub_api
+    hub_data
+
+.. automodule:: onnx_diagnostic.torch_models.hghub
+    :members:
+    :no-undoc-members:
diff --git a/_doc/api/torch_models/index.rst b/_doc/api/torch_models/index.rst
@@ -5,6 +5,7 @@ onnx_diagnostic.torch_models
     :maxdepth: 1
     :caption: submodules
 
+    hghub/index
     llms
 
 .. automodule:: onnx_diagnostic.torch_models
diff --git a/_unittests/ut_torch_models/test_hghub.py b/_unittests/ut_torch_models/test_hghub.py
@@ -6,21 +6,43 @@
     requires_torch,
     requires_transformers,
 )
-from onnx_diagnostic.torch_models.hghub.hub_api import enumerate_model_list, get_task
+from onnx_diagnostic.torch_models.hghub.hub_api import (
+    enumerate_model_list,
+    task_from_id,
+    task_from_arch,
+)
 
 
 class TestHuggingFaceHub(ExtTestCase):
 
     @requires_transformers("4.50")  # we limit to some versions of the CI
     @requires_torch("2.7")
     def test_enumerate_model_list(self):
-        models = list(enumerate_model_list(2, verbose=1, dump="test_enumerate_model_list.csv"))
+        models = list(
+            enumerate_model_list(
+                2,
+                verbose=1,
+                dump="test_enumerate_model_list.csv",
+                filter="text-generation",
+                library="transformers",
+            )
+        )
         self.assertEqual(len(models), 2)
         df = pandas.read_csv("test_enumerate_model_list.csv")
         self.assertEqual(df.shape, (2, 11))
-        tasks = [get_task(c) for c in df.id]
+        tasks = [task_from_id(c) for c in df.id]
         self.assertEqual(["text-generation", "text-generation"], tasks)
 
+    @requires_transformers("4.50")
+    @requires_torch("2.7")
+    def test_task_from_id(self):
+        task = task_from_id("arnir0/Tiny-LLM", True)
+        self.assertEqual("text-generation", task)
+
+    def test_task_from_arch(self):
+        task = task_from_arch("LlamaForCausalLM")
+        self.assertEqual("text-generation", task)
+
     @never_test()
     def test_hf_all_models(self):
         list(enumerate_model_list(-1, verbose=1, dump="test_hf_all_models.csv"))
diff --git a/onnx_diagnostic/torch_models/hghub/hub_api.py b/onnx_diagnostic/torch_models/hghub/hub_api.py
@@ -1,15 +1,53 @@
 from typing import List, Optional, Union
 import transformers
 from huggingface_hub import HfApi
+from .hub_data import __date__, load_architecture_task
 
 
-def get_task(model_id: str) -> str:
+def get_pretrained_config(model_id) -> str:
+    """Returns the config for a model_id."""
+    return transformers.AutoConfig.from_pretrained(model_id)
+
+
+def task_from_arch(arch: str) -> str:
+    """
+    This function relies on stored information. That information needs to be refresh.
+
+    :param arch: architecture name
+    :return: task
+
+    .. runpython::
+
+        from onnx_diagnostic.torch_models.hub_data import __date__
+        print("last refresh", __date__)
+
+    List of supported architecturs, see
+    :func:`load_architecture_task
+    <onnx_diagnostic.torch_models.hghub.hub_data.load_architecture_task>`.
+    """
+    data = load_architecture_task()
+    assert arch in data, f"Architecture {arch!r} is unknown, last refresh in {__date__}"
+    return data[arch]
+
+
+def task_from_id(model_id: str, pretrained: bool = False) -> str:
     """
     Returns the task attached to a model id.
 
     :param model_id: model id
+    :param pretrained: uses the config
     :return: task
     """
+    if pretrained:
+        config = get_pretrained_config(model_id)
+        try:
+            return config.pipeline_tag
+        except AttributeError:
+            assert config.architectures is not None and len(config.architectures) == 1, (
+                f"Cannot return the task of {model_id!r}, pipeline_tag is not setup, "
+                f"architectures={config.architectures} in config={config}"
+            )
+            return task_from_arch(config.architectures[0])
     return transformers.pipelines.get_task(model_id)
 
 
@@ -18,7 +56,9 @@ def enumerate_model_list(
     task: Optional[str] = None,
     library: Optional[str] = None,
     tags: Optional[Union[str, List[str]]] = None,
+    search: Optional[str] = None,
     dump: Optional[str] = None,
+    filter: Optional[str] = None,
     verbose: int = 0,
 ):
     """
@@ -28,11 +68,21 @@ def enumerate_model_list(
     :param task: see :meth:`huggingface_hub.HfApi.list_models`
     :param tags: see :meth:`huggingface_hub.HfApi.list_models`
     :param library: see :meth:`huggingface_hub.HfApi.list_models`
+    :param search: see :meth:`huggingface_hub.HfApi.list_models`
+    :param filter: see :meth:`huggingface_hub.HfApi.list_models`
     :param dump: dumps the result in this csv file
     :param verbose: show progress
     """
     api = HfApi()
-    models = api.list_models(task=task, library=library, tags=tags)
+    models = api.list_models(
+        task=task,
+        library=library,
+        tags=tags,
+        search=search,
+        full=True,
+        filter=filter,
+        limit=n if n > 0 else None,
+    )
     seen = 0
     found = 0
 
diff --git a/onnx_diagnostic/torch_models/hghub/hub_data.py b/onnx_diagnostic/torch_models/hghub/hub_data.py
@@ -0,0 +1,137 @@
+import io
+import functools
+
+__date__ = "2025-03-26"
+
+__data_arch__ = """
+architecture,task
+ASTModel,feature-extraction
+AlbertModel,feature-extraction
+BeitForImageClassification,image-classification
+BigBirdModel,feature-extraction
+BlenderbotModel,feature-extraction
+BloomModel,feature-extraction
+CLIPModel,zero-shot-image-classification
+CLIPVisionModel,feature-extraction
+CamembertModel,feature-extraction
+CodeGenModel,feature-extraction
+ConvBertModel,feature-extraction
+ConvNextForImageClassification,image-classification
+ConvNextV2Model,image-feature-extraction
+CvtModel,feature-extraction
+DPTModel,image-feature-extraction
+Data2VecAudioModel,feature-extraction
+Data2VecTextModel,feature-extraction
+Data2VecVisionModel,image-feature-extraction
+DebertaModel,feature-extraction
+DebertaV2Model,feature-extraction
+DecisionTransformerModel,reinforcement-learning
+DeiTModel,image-feature-extraction
+DetrModel,image-feature-extraction
+Dinov2Model,image-feature-extraction
+DistilBertModel,feature-extraction
+DonutSwinModel,feature-extraction
+ElectraModel,feature-extraction
+EsmModel,feature-extraction
+GLPNModel,image-feature-extraction
+GPTBigCodeModel,feature-extraction
+GPTJModel,feature-extraction
+GPTNeoModel,feature-extraction
+GPTNeoXForCausalLM,text-generation
+GemmaForCausalLM,text-generation
+GraniteForCausalLM,text-generation
+GroupViTModel,feature-extraction
+HieraForImageClassification,image-classification
+HubertModel,feature-extraction
+IBertModel,feature-extraction
+ImageGPTModel,image-feature-extraction
+LayoutLMModel,feature-extraction
+LayoutLMv3Model,feature-extraction
+LevitModel,image-feature-extraction
+LiltModel,feature-extraction
+LlamaForCausalLM,text-generation
+LongT5Model,feature-extraction
+LongformerModel,feature-extraction
+MCTCTModel,feature-extraction
+MPNetModel,feature-extraction
+MT5Model,feature-extraction
+MarianMTModel,text2text-generation
+MarkupLMModel,feature-extraction
+MaskFormerForInstanceSegmentation,image-segmentation
+MegatronBertModel,feature-extraction
+MgpstrForSceneTextRecognition,feature-extraction
+MistralForCausalLM,text-generation
+MobileBertModel,feature-extraction
+MobileNetV1Model,image-feature-extraction
+MobileNetV2Model,image-feature-extraction
+MobileViTForImageClassification,image-classification
+ModernBertForMaskedLM,fill-mask
+MoonshineForConditionalGeneration,automatic-speech-recognition
+MptForCausalLM,text-generation
+MusicgenForConditionalGeneration,text-to-audio
+NystromformerModel,feature-extraction
+OPTModel,feature-extraction
+Olmo2ForCausalLM,text-generation
+OlmoForCausalLM,text-generation
+OwlViTModel,feature-extraction
+Owlv2Model,feature-extraction
+PatchTSMixerForPrediction,no-pipeline-tag
+PatchTSTForPrediction,no-pipeline-tag
+PegasusModel,feature-extraction
+Phi3ForCausalLM,text-generation
+PhiForCausalLM,text-generation
+Pix2StructForConditionalGeneration,image-to-text
+PoolFormerModel,image-feature-extraction
+PvtForImageClassification,image-classification
+Qwen2ForCausalLM,text-generation
+RTDetrForObjectDetection,object-detection
+RegNetModel,image-feature-extraction
+RemBertModel,feature-extraction
+ResNetForImageClassification,image-classification
+RoFormerModel,feature-extraction
+RobertaModel,feature-extraction
+RtDetrV2ForObjectDetection,object-detection
+SEWDModel,feature-extraction
+SEWModel,feature-extraction
+SamModel,mask-generation
+SegformerModel,image-feature-extraction
+SiglipModel,zero-shot-image-classification
+SiglipVisionModel,image-feature-extraction
+Speech2TextModel,feature-extraction
+SpeechT5ForTextToSpeech,text-to-audio
+SplinterModel,feature-extraction
+SqueezeBertModel,feature-extraction
+Swin2SRModel,image-feature-extraction
+SwinModel,image-feature-extraction
+Swinv2Model,image-feature-extraction
+TableTransformerModel,image-feature-extraction
+UniSpeechForSequenceClassification,audio-classification
+ViTForImageClassification,image-classification
+ViTMAEModel,image-feature-extraction
+ViTMSNForImageClassification,image-classification
+VisionEncoderDecoderModel,document-question-answering
+VitPoseForPoseEstimation,keypoint-detection
+VitsModel,text-to-audio
+Wav2Vec2ConformerForCTC,automatic-speech-recognition
+Wav2Vec2Model,feature-extraction
+WhisperForConditionalGeneration,no-pipeline-tag
+XLMModel,feature-extraction
+XLMRobertaForCausalLM,text-generation
+YolosForObjectDetection,object-detection
+YolosModel,image-feature-extraction
+"""
+
+
+@functools.cache
+def load_architecture_task():
+    """
+    Returns a dictionary mapping architecture to task.
+
+    import pprint
+    from onnx_diagnostic.torch_models.hghub.hub_data import load_architecture_task
+    pprint.pprint(load_architecture_task())
+    """
+    import pandas
+
+    df = pandas.read_csv(io.StringIO(__data_arch__))
+    return dict(zip(list(df["architecture"]), list(df["task"])))