model: Added emillykkes scandi models (#3521)

KennethEnevoldsen · web-flow · commit 1ad433f9fa43 · 2025-11-13T16:17:18.000+01:00
* model: Added EmbeddingGemma-Scandi-300m ``` from sentence_transformers import SentenceTransformer # test that is loads with sentence transformers model = SentenceTransformer("emillykkejensen/EmbeddingGemma-Scandi-300m") # OSError: Can't load the model for 'emillykkejensen/EmbeddingGemma-Scandi-300m'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'emillykkejensen/EmbeddingGemma-Scandi-300m' is the correct path to a directory containing a file named pytorch_model.bin, tf_model.h5, model.ckpt or flax_model.msgpack. ``` Can't get the model to load * added other models * fix remaining metada issue
diff --git a/mteb/models/model_implementations/emillykkejensen_models.py b/mteb/models/model_implementations/emillykkejensen_models.py
@@ -0,0 +1,70 @@
+from mteb.models.model_meta import ModelMeta
+from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
+
+embedding_gemma_300m_scandi = ModelMeta(
+    loader=sentence_transformers_loader,  # type: ignore
+    name="emillykkejensen/EmbeddingGemma-Scandi-300m",
+    languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
+    open_weights=True,
+    revision="9f3307b9f601db564a9190cb475324d128dcfe86",
+    release_date="2025-10-17",
+    n_parameters=307_581_696,
+    embed_dim=768,
+    max_tokens=2048,
+    license="apache-2.0",
+    reference="https://huggingface.co/emillykkejensen/EmbeddingGemma-Scandi-300m",
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
+    training_datasets=set(),
+    similarity_fn_name="cosine",  # type: ignore[arg-type]
+    adapted_from="emillykkejensen/EmbeddingGemma-Scandi-300m",
+    memory_usage_mb=578,
+)
+
+
+qwen_scandi = ModelMeta(
+    loader=sentence_transformers_loader,  # type: ignore
+    name="emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
+    languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
+    open_weights=True,
+    revision="cf1e7ba36ebd3d605549d8f02930a18e17b54513",
+    release_date="2025-10-17",
+    n_parameters=595776512,
+    memory_usage_mb=2272,
+    embed_dim=1024,
+    max_tokens=32768,
+    license="apache-2.0",
+    reference="https://huggingface.co/emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
+    training_datasets=set(),
+    similarity_fn_name="cosine",  # type: ignore[arg-type]
+    adapted_from="Qwen/Qwen3-Embedding-0.6B",
+)
+
+
+mmbert_scandi = ModelMeta(
+    loader=sentence_transformers_loader,  # type: ignore
+    name="emillykkejensen/mmBERTscandi-base-embedding",
+    languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
+    open_weights=True,
+    revision="82d74c7a5d8e1ddf31b132865df2d16b2b0294ee",
+    release_date="2025-10-17",
+    n_parameters=306939648,
+    memory_usage_mb=1171,
+    embed_dim=768,
+    max_tokens=8192,
+    license="apache-2.0",
+    reference="https://huggingface.co/emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
+    training_datasets=set(),
+    similarity_fn_name="cosine",  # type: ignore[arg-type]
+    adapted_from="jonasaise/scandmmBERT-base-scandinavian",
+)