register dino v3 presets (#2463)

sachinprasadhs · web-flow · commit 466acdc87d8a · 2025-12-04T12:01:20.000-08:00
diff --git a/keras_hub/src/models/dinov3/dinov3_presets.py b/keras_hub/src/models/dinov3/dinov3_presets.py
@@ -1,4 +1,93 @@
 """DINOV3 model preset configurations."""
 
 # Metadata for loading pretrained model weights.
-backbone_presets = {}
+backbone_presets = {
+    "dinov3_vit_small_lvd1689m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (small-sized model) trained on LVD-1689M "
+                "using DINOv3."
+            ),
+            "params": 21_600_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_small_lvd1689m/1",
+    },
+    "dinov3_vit_small_plus_lvd1689m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (small-plus-sized model) trained on "
+                "LVD-1689M using DINOv3."
+            ),
+            "params": 29_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_small_plus_lvd1689m/1",
+    },
+    "dinov3_vit_base_lvd1689m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (base-sized model) trained on LVD-1689M "
+                "using DINOv3."
+            ),
+            "params": 86_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_base_lvd1689m/1",
+    },
+    "dinov3_vit_large_lvd1689m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (large-sized model) trained on LVD-1689M "
+                "using DINOv3."
+            ),
+            "params": 300_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_large_lvd1689m/1",
+    },
+    "dinov3_vit_huge_plus_lvd1689m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (huge-plus-sized model) trained on "
+                "LVD-1689M using DINOv3."
+            ),
+            "params": 840_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_huge_plus_lvd1689m/1",
+    },
+    "dinov3_vit_7b_lvd1689m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (7B-sized model) trained on LVD-1689M "
+                "using DINOv3."
+            ),
+            "params": 6_700_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_7b_lvd1689m/1",
+    },
+    "dinov3_vit_large_sat493m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (large-sized model) trained on SAT-493M "
+                "using DINOv3."
+            ),
+            "params": 300_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_large_sat493m/1",
+    },
+    "dinov3_vit_7b_sat493m": {
+        "metadata": {
+            "description": (
+                "Vision Transformer (7B-sized model) trained on SAT-493M "
+                "using DINOv3."
+            ),
+            "params": 6_700_000_000,
+            "path": "dinov3",
+        },
+        "kaggle_handle": "kaggle://keras/dinov3/keras/dinov3_vit_7b_sat493m/1",
+    },
+}
diff --git a/tools/checkpoint_conversion/convert_dinov3_checkpoints.py b/tools/checkpoint_conversion/convert_dinov3_checkpoints.py
@@ -115,7 +115,7 @@ def validate_output(
     hf_outputs = hf_outputs[0].detach().cpu().numpy()
 
     # Call with keras.
-    keras_outputs = keras_hub_model.predict({"images": images}, verbose=0)
+    keras_outputs = keras_hub_model.predict({"pixel_values": images}, verbose=0)
     keras_outputs = keras.ops.convert_to_numpy(keras_outputs)
 
     print("🔶 Keras output:", keras_outputs[0, 0, :10])