CLIP : Enable CLIP.from_preset() Kaggle tests (#2357)

divyashreepathihalli · web-flow · commit 2f5e05747725 · 2024-02-22T16:26:16.000-08:00
* update kaggle handle and weights conversion file

* code reformat

---------

Co-authored-by: Divyashree Sreepathihalli &lt;divyashreepathihalli&gt;
diff --git a/keras_cv/models/feature_extractor/clip/clip_model.py b/keras_cv/models/feature_extractor/clip/clip_model.py
@@ -72,7 +72,7 @@ def __init__(
         vision_patch_size=32,
         context_length=77,
         vocab_size=49408,
-        transformer_width=768,
+        transformer_width=512,
         transformer_heads=8,
         transformer_layers=12,
         **kwargs,
diff --git a/keras_cv/models/feature_extractor/clip/clip_model_test.py b/keras_cv/models/feature_extractor/clip/clip_model_test.py
@@ -52,9 +52,9 @@ def test_clip_model_golden_values(self):
             processed_image, processed_text, attention_mask
         )
         print(image_logits)
-        self.assertAllClose(image_logits, [[2.932678, 2.932678, 2.932675]])
+        self.assertAllClose(image_logits, [[1.896713, 1.896713, 1.896713]])
         self.assertAllClose(
-            text_logits, ops.transpose([[2.932678, 2.932678, 2.932675]])
+            text_logits, ops.transpose([[1.896713, 1.896713, 1.896713]])
         )
 
     def test_clip_preprocessor(self):
@@ -77,8 +77,8 @@ def test_clip_preprocessor_tf_data(self):
 
     @pytest.mark.large
     def test_presets(self):
-        self.skipTest("TODO: Enable after Kaggle model is public")
-        model = CLIP.from_preset("clip-vit-base-patch32")
+        # self.skipTest("TODO: Enable after Kaggle model is public")
+        model = CLIP.from_preset("clip-vit-base-patch16")
         processed_image = np.ones(shape=[1, 224, 224, 3])
         processed_text = np.ones(shape=[3, 77])
         attention_mask = np.ones(shape=[3, 77])
@@ -109,7 +109,7 @@ def test_text_encoder_golden_values(self):
         print(model.text_embeddings)
         self.assertAllClose(
             model.text_embeddings[0, :3],
-            [-0.018502, 0.000906, 0.020372],
+            [0.007531, -0.038361, -0.035686],
         )
 
     @pytest.mark.large  # Saving is slow, so mark these large.
diff --git a/keras_cv/models/feature_extractor/clip/clip_presets.py b/keras_cv/models/feature_extractor/clip/clip_presets.py
@@ -28,7 +28,7 @@
             "official_name": "CLIP",
             "path": "clip",
         },
-        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-base-patch16/2",
+        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-base-patch16/4",
     },
     "clip-vit-base-patch32": {
         "metadata": {
@@ -44,7 +44,7 @@
             "official_name": "CLIP",
             "path": "clip",
         },
-        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-base-patch32/2",
+        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-base-patch32/4",
     },
     "clip-vit-large-patch14": {
         "metadata": {
@@ -60,7 +60,7 @@
             "official_name": "CLIP",
             "path": "clip",
         },
-        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-large-patch14/2",
+        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-large-patch14/4",
     },
     "clip-vit-large-patch14-336": {
         "metadata": {
@@ -76,6 +76,6 @@
             "official_name": "CLIP",
             "path": "clip",
         },
-        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-large-patch14-336/2",  # noqa: E501
+        "kaggle_handle": "kaggle://keras/clip/keras/clip-vit-large-patch14-336/4",  # noqa: E501
     },
 }
diff --git a/keras_cv/tools/checkpoint_conversion/clip_weights_conversion.ipynb b/keras_cv/tools/checkpoint_conversion/clip_weights_conversion.ipynb