keras-team
diff --git a/‎keras_nlp/models/__init__.py‎
Lines changed: 8 additions & 4 deletions b/‎keras_nlp/models/__init__.py‎
Lines changed: 8 additions & 4 deletions
diff --git a/‎keras_nlp/models/deberta/__init__.py‎ renamed to ‎keras_nlp/models/deberta_v3/__init__.py‎ b/‎keras_nlp/models/deberta/__init__.py‎ renamed to ‎keras_nlp/models/deberta_v3/__init__.py‎
diff --git a/‎keras_nlp/models/deberta/deberta_backbone.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_backbone.py‎
Lines changed: 10 additions & 8 deletions b/‎keras_nlp/models/deberta/deberta_backbone.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_backbone.py‎
Lines changed: 10 additions & 8 deletions
diff --git a/‎keras_nlp/models/deberta/deberta_backbone_test.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_backbone_test.py‎
Lines changed: 5 additions & 5 deletions b/‎keras_nlp/models/deberta/deberta_backbone_test.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_backbone_test.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎keras_nlp/models/deberta/deberta_classifier.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_classifier.py‎
Lines changed: 29 additions & 23 deletions b/‎keras_nlp/models/deberta/deberta_classifier.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_classifier.py‎
Lines changed: 29 additions & 23 deletions
diff --git a/‎keras_nlp/models/deberta/deberta_classifier_test.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_classifier_test.py‎
Lines changed: 17 additions & 11 deletions b/‎keras_nlp/models/deberta/deberta_classifier_test.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_classifier_test.py‎
Lines changed: 17 additions & 11 deletions
diff --git a/‎keras_nlp/models/deberta/deberta_preprocessor.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_preprocessor.py‎
Lines changed: 10 additions & 10 deletions b/‎keras_nlp/models/deberta/deberta_preprocessor.py‎ renamed to ‎keras_nlp/models/deberta_v3/deberta_v3_preprocessor.py‎
Lines changed: 10 additions & 10 deletions
@@ -16,10 +16,14 @@
 from keras_nlp.models.bert.bert_classifier import BertClassifier
 from keras_nlp.models.bert.bert_preprocessor import BertPreprocessor
 from keras_nlp.models.bert.bert_tokenizer import BertTokenizer
-from keras_nlp.models.deberta.deberta_backbone import DebertaBackbone
-from keras_nlp.models.deberta.deberta_classifier import DebertaClassifier
-from keras_nlp.models.deberta.deberta_preprocessor import DebertaPreprocessor
-from keras_nlp.models.deberta.deberta_tokenizer import DebertaTokenizer
+from keras_nlp.models.deberta_v3.deberta_v3_backbone import DebertaV3Backbone
+from keras_nlp.models.deberta_v3.deberta_v3_classifier import (
+    DebertaV3Classifier,
+)
+from keras_nlp.models.deberta_v3.deberta_v3_preprocessor import (
+    DebertaV3Preprocessor,
+)
+from keras_nlp.models.deberta_v3.deberta_v3_tokenizer import DebertaV3Tokenizer
 from keras_nlp.models.distil_bert.distil_bert_backbone import DistilBertBackbone
 from keras_nlp.models.distil_bert.distil_bert_classifier import (
     DistilBertClassifier,
 
@@ -20,11 +20,11 @@
 import tensorflow as tf
 from tensorflow import keras
 
-from keras_nlp.models.deberta.deberta_presets import backbone_presets
-from keras_nlp.models.deberta.disentangled_attention_encoder import (
+from keras_nlp.models.deberta_v3.deberta_v3_presets import backbone_presets
+from keras_nlp.models.deberta_v3.disentangled_attention_encoder import (
     DisentangledAttentionEncoder,
 )
-from keras_nlp.models.deberta.relative_embedding import RelativeEmbedding
+from keras_nlp.models.deberta_v3.relative_embedding import RelativeEmbedding
 from keras_nlp.utils.python_utils import classproperty
 from keras_nlp.utils.python_utils import format_docstring
 
@@ -34,7 +34,7 @@ def deberta_kernel_initializer(stddev=0.02):
 
 
 @keras.utils.register_keras_serializable(package="keras_nlp")
-class DebertaBackbone(keras.Model):
+class DebertaV3Backbone(keras.Model):
     """DeBERTa encoder network.
 
     This network implements a bi-directional Transformer-based encoder as
@@ -49,7 +49,9 @@ class DebertaBackbone(keras.Model):
     constructor.
 
     Disclaimer: Pre-trained models are provided on an "as is" basis, without
-    warranties or conditions of any kind.
+    warranties or conditions of any kind. The underlying model is provided by a
+    third party and subject to a separate license, available
+    [here](https://github.com/microsoft/DeBERTa).
 
     Args:
         vocabulary_size: int. The size of the token vocabulary.
@@ -75,7 +77,7 @@ class DebertaBackbone(keras.Model):
     }
 
     # Randomly initialized DeBERTa model
-    model = keras_nlp.models.DebertaBackbone(
+    model = keras_nlp.models.DebertaV3Backbone(
         vocabulary_size=128100,
         num_layers=12,
         num_heads=6,
@@ -225,11 +227,11 @@ def from_preset(
         }
 
         # Load architecture and weights from preset
-        model = keras_nlp.models.DebertaBackbone.from_preset("deberta_base")
+        model = keras_nlp.models.DebertaV3Backbone.from_preset("deberta_base")
         output = model(input_data)
 
         # Load randomly initialized model from preset architecture
-        model = keras_nlp.models.DebertaBackbone.from_preset(
+        model = keras_nlp.models.DebertaV3Backbone.from_preset(
             "deberta_base", load_weights=False
         )
         output = model(input_data)
 
@@ -19,12 +19,12 @@
 from absl.testing import parameterized
 from tensorflow import keras
 
-from keras_nlp.models.deberta.deberta_backbone import DebertaBackbone
+from keras_nlp.models.deberta_v3.deberta_v3_backbone import DebertaV3Backbone
 
 
-class DebertaBackboneTest(tf.test.TestCase, parameterized.TestCase):
+class DebertaV3BackboneTest(tf.test.TestCase, parameterized.TestCase):
     def setUp(self):
-        self.model = DebertaBackbone(
+        self.model = DebertaV3Backbone(
             vocabulary_size=1000,
             num_layers=2,
             num_heads=2,
@@ -51,7 +51,7 @@ def test_valid_call_deberta(self):
         self.model(self.input_batch)
 
         # Check default name passed through
-        self.assertRegexpMatches(self.model.name, "deberta_backbone")
+        self.assertRegexpMatches(self.model.name, "deberta_v3_backbone")
 
     def test_variable_sequence_length_call_deberta(self):
         for seq_length in (25, 50, 75):
@@ -90,7 +90,7 @@ def test_saved_model(self, save_format, filename):
         restored_model = keras.models.load_model(save_path)
 
         # Check we got the real object back.
-        self.assertIsInstance(restored_model, DebertaBackbone)
+        self.assertIsInstance(restored_model, DebertaV3Backbone)
 
         # Check that output matches.
         restored_output = restored_model(self.input_batch)
 
@@ -17,21 +17,25 @@
 
 from tensorflow import keras
 
-from keras_nlp.models.deberta.deberta_backbone import DebertaBackbone
-from keras_nlp.models.deberta.deberta_backbone import deberta_kernel_initializer
-from keras_nlp.models.deberta.deberta_preprocessor import DebertaPreprocessor
-from keras_nlp.models.deberta.deberta_presets import backbone_presets
+from keras_nlp.models.deberta_v3.deberta_v3_backbone import DebertaV3Backbone
+from keras_nlp.models.deberta_v3.deberta_v3_backbone import (
+    deberta_kernel_initializer,
+)
+from keras_nlp.models.deberta_v3.deberta_v3_preprocessor import (
+    DebertaV3Preprocessor,
+)
+from keras_nlp.models.deberta_v3.deberta_v3_presets import backbone_presets
 from keras_nlp.utils.pipeline_model import PipelineModel
 from keras_nlp.utils.python_utils import classproperty
 from keras_nlp.utils.python_utils import format_docstring
 
 
 @keras.utils.register_keras_serializable(package="keras_nlp")
-class DebertaClassifier(PipelineModel):
+class DebertaV3Classifier(PipelineModel):
     """An end-to-end DeBERTa model for classification tasks.
 
     This model attaches a classification head to a
-    `keras_nlp.model.DebertaBackbone` model, mapping from the backbone
+    `keras_nlp.model.DebertaV3Backbone` model, mapping from the backbone
     outputs to logit output suitable for a classification task. For usage of
     this model with pre-trained weights, see the `from_preset()` method.
 
@@ -41,15 +45,17 @@ class DebertaClassifier(PipelineModel):
     creating the model with `from_preset()`.
 
     Disclaimer: Pre-trained models are provided on an "as is" basis, without
-    warranties or conditions of any kind.
+    warranties or conditions of any kind. The underlying model is provided by a
+    third party and subject to a separate license, available
+    [here](https://github.com/microsoft/DeBERTa).
 
     Args:
-        backbone: A `keras_nlp.models.Deberta` instance.
+        backbone: A `keras_nlp.models.DebertaV3` instance.
         num_classes: int. Number of classes to predict.
         hidden_dim: int. The size of the pooler layer.
         dropout: float. Dropout probability applied to the pooled output. For
             the second dropout layer, `backbone.dropout` is used.
-        preprocessor: A `keras_nlp.models.DebertaPreprocessor` or `None`. If
+        preprocessor: A `keras_nlp.models.DebertaV3Preprocessor` or `None`. If
             `None`, this model will not apply preprocessing, and inputs should
             be preprocessed before calling the model.
 
@@ -63,7 +69,7 @@ class DebertaClassifier(PipelineModel):
     labels = [0, 3]
 
     # Randomly initialized DeBERTa encoder
-    backbone = keras_nlp.models.DebertaBackbone(
+    backbone = keras_nlp.models.DebertaV3Backbone(
         vocabulary_size=128100,
         num_layers=12,
         num_heads=12,
@@ -74,7 +80,7 @@ class DebertaClassifier(PipelineModel):
     )
 
     # Create a DeBERTa classifier and fit your data.
-    classifier = keras_nlp.models.DebertaClassifier(
+    classifier = keras_nlp.models.DebertaV3Classifier(
         backbone,
         num_classes=4,
         preprocessor=None,
@@ -132,12 +138,12 @@ def preprocess_samples(self, x, y=None, sample_weight=None):
 
     @property
     def backbone(self):
-        """A `keras_nlp.models.DebertaBackbone` submodel."""
+        """A `keras_nlp.models.DebertaV3Backbone` submodel."""
         return self._backbone
 
     @property
     def preprocessor(self):
-        """A `keras_nlp.models.DebertaPreprocessor` preprocessing layer."""
+        """A `keras_nlp.models.DebertaV3Preprocessor` preprocessing layer."""
         return self._preprocessor
 
     def get_config(self):
@@ -195,8 +201,8 @@ def from_preset(
         features = ["The quick brown fox jumped.", "I forgot my homework."]
         labels = [0, 3]
 
-        # Create a DebertaClassifier and fit your data.
-        classifier = keras_nlp.models.DebertaClassifier.from_preset(
+        # Create a DebertaV3Classifier and fit your data.
+        classifier = keras_nlp.models.DebertaV3Classifier.from_preset(
             "deberta_base",
             num_classes=4,
         )
@@ -213,13 +219,13 @@ def from_preset(
         labels = [0, 3]
 
         # Use a shorter sequence length.
-        preprocessor = keras_nlp.models.DebertaPreprocessor.from_preset(
+        preprocessor = keras_nlp.models.DebertaV3Preprocessor.from_preset(
             "deberta_base",
             sequence_length=128,
         )
 
-        # Create a DebertaClassifier and fit your data.
-        classifier = keras_nlp.models.DebertaClassifier.from_preset(
+        # Create a DebertaV3Classifier and fit your data.
+        classifier = keras_nlp.models.DebertaV3Classifier.from_preset(
             "deberta_base",
             num_classes=4,
             preprocessor=preprocessor,
@@ -241,8 +247,8 @@ def from_preset(
         }
         labels = [0, 3]
 
-        # Create a DebertaClassifier and fit your data.
-        classifier = keras_nlp.models.DebertaClassifier.from_preset(
+        # Create a DebertaV3Classifier and fit your data.
+        classifier = keras_nlp.models.DebertaV3Classifier.from_preset(
             "deberta_base",
             num_classes=4,
             preprocessor=None,
@@ -254,11 +260,11 @@ def from_preset(
         ```
         """
         if "preprocessor" not in kwargs:
-            kwargs["preprocessor"] = DebertaPreprocessor.from_preset(preset)
+            kwargs["preprocessor"] = DebertaV3Preprocessor.from_preset(preset)
 
         # Check if preset is backbone-only model
-        if preset in DebertaBackbone.presets:
-            backbone = DebertaBackbone.from_preset(preset, load_weights)
+        if preset in DebertaV3Backbone.presets:
+            backbone = DebertaV3Backbone.from_preset(preset, load_weights)
             return cls(backbone, **kwargs)
 
         # Otherwise must be one of class presets
 
@@ -21,13 +21,19 @@
 from absl.testing import parameterized
 from tensorflow import keras
 
-from keras_nlp.models.deberta.deberta_backbone import DebertaBackbone
-from keras_nlp.models.deberta.deberta_classifier import DebertaClassifier
-from keras_nlp.models.deberta.deberta_preprocessor import DebertaPreprocessor
-from keras_nlp.models.deberta.deberta_preprocessor import DebertaTokenizer
+from keras_nlp.models.deberta_v3.deberta_v3_backbone import DebertaV3Backbone
+from keras_nlp.models.deberta_v3.deberta_v3_classifier import (
+    DebertaV3Classifier,
+)
+from keras_nlp.models.deberta_v3.deberta_v3_preprocessor import (
+    DebertaV3Preprocessor,
+)
+from keras_nlp.models.deberta_v3.deberta_v3_preprocessor import (
+    DebertaV3Tokenizer,
+)
 
 
-class DebertaClassifierTest(tf.test.TestCase, parameterized.TestCase):
+class DebertaV3ClassifierTest(tf.test.TestCase, parameterized.TestCase):
     def setUp(self):
         bytes_io = io.BytesIO()
         vocab_data = tf.data.Dataset.from_tensor_slices(
@@ -47,11 +53,11 @@ def setUp(self):
             eos_piece="[SEP]",
             unk_piece="[UNK]",
         )
-        self.preprocessor = DebertaPreprocessor(
-            tokenizer=DebertaTokenizer(proto=bytes_io.getvalue()),
+        self.preprocessor = DebertaV3Preprocessor(
+            tokenizer=DebertaV3Tokenizer(proto=bytes_io.getvalue()),
             sequence_length=12,
         )
-        self.backbone = DebertaBackbone(
+        self.backbone = DebertaV3Backbone(
             vocabulary_size=1000,
             num_layers=2,
             num_heads=2,
@@ -60,12 +66,12 @@ def setUp(self):
             max_sequence_length=128,
             bucket_size=64,
         )
-        self.classifier = DebertaClassifier(
+        self.classifier = DebertaV3Classifier(
             self.backbone,
             4,
             preprocessor=self.preprocessor,
         )
-        self.classifier_no_preprocessing = DebertaClassifier(
+        self.classifier_no_preprocessing = DebertaV3Classifier(
             self.backbone,
             4,
             preprocessor=None,
@@ -133,7 +139,7 @@ def test_saving_model(self, save_format, filename):
         restored_model = keras.models.load_model(save_path)
 
         # Check we got the real object back.
-        self.assertIsInstance(restored_model, DebertaClassifier)
+        self.assertIsInstance(restored_model, DebertaV3Classifier)
 
         # Check that output matches.
         restored_output = restored_model.predict(self.raw_batch)
 
@@ -18,8 +18,8 @@
 from tensorflow import keras
 
 from keras_nlp.layers.multi_segment_packer import MultiSegmentPacker
-from keras_nlp.models.deberta.deberta_presets import backbone_presets
-from keras_nlp.models.deberta.deberta_tokenizer import DebertaTokenizer
+from keras_nlp.models.deberta_v3.deberta_v3_presets import backbone_presets
+from keras_nlp.models.deberta_v3.deberta_v3_tokenizer import DebertaV3Tokenizer
 from keras_nlp.utils.keras_utils import (
     convert_inputs_to_list_of_tensor_segments,
 )
@@ -29,7 +29,7 @@
 
 
 @keras.utils.register_keras_serializable(package="keras_nlp")
-class DebertaPreprocessor(keras.layers.Layer):
+class DebertaV3Preprocessor(keras.layers.Layer):
     """A DeBERTa preprocessing layer which tokenizes and packs inputs.
 
     This preprocessing layer will do three things:
@@ -58,7 +58,7 @@ class DebertaPreprocessor(keras.layers.Layer):
     the layer, e.g. `ds.map(lambda seg1, seg2: preprocessor(x=(seg1, seg2)))`.
 
     Args:
-        tokenizer: A `keras_nlp.models.DebertaTokenizer` instance.
+        tokenizer: A `keras_nlp.models.DebertaV3Tokenizer` instance.
         sequence_length: The length of the packed inputs.
         truncate: string. The algorithm to truncate a list of batched segments
             to fit within `sequence_length`. The value can be either
@@ -73,8 +73,8 @@ class DebertaPreprocessor(keras.layers.Layer):
 
     Examples:
     ```python
-    tokenizer = keras_nlp.models.DebertaTokenizer(proto="model.spm")
-    preprocessor = keras_nlp.models.DebertaPreprocessor(
+    tokenizer = keras_nlp.models.DebertaV3Tokenizer(proto="model.spm")
+    preprocessor = keras_nlp.models.DebertaV3Preprocessor(
         tokenizer=tokenizer,
         sequence_length=10,
     )
@@ -159,7 +159,7 @@ def __init__(
 
     @property
     def tokenizer(self):
-        """The `keras_nlp.models.DebertaTokenizer` used to tokenize strings."""
+        """The `keras_nlp.models.DebertaV3Tokenizer` used to tokenize strings."""
         return self._tokenizer
 
     def get_config(self):
@@ -225,13 +225,13 @@ def from_preset(
         Examples:
         ```python
         # Load preprocessor from preset
-        preprocessor = keras_nlp.models.DebertaPreprocessor.from_preset(
+        preprocessor = keras_nlp.models.DebertaV3Preprocessor.from_preset(
             "deberta_base",
         )
         preprocessor("The quick brown fox jumped.")
 
         # Override sequence_length
-        preprocessor = keras_nlp.models.DebertaPreprocessor.from_preset(
+        preprocessor = keras_nlp.models.DebertaV3Preprocessor.from_preset(
             "deberta_base",
             sequence_length=64
         )
@@ -244,7 +244,7 @@ def from_preset(
                 f"""{", ".join(cls.presets)}. Received: {preset}."""
             )
 
-        tokenizer = DebertaTokenizer.from_preset(preset)
+        tokenizer = DebertaV3Tokenizer.from_preset(preset)
 
         # Use model's `max_sequence_length` if `sequence_length` unspecified;
         # otherwise check that `sequence_length` not too long.