tensorflow
diff --git a/‎demo/dynamic_embedding/movielens-1m-keras-ps/movielens-1m-keras-ps.py‎
Lines changed: 21 additions & 7 deletions b/‎demo/dynamic_embedding/movielens-1m-keras-ps/movielens-1m-keras-ps.py‎
Lines changed: 21 additions & 7 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/keras/callbacks.py‎
Lines changed: 2 additions & 2 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/keras/callbacks.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/keras/layers/embedding.py‎
Lines changed: 27 additions & 13 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/keras/layers/embedding.py‎
Lines changed: 27 additions & 13 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/BUILD‎
Lines changed: 12 additions & 0 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/BUILD‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/parameter_server_bzl.py‎
Lines changed: 183 additions & 0 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/parameter_server_bzl.py‎
Lines changed: 183 additions & 0 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/ops/distributed_embedding_variable.py‎
Lines changed: 2 additions & 2 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/ops/distributed_embedding_variable.py‎
Lines changed: 2 additions & 2 deletions
@@ -2,14 +2,15 @@
 import tensorflow as tf
 import tensorflow_datasets as tfds
 
-from absl import flags
-from absl import app
 from tensorflow_recommenders_addons import dynamic_embedding as de
+
 try:
   from tensorflow.keras.optimizers.legacy import Adam
 except:
   from tensorflow.keras.optimizers import Adam
 
+from tensorflow import distribute as tf_dist
+
 flags = tf.compat.v1.app.flags
 FLAGS = flags.FLAGS
 flags.DEFINE_string(
@@ -34,6 +35,18 @@
     ], dtype=tf.int64, name='movie_id')
 }
 
+gpus = tf.config.list_physical_devices('GPU')
+if gpus:
+  try:
+    # Currently, memory growth needs to be the same across GPUs
+    for gpu in gpus:
+      tf.config.experimental.set_memory_growth(gpu, True)
+    logical_gpus = tf.config.list_logical_devices('GPU')
+    print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
+  except RuntimeError as e:
+    # Memory growth must be set before GPUs have been initialized
+    print(e)
+
 
 class DualChannelsDeepModel(tf.keras.Model):
 
@@ -59,11 +72,13 @@ def __init__(self,
         user_embedding_size,
         initializer=embedding_initializer,
         devices=self.devices,
+        with_unique=False,
         name='user_embedding')
     self.movie_embedding = de.keras.layers.SquashedEmbedding(
         movie_embedding_size,
         initializer=embedding_initializer,
         devices=self.devices,
+        with_unique=False,
         name='movie_embedding')
 
     self.dnn1 = tf.keras.layers.Dense(
@@ -94,7 +109,6 @@ def call(self, features):
     user_latent = self.user_embedding(user_id)
     movie_latent = self.movie_embedding(movie_id)
     latent = tf.concat([user_latent, movie_latent], axis=1)
-
     x = self.dnn1(latent)
     x = self.dnn2(x)
     x = self.dnn3(x)
@@ -208,6 +222,7 @@ def test(self):
 
     dataset = self.get_dataset(batch_size=self.test_bs)
     dataset = self.strategy.experimental_distribute_dataset(dataset)
+
     with self.strategy.scope():
       model = tf.keras.models.load_model(self.export_dir)
     signature = model.signatures['serving_default']
@@ -237,13 +252,12 @@ def start_chief(config):
   cluster_spec = tf.train.ClusterSpec(config["cluster"])
   cluster_resolver = tf.distribute.cluster_resolver.SimpleClusterResolver(
       cluster_spec, task_type="chief", task_id=0)
-  strategy = tf.distribute.experimental.ParameterServerStrategy(
-      cluster_resolver)
+  strategy = tf_dist.experimental.ParameterServerStrategy(cluster_resolver)
   runner = Runner(strategy=strategy,
                   train_bs=64,
                   test_bs=1,
-                  epochs=2,
-                  steps_per_epoch=10,
+                  epochs=1,
+                  steps_per_epoch=1000,
                   model_dir=None,
                   export_dir=None)
   runner.train()
 
@@ -68,9 +68,9 @@ def on_batch_end(self, batch, logs=None):
     with ops.device(self.device):
       if hvd._executing_eagerly() and hasattr(self.model, 'variables'):
         # TensorFlow 2.0 or TensorFlow eager
+        from tensorflow_recommenders_addons.dynamic_embedding.python.ops.shadow_embedding_ops import is_de_resource_variable
         filter_lambda = lambda x: (x.ref() not in self._local_vars) and (
-            not isinstance(x, de.TrainableWrapper)) and (not isinstance(
-                x, de.DEResourceVariable))
+            not is_de_resource_variable(x))
         broadcast_vars = [
             var for var in self.model.variables if filter_lambda(var)
         ]
 
@@ -17,7 +17,6 @@
 Dynamic Embedding is designed for Large-scale Sparse Weights Training.
 See [Sparse Domain Isolation](https://github.com/tensorflow/community/pull/237)
 """
-
 from packaging import version
 
 import tensorflow as tf
@@ -29,6 +28,8 @@
 from tensorflow.python.keras.utils import tf_utils
 
 from tensorflow_recommenders_addons.dynamic_embedding.python.ops.shadow_embedding_ops import HvdVariable
+from tensorflow_recommenders_addons.dynamic_embedding.python.train.utils import \
+  is_parameter_server_strategy
 
 if version.parse(tf.__version__) >= version.parse("2.14"):
   from tensorflow.python.distribute import distribute_lib as distribute_ctx
@@ -225,7 +226,8 @@ def __init__(self,
       shadow_name = name + '-shadow' if name else 'ShadowVariable'
       if distribute_ctx.has_strategy():
         self.distribute_strategy = distribute_ctx.get_strategy()
-      if self.distribute_strategy:
+      if self.distribute_strategy and not is_parameter_server_strategy(
+          self.distribute_strategy):
         strategy_devices = self.distribute_strategy.extended.worker_devices
         self.shadow_impl = tf_utils.ListWrapper([])
         for i, strategy_device in enumerate(strategy_devices):
@@ -242,12 +244,23 @@ def __init__(self,
                       trainable=trainable,
                       distribute_strategy=self.distribute_strategy))
       else:
-        self.shadow_impl = tf_utils.ListWrapper([
-            de.shadow_ops.ShadowVariable(self.params,
-                                         name=shadow_name,
-                                         max_norm=self.max_norm,
-                                         trainable=trainable)
-        ])
+        if is_parameter_server_strategy(self.distribute_strategy):
+          self.shadow_impl = tf_utils.ListWrapper([
+              de.shadow_ops.ShadowVariable(
+                  self.params,
+                  name=shadow_name,
+                  max_norm=self.max_norm,
+                  distribute_strategy=self.distribute_strategy,
+                  trainable=trainable)
+          ])
+        else:
+          self.shadow_impl = tf_utils.ListWrapper([
+              de.shadow_ops.ShadowVariable(self.params,
+                                           name=shadow_name,
+                                           max_norm=self.max_norm,
+                                           trainable=trainable)
+          ])
+
     if len(self.shadow_impl.as_list()) > 1:
       self._current_ids = data_structures.NoDependency(
           [shadow_i.ids for shadow_i in self.shadow_impl.as_list()])
@@ -261,24 +274,25 @@ def __init__(self,
       self._current_exists = data_structures.NoDependency(
           self.shadow_impl.as_list()[0].exists)
       self.optimizer_vars = self.shadow_impl.as_list()[0]._optimizer_vars
-    if distribute_ctx.has_strategy(
-    ) and self.distribute_strategy and 'OneDeviceStrategy' not in str(
-        self.distribute_strategy) and not values_util.is_saving_non_distributed(
-        ) and values_util.get_current_replica_id_as_int() is not None:
+    if distribute_ctx.has_strategy() and self.distribute_strategy and \
+      'OneDeviceStrategy' not in str(self.distribute_strategy) and \
+        not values_util.is_saving_non_distributed() and \
+        values_util.get_current_replica_id_as_int() is not None:
       self.shadow = de.DistributedVariableWrapper(
           self.distribute_strategy, self.shadow_impl.as_list(),
           VariableAggregation.NONE,
           TrainableWrapperDistributedPolicy(VariableAggregation.NONE))
     else:
       self.shadow = self.shadow_impl.as_list()[0]
+
     self.params._created_in_class = self  # To facilitate access to the primitive class through params
     super(Embedding, self).__init__(name=name,
                                     trainable=trainable,
                                     dtype=value_dtype)
 
   def call(self, ids):
     """
-    Compute embedding output for feature ids. The output shape will be (shape(ids), 
+    Compute embedding output for feature ids. The output shape will be (shape(ids),
     embedding_size).
 
     Args:
 
@@ -72,6 +72,18 @@ py_test(
     ],
 )
 
+# This test is not for pytest, it requires
+# bazel test //tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests:parameter_server_bzl
+py_test(
+    name = "parameter_server_bzl",
+    srcs = ["parameter_server_bzl.py"],
+    python_version = "PY3",
+    srcs_version = "PY3",
+    deps = [
+        "//tensorflow_recommenders_addons",
+    ],
+)
+
 # This test will be banned by GitHub and cause account violations, please run the test manually locally.
 # py_test(
 #     name = "redis_table_variable_test",
 
@@ -0,0 +1,183 @@
+# pytest: skip
+import os
+import sys
+
+from absl.testing import parameterized
+from tensorflow.python.distribute import multi_process_lib
+import multiprocessing
+import tensorflow as tf
+from tensorflow.python.framework import constant_op
+
+from tensorflow.python.training import server_lib
+
+from tensorflow_recommenders_addons import dynamic_embedding as de
+
+import numpy as np
+from tensorflow.python.compat import v2_compat
+from tensorflow.python.distribute import multi_process_runner
+from tensorflow.python.distribute import multi_worker_test_base
+from tensorflow.python.distribute import parameter_server_strategy_v2
+from tensorflow.python.distribute.cluster_resolver import cluster_resolver as cluster_resolver_lib
+
+from tensorflow.python.eager import test
+from packaging import version
+from tensorflow.python.distribute.coordinator import cluster_coordinator as coordinator_lib
+from tensorflow.python.eager import def_function
+from tensorflow.python.ops import variables
+
+if version.parse(tf.__version__) >= version.parse("2.16"):
+  from tf_keras import layers
+  from tf_keras import Sequential
+  from tf_keras.optimizers import Adam
+else:
+  from tensorflow.python.keras import layers
+  from tensorflow.python.keras import Sequential
+  try:
+    from tensorflow.keras.optimizers import Adam
+  except:
+    from tensorflow.keras.optimizers.legacy import Adam
+
+
+def create_multi_process_cluster(cluster_spec,
+                                 rpc_layer='grpc',
+                                 stream_output=False,
+                                 collective_leader=None):
+
+  cluster = multi_worker_test_base.MultiProcessCluster(
+      cluster_resolver_lib.SimpleClusterResolver(
+          server_lib.ClusterSpec(cluster_spec), rpc_layer=rpc_layer),
+      stream_output=stream_output,
+      collective_leader=collective_leader)
+  cluster.start()
+  return cluster
+
+
+class ParameterServerStrategyV2Test(test.TestCase):
+
+  @classmethod
+  def setUpClass(cls):
+    super(ParameterServerStrategyV2Test, cls).setUpClass()
+    cluster_spec = {
+        "worker": ["localhost:2223", "localhost:2224"],
+        "ps": ["localhost:2222"]
+    }
+    cls.cluster = create_multi_process_cluster(cluster_spec)
+    cls.cluster_resolver = cls.cluster.cluster_resolver
+    # cls.strategy = DEParameterServerStrategy(cls.cluster_resolver)
+    cls.strategy = parameter_server_strategy_v2.ParameterServerStrategyV2(
+        cls.cluster_resolver)
+    cls.coordinator = coordinator_lib.ClusterCoordinator(cls.strategy)
+
+  @classmethod
+  def tearDownClass(cls):
+    super(ParameterServerStrategyV2Test, cls).tearDownClass()
+    cls.cluster.stop()
+
+  #@parameterized.parameters(True, False)
+  def testPerWorkerVariableCreation(self):
+    var_dtype = tf.dtypes.float32
+    var_name = 'var'
+    shape = [1]  #if define_shape else None
+
+    # with self.strategy.scope():
+    var = variables.Variable(initial_value=[0.0],
+                             shape=shape,
+                             dtype=var_dtype,
+                             name=var_name,
+                             per_worker_de_variable=True)
+
+    # Use per-worker variable as a capture
+    @def_function.function
+    def worker_fn():
+      var.assign_add(constant_op.constant([1.0]))
+      return var
+
+    num_closures = 10
+    for ix in range(num_closures):
+      self.coordinator.schedule(worker_fn)
+      # Read the PWV many times to ensure result is up-to-date
+      self.coordinator.join()
+      result_sum = sum(var.read_all()).numpy()
+      self.assertEqual(result_sum, ix + 1)
+
+    for _ in range(num_closures):
+      self.coordinator.schedule(worker_fn)
+    self.coordinator.join()
+
+    # Verify placement of variables
+    devices = [wv._get_values().device for wv in var._per_worker_vars._values]
+    expected_devices = [
+        f'/job:worker/replica:0/task:{ix}/device:CPU:0'
+        for ix in range(self.strategy._num_workers)
+    ]  # pylint: disable=protected-access
+    self.assertAllEqual(devices, expected_devices)
+
+    result_sum = sum(var.read_all()).numpy()
+    self.assertEqual(result_sum, num_closures * 2)
+
+  def testKerasFit(self):
+    embed_dim = 8
+    with self.strategy.scope():
+      model = Sequential([
+          layers.Input(shape=(1,), dtype=tf.int32),
+          de.keras.layers.Embedding(embed_dim, key_dtype=tf.int32),
+          layers.Flatten(),
+          layers.Dense(1, activation='sigmoid')
+      ])
+      optimizer = Adam(1E-3)
+      optimizer = de.DynamicEmbeddingOptimizer(optimizer)
+      model.compile(loss='binary_crossentropy',
+                    optimizer=optimizer,
+                    metrics=['accuracy'])
+
+    ids = np.random.randint(0, 100, size=(64 * 2, 1))
+    labels = np.random.randint(0, 2, size=(64 * 2, 1))
+
+    def dataset_fn(input_context):
+      global_batch_size = 32
+      batch_size = input_context.get_per_replica_batch_size(global_batch_size)
+      dataset = tf.data.Dataset.from_tensor_slices((ids, labels))
+      dataset = dataset.shard(input_context.num_input_pipelines,
+                              input_context.input_pipeline_id)
+      dataset = dataset.batch(batch_size).repeat()
+      return dataset
+
+    dataset = self.strategy.distribute_datasets_from_function(dataset_fn)
+
+    history = model.fit(dataset, epochs=1, steps_per_epoch=len(ids) // 64)
+    self.assertIn('loss', history.history)
+
+
+# borrow from multi_process_lib._set_spawn_exe_path and modify it for tf_recommenders_addons
+def custom_set_spawn_exe_path():
+  if sys.argv[0].endswith('.py'):
+
+    def guess_path(package_root):
+      # If all we have is a python module path, we'll need to make a guess for
+      # the actual executable path.
+      if 'bazel-out' in sys.argv[0] and package_root in sys.argv[0]:
+        package_root_base = sys.argv[0][:sys.argv[0].rfind(package_root)]
+        binary = os.environ['TEST_TARGET'][2:].replace(':', '/', 1)
+        print(f"package_root_base {package_root_base} binary {binary}")
+        possible_path = os.path.join(package_root_base, package_root, binary)
+        print('Guessed test binary path: %s', possible_path)
+        if os.access(possible_path, os.X_OK):
+          return possible_path
+        return None
+
+    path = guess_path('tf_recommenders_addons')
+    if path is None:
+      print('Cannot determine binary path. sys.argv[0]=%s os.environ=%s',
+            sys.argv[0], os.environ)
+      raise RuntimeError('Cannot determine binary path')
+    sys.argv[0] = path
+  # Note that this sets the executable for *all* contexts.
+  multiprocessing.get_context().set_executable(sys.argv[0])
+
+
+# This is not for pytest
+# bazel test //tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests:parameter_server_bzl
+if __name__ == "__main__":
+  multi_process_lib._set_spawn_exe_path = custom_set_spawn_exe_path
+  v2_compat.enable_v2_behavior()
+  multi_process_runner.test_main()
@@ -10,10 +10,10 @@ class DistributedVariableWrapper(EmbeddingWeights,
   def __init__(self, strategy, values, aggregation, var_policy=None):
     super(DistributedVariableWrapper, self).__init__(strategy, values,
                                                      aggregation, var_policy)
-    self.shadow = self._get_on_device_or_primary()
+    self._shadow = self._get_on_device_or_primary()
 
   def verify_embedding_weights(self, sparse_ids, sparse_weights=None):
-    EmbeddingWeights.verify_embedding_param_weights(self.shadow.params,
+    EmbeddingWeights.verify_embedding_param_weights(self._shadow.params,
                                                     sparse_ids, sparse_weights)
 
   def embedding_lookup(self,