ut for ps

jq · jq · commit 9109fa8467bc · 2025-03-11T07:56:41.000-07:00
diff --git a/demo/dynamic_embedding/movielens-1m-keras-ps/movielens-1m-keras-ps.py b/demo/dynamic_embedding/movielens-1m-keras-ps/movielens-1m-keras-ps.py
@@ -10,6 +10,8 @@
 except:
   from tensorflow.keras.optimizers import Adam
 
+from tensorflow.python.distribute import parameter_server_strategy_v2
+
 flags = tf.compat.v1.app.flags
 FLAGS = flags.FLAGS
 flags.DEFINE_string(
@@ -34,6 +36,18 @@
     ], dtype=tf.int64, name='movie_id')
 }
 
+gpus = tf.config.list_physical_devices('GPU')
+if gpus:
+  try:
+    # Currently, memory growth needs to be the same across GPUs
+    for gpu in gpus:
+      tf.config.experimental.set_memory_growth(gpu, True)
+    logical_gpus = tf.config.list_logical_devices('GPU')
+    print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
+  except RuntimeError as e:
+    # Memory growth must be set before GPUs have been initialized
+    print(e)
+
 
 class DualChannelsDeepModel(tf.keras.Model):
 
@@ -91,15 +105,17 @@ def __init__(self,
   def call(self, features):
     user_id = tf.reshape(features['user_id'], (-1, 1))
     movie_id = tf.reshape(features['movie_id'], (-1, 1))
-    user_latent = self.user_embedding(user_id)
-    movie_latent = self.movie_embedding(movie_id)
-    latent = tf.concat([user_latent, movie_latent], axis=1)
+    printop = tf.print("partition_x4_index_key_outside ", tf.shape(user_id),user_id, tf.shape(movie_id), movie_id, output_stream=tf.compat.v1.logging.error)
+    with tf.control_dependencies([printop]):
+      user_latent = self.user_embedding(user_id)
+      # movie_latent = self.movie_embedding(movie_id)
+    # latent = tf.concat([user_latent, movie_latent], axis=1)
 
-    x = self.dnn1(latent)
+    x = self.dnn1(user_latent)
     x = self.dnn2(x)
     x = self.dnn3(x)
 
-    bias = self.bias_net(latent)
+    bias = self.bias_net(user_latent)
     x = 0.2 * x + 0.8 * bias
     return x
 
@@ -136,11 +152,11 @@ def get_dataset(self, batch_size=1):
     dataset = dataset.shuffle(4096, reshuffle_each_iteration=False)
     if batch_size > 1:
       dataset = dataset.batch(batch_size)
-    return dataset
+    return dataset #.repeat()
 
   def train(self):
     dataset = self.get_dataset(batch_size=self.train_bs)
-    dataset = self.strategy.experimental_distribute_dataset(dataset)
+    #dataset = self.strategy.experimental_distribute_dataset(dataset)
     with self.strategy.scope():
       model = DualChannelsDeepModel(
           self.ps_devices, self.embedding_size, self.embedding_size,
@@ -237,7 +253,7 @@ def start_chief(config):
   cluster_spec = tf.train.ClusterSpec(config["cluster"])
   cluster_resolver = tf.distribute.cluster_resolver.SimpleClusterResolver(
       cluster_spec, task_type="chief", task_id=0)
-  strategy = tf.distribute.experimental.ParameterServerStrategy(
+  strategy = parameter_server_strategy_v2.ParameterServerStrategyV2(
       cluster_resolver)
   runner = Runner(strategy=strategy,
                   train_bs=64,
diff --git a/demo/dynamic_embedding/movielens-1m-keras-ps/s1.sh b/demo/dynamic_embedding/movielens-1m-keras-ps/s1.sh
@@ -0,0 +1,13 @@
+#!/bin/bash
+rm -rf ./ckpt
+sh stop.sh
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220,localhost:2221" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="ps" --task_id=0 &
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220,localhost:2221" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="ps" --task_id=1 &
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220,localhost:2221" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="worker" --task_id=0 &
+sleep 1
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220,localhost:2221" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="chief" --task_id=0
+echo "ok"
diff --git a/tensorflow_recommenders_addons/dynamic_embedding/python/keras/layers/embedding.py b/tensorflow_recommenders_addons/dynamic_embedding/python/keras/layers/embedding.py
@@ -226,10 +226,13 @@ def __init__(self,
       if distribute_ctx.has_strategy():
         self.distribute_strategy = distribute_ctx.get_strategy()
       if self.distribute_strategy:
-        strategy_devices = self.distribute_strategy.extended.worker_devices
+        # l = ["/job:ps/replica:0/task:0/device:CPU:0", "/job:ps/replica:0/task:1/device:CPU:0"]
+        l = ["/job:ps/replica:0/task:0/device:CPU:0"]
+        strategy_devices = l #self.distribute_strategy.extended.worker_devices
         self.shadow_impl = tf_utils.ListWrapper([])
         for i, strategy_device in enumerate(strategy_devices):
           with ops.device(strategy_device):
+            print(f"strategy_device {strategy_device}" )
             shadow_name_replica = shadow_name
             if i > 0:
               shadow_name_replica = "%s/replica_%d" % (shadow_name, i)
@@ -289,6 +292,7 @@ def call(self, ids):
     Returns:
       A embedding output with shape (shape(ids), embedding_size).
     """
+
     return de.shadow_ops.embedding_lookup_unique(self.shadow, ids,
                                                  self.embedding_size,
                                                  self.with_unique, self.name)
diff --git a/tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/BUILD b/tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/BUILD
@@ -22,6 +22,16 @@ py_test(
     ],
 )
 
+py_test(
+    name = "ps_test",
+    srcs = ["ps_test.py"],
+    python_version = "PY3",
+    srcs_version = "PY3",
+    deps = [
+        "//tensorflow_recommenders_addons",
+    ],
+)
+
 py_test(
     name = "dynamic_embedding_ops_test",
     srcs = ["dynamic_embedding_ops_test.py"],
diff --git a/tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/ps_test.py b/tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/ps_test.py
@@ -0,0 +1,186 @@
+
+import os
+import sys
+from tensorflow.python.distribute import multi_process_lib
+import multiprocessing
+import tensorflow as tf
+import contextlib
+import functools
+from tensorflow_recommenders_addons import dynamic_embedding as de
+
+from absl.testing import parameterized
+import numpy as np
+from tensorflow.core.protobuf import saved_model_pb2
+from tensorflow.python.checkpoint import checkpoint as tracking_util
+from tensorflow.python.compat import v2_compat
+from tensorflow.python.data.ops import dataset_ops
+from tensorflow.python.distribute import distribute_lib
+from tensorflow.python.distribute import multi_process_runner
+from tensorflow.python.distribute import multi_worker_test_base
+from tensorflow.python.distribute import parameter_server_strategy_v2
+from tensorflow.python.distribute import ps_values
+from tensorflow.python.distribute import sharded_variable
+from tensorflow.python.distribute.cluster_resolver import cluster_resolver as cluster_resolver_lib
+from tensorflow.python.eager import context
+from tensorflow.python.eager import def_function
+from tensorflow.python.eager import test
+from tensorflow.python.framework import constant_op
+from tensorflow.python.framework import dtypes
+from tensorflow.python.framework import ops
+from tensorflow.python.framework import tensor_spec
+from tensorflow.python.framework import test_util
+from tensorflow.python.module import module
+from tensorflow.python.ops import array_ops
+from tensorflow.python.ops import embedding_ops
+from tensorflow.python.ops import init_ops_v2
+from tensorflow.python.ops import linalg_ops_impl
+from tensorflow.python.ops import math_ops
+from tensorflow.python.ops import variable_scope
+from tensorflow.python.ops import variables
+from tensorflow.python.platform import gfile
+from tensorflow.python.saved_model import save as tf_save
+from tensorflow.python.trackable import autotrackable
+from tensorflow.python.training import server_lib
+from packaging import version
+
+if version.parse(tf.__version__) >= version.parse("2.16"):
+  from tf_keras import layers
+  from tf_keras import Sequential
+  from tf_keras.optimizers import Adam
+else:
+  from tensorflow.python.keras import layers
+  from tensorflow.python.keras import Sequential
+  from tensorflow.python.keras.optimizers import Adam
+
+class ParameterServerStrategyV2Test(test.TestCase):
+  @classmethod
+  def setUpClass(cls):
+    super(ParameterServerStrategyV2Test, cls).setUpClass()
+    cls.cluster = multi_worker_test_base.create_multi_process_cluster(
+    num_workers=2, num_ps=3, rpc_layer="grpc")
+    cls.cluster_resolver = cls.cluster.cluster_resolver
+
+  @classmethod
+  def tearDownClass(cls):
+    super(ParameterServerStrategyV2Test, cls).tearDownClass()
+    cls.cluster.stop()
+
+  def testKerasFit(self):
+    strategy = parameter_server_strategy_v2.ParameterServerStrategyV2(
+      self.cluster_resolver)
+    # vocab_size = 100
+    embed_dim = 8
+    with strategy.scope():
+      model = Sequential([
+        layers.Input(shape=(1,), dtype=tf.int32),
+        de.keras.layers.Embedding(embed_dim, key_dtype=tf.int32),
+        # layers.Embedding(input_dim=vocab_size, output_dim=embed_dim),
+        layers.Flatten(),
+        layers.Dense(1, activation='sigmoid')
+      ])
+      optimizer = Adam(1E-3)
+      optimizer = de.DynamicEmbeddingOptimizer(optimizer)
+      model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy'])
+
+    ids = np.random.randint(0, 100, size=(64*2, 1))
+    labels = np.random.randint(0, 2, size=(64*2, 1))
+
+    def dataset_fn(input_context):
+      global_batch_size = 32
+      batch_size = input_context.get_per_replica_batch_size(global_batch_size)
+      dataset = tf.data.Dataset.from_tensor_slices((ids, labels))
+      dataset = dataset.shard(input_context.num_input_pipelines, input_context.input_pipeline_id)
+      dataset = dataset.batch(batch_size).repeat()
+      return dataset
+
+    dataset = strategy.distribute_datasets_from_function(dataset_fn)
+
+    history = model.fit(dataset, epochs=1, steps_per_epoch=len(ids) // 64)
+    self.assertIn('loss', history.history)
+
+  # def testSparselyReadForEmbeddingLookup(self):
+  #   strategy = parameter_server_strategy_v2.ParameterServerStrategyV2(
+  #     self.cluster_resolver)
+  #
+  #   class FakeModel(module.Module):
+  #
+  #     def __init__(self):
+  #       self._var0 = variables.Variable([1.0, 2.0, 3.0, 4.0])
+  #       self._var1 = variables.Variable([5.0, 6.0, 7.0, 8.0])
+  #
+  #     @def_function.function(input_signature=[
+  #       tensor_spec.TensorSpec(shape=[2], dtype=dtypes.int32, name="inputs")
+  #     ])
+  #     def func(self, x):
+  #       return embedding_ops.embedding_lookup([self._var0, self._var1], x)
+  #
+  #   with strategy.scope():
+  #     model = FakeModel()
+  #
+  #   # Assert that ResourceGather op exists instead of Gather in training function.
+  #   found_resource_gather = False
+  #   found_gather = False
+  #
+  #   for n in model.func.get_concrete_function().graph.as_graph_def().node:
+  #     if n.op == "ResourceGather":
+  #       found_resource_gather = True
+  #     elif n.op == "Gather":
+  #       found_gather = True
+  #   self.assertTrue(found_resource_gather)
+  #   self.assertFalse(found_gather)
+  #
+  #   # Assert that ResourceGather op exists instead of Gather in saved_model.
+  #   found_resource_gather = False
+  #   found_gather = False
+  #
+  #   tmp_dir = self.get_temp_dir()
+  #   tf_save.save(model, tmp_dir, signatures=model.func)
+  #
+  #   with gfile.Open("%s/saved_model.pb" % tmp_dir, "rb") as f:
+  #     saved_model_proto = saved_model_pb2.SavedModel().FromString(f.read())
+  #
+  #   for function in saved_model_proto.meta_graphs[0].graph_def.library.function:
+  #     for n in function.node_def:
+  #       if n.op == "ResourceGather":
+  #         found_resource_gather = True
+  #         resource_gather_device = n.device
+  #       elif n.op == "Gather":
+  #         found_gather = True
+  #   self.assertTrue(found_resource_gather)
+  #   self.assertFalse(found_gather)
+  #
+  #   # We also assert that the colocate_with in embedding_ops will not result in
+  #   # a hard-coded device string.
+  #   self.assertEmpty(resource_gather_device)
+
+def custom_set_spawn_exe_path():
+  print(f"custom_set_spawn_exe_path {sys.argv[0]} {os.environ['TEST_TARGET']}")
+  if sys.argv[0].endswith('.py'):
+    def guess_path(package_root):
+      # If all we have is a python module path, we'll need to make a guess for
+      # the actual executable path.
+      if 'bazel-out' in sys.argv[0] and package_root in sys.argv[0]:
+        package_root_base = sys.argv[0][:sys.argv[0].rfind(package_root)]
+        binary = os.environ['TEST_TARGET'][2:].replace(':', '/', 1)
+        print(f"package_root_base {package_root_base} binary {binary}")
+        possible_path = os.path.join(package_root_base, package_root,
+                                     binary)
+        print('Guessed test binary path: %s', possible_path)
+        if os.access(possible_path, os.X_OK):
+          return possible_path
+        return None
+    path = guess_path('tf_recommenders_addons')
+    if path is None:
+      print(
+        'Cannot determine binary path. sys.argv[0]=%s os.environ=%s',
+        sys.argv[0], os.environ)
+      raise RuntimeError('Cannot determine binary path')
+    sys.argv[0] = path
+  # Note that this sets the executable for *all* contexts.
+  multiprocessing.get_context().set_executable(sys.argv[0])
+
+
+if __name__ == "__main__":
+  multi_process_lib._set_spawn_exe_path = custom_set_spawn_exe_path
+  v2_compat.enable_v2_behavior()
+  multi_process_runner.test_main()
diff --git a/tensorflow_recommenders_addons/dynamic_embedding/python/ops/dynamic_embedding_optimizer.py b/tensorflow_recommenders_addons/dynamic_embedding/python/ops/dynamic_embedding_optimizer.py
@@ -870,7 +870,7 @@ def compute_gradients_horovod_wrapper_impl(*args, **kwargs):
 def create_slots(variable, init, slot_name, op_name, bp_v2):
   """Helper function for creating a slot variable for statefull optimizers."""
   if distribute_utils.is_distributed_variable(variable):
-    strategy_devices = variable.distribute_strategy.extended.worker_devices
+    strategy_devices =["/job:ps/replica:0/task:0/device:CPU:0"] #variable.distribute_strategy.extended.worker_devices
     primary = variable._get_on_device_or_primary()
     params_var_ = primary.params
   else:
diff --git a/tensorflow_recommenders_addons/dynamic_embedding/python/ops/dynamic_embedding_variable.py b/tensorflow_recommenders_addons/dynamic_embedding/python/ops/dynamic_embedding_variable.py
@@ -952,8 +952,10 @@ def lookup(self, keys, return_exists=False, name=None):
           Only provided if `return_exists` is True.
     """
     partition_index = self.partition_fn(keys, self.shard_num)
-    keys_partitions, keys_indices = make_partition(keys, partition_index,
-                                                   self.shard_num)
+    printop = tf.print("partition_x4_index_key: ", tf.shape(keys), keys,output_stream=tf.compat.v1.logging.error)
+    with tf.control_dependencies([printop]):
+      keys_partitions, keys_indices = make_partition(keys, partition_index,
+                                                     self.shard_num)
 
     _values = []
     _exists = []
@@ -983,7 +985,9 @@ def lookup(self, keys, return_exists=False, name=None):
                 _stitch(_exists, keys_indices, use_fast=True))
     else:
       result = _stitch(_values, keys_indices, use_fast=True)
-    return result
+    printop2 = tf.print("partition_x4_index_key_result: ", tf.shape(keys) ,keys, tf.shape(result), result, output_stream=tf.compat.v1.logging.error)
+    with tf.control_dependencies([printop2]):
+      return result
 
   def export(self, name=None):
     """Returns tensors of all keys and values in the table.
diff --git a/tensorflow_recommenders_addons/dynamic_embedding/python/ops/shadow_embedding_ops.py b/tensorflow_recommenders_addons/dynamic_embedding/python/ops/shadow_embedding_ops.py
@@ -313,8 +313,12 @@ def embedding_lookup_unique_base(ids,
   ids_flat = tf.reshape(ids, (-1,))
   if with_unique:
     with ops.name_scope(name, "EmbeddingWithUnique"):
-      unique_ids, idx = tf.unique(ids_flat)
-      unique_embeddings = lookup_function(unique_ids)
+      printop = tf.print("partition_x4_index_key_before_unique: ", tf.shape(ids_flat), ids_flat,output_stream=tf.compat.v1.logging.error)
+      with tf.control_dependencies([printop]):
+        unique_ids, idx = tf.unique(ids_flat)
+      printop = tf.print("partition_x4_index_key_after_unique: ", tf.shape(unique_ids), unique_ids,output_stream=tf.compat.v1.logging.error)
+      with tf.control_dependencies([printop]):
+        unique_embeddings = lookup_function(unique_ids)
       embeddings_flat = tf.gather(unique_embeddings, idx)
   else:
     embeddings_flat = lookup_function(ids_flat)