shenweichen
diff --git a/‎.github/workflows/ci.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/ci.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎README.md‎
Lines changed: 7 additions & 3 deletions b/‎README.md‎
Lines changed: 7 additions & 3 deletions
diff --git a/‎deepctr/models/mtl/__init__.py‎ b/‎deepctr/models/mtl/__init__.py‎
diff --git a/‎deepctr/models/mtl/cgc.py‎
Lines changed: 114 additions & 0 deletions b/‎deepctr/models/mtl/cgc.py‎
Lines changed: 114 additions & 0 deletions
diff --git a/‎deepctr/models/mtl/essm.py‎
Lines changed: 63 additions & 0 deletions b/‎deepctr/models/mtl/essm.py‎
Lines changed: 63 additions & 0 deletions
diff --git a/‎deepctr/models/mtl/mmoe.py‎
Lines changed: 100 additions & 0 deletions b/‎deepctr/models/mtl/mmoe.py‎
Lines changed: 100 additions & 0 deletions
@@ -18,7 +18,7 @@ jobs:
     strategy:
       matrix:
         python-version: [3.6,3.7]
-        tf-version: [1.4.0,1.15.0,2.1.0,2.5.0]
+        tf-version: [1.4.0,1.15.0,2.2.0,2.5.0]
 
         exclude:
           - python-version: 3.7
 
@@ -45,8 +45,8 @@ Let's [**Get Started!**](https://deepctr-doc.readthedocs.io/en/latest/Quick-Star
 |   Attentional Factorization Machine    | [IJCAI 2017][Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks](http://www.ijcai.org/proceedings/2017/435) |
 |      Neural Factorization Machine      | [SIGIR 2017][Neural Factorization Machines for Sparse Predictive Analytics](https://arxiv.org/pdf/1708.05027.pdf)                                               |
 |                xDeepFM                 | [KDD 2018][xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems](https://arxiv.org/pdf/1803.05170.pdf)                         |
-|         Deep Interest Network          | [KDD 2018][Deep Interest Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1706.06978.pdf)     
-|                AutoInt                 | [CIKM 2019][AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks](https://arxiv.org/abs/1810.11921)                              ||
+|         Deep Interest Network          | [KDD 2018][Deep Interest Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1706.06978.pdf)     |
+|                AutoInt                 | [CIKM 2019][AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks](https://arxiv.org/abs/1810.11921)                              |
 |    Deep Interest Evolution Network     | [AAAI 2019][Deep Interest Evolution Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1809.03672.pdf)                                            |
 |                FwFM                    | [WWW 2018][Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising](https://arxiv.org/pdf/1806.03514.pdf)                |
 |                  ONN                  | [arxiv 2019][Operation-aware Neural Networks for User Response Prediction](https://arxiv.org/pdf/1904.12579.pdf)                                                |
@@ -59,7 +59,11 @@ Let's [**Get Started!**](https://deepctr-doc.readthedocs.io/en/latest/Quick-Star
 |                DCN V2                    | [arxiv 2020][DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems](https://arxiv.org/abs/2008.13535)   |
 |                DIFM                 | [IJCAI 2020][A Dual Input-aware Factorization Machine for CTR Prediction](https://www.ijcai.org/Proceedings/2020/0434.pdf)   |
 |   FEFM and DeepFEFM                    | [arxiv 2020][Field-Embedded Factorization Machines for Click-through rate prediction](https://arxiv.org/abs/2009.09931)                                         |
-
+|              Shared-Bottom               | [Multitask learning](http://reports-archive.adm.cs.cmu.edu/anon/1997/CMU-CS-97-203.pdf)  |
+|   ESSM                    | [SIGIR 2018][Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate](https://arxiv.org/abs/1804.07931)                       |
+|   MMOE                    | [KDD 2018][Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts](https://dl.acm.org/doi/abs/10.1145/3219819.3220007)                   |
+|   CGC                    | [RecSys 2020][Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations](https://dl.acm.org/doi/10.1145/3383313.3412236)                   |
+|   PLE                    | [RecSys 2020][Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations](https://dl.acm.org/doi/10.1145/3383313.3412236)                   |
 ## Citation
 
 - Weichen Shen. (2017). DeepCTR: Easy-to-use,Modular and Extendible package of deep-learning based CTR models. https://github.com/shenweichen/deepctr.
 
@@ -0,0 +1,114 @@
+"""
+Author:
+    Mincai Lai, [email protected]
+
+Reference:
+    [1] Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020.(https://arxiv.org/abs/1804.07931)
+"""
+import tensorflow as tf
+
+from ...feature_column import build_input_features, input_from_feature_columns
+from ...layers.core import PredictionLayer, DNN
+from ...layers.utils import combined_dnn_input, reduce_sum
+
+
+def CGC(dnn_feature_columns, num_tasks=None, task_types=None, task_names=None, num_experts_specific=8,
+        num_experts_shared=4,
+        expert_dnn_units=(128, 128), gate_dnn_units=None, tower_dnn_units_lists=((32,), (32,)),
+        l2_reg_embedding=0.00001, l2_reg_dnn=0, seed=1024, dnn_dropout=0, dnn_activation='relu', dnn_use_bn=False):
+    """Instantiates the Customized Gate Control block of Progressive Layered Extraction architecture.
+
+    :param dnn_feature_columns: An iterable containing all the features used by deep part of the model.
+    :param num_tasks: integer, number of tasks, equal to number of outputs, must be greater than 1.
+    :param task_types: list of str, indicating the loss of each tasks, ``"binary"`` for  binary logloss, ``"regression"`` for regression loss. e.g. ['binary', 'regression']
+    :param task_names: list of str, indicating the predict target of each tasks
+
+    :param num_experts_specific: integer, number of task-specific experts.
+    :param num_experts_shared: integer, number of task-shared experts.
+
+    :param expert_dnn_units: list, list of positive integer, its length must be greater than 1, the layer number and units in each layer of expert DNN
+    :param gate_dnn_units: list, list of positive integer or None, the layer number and units in each layer of gate DNN, default value is None. e.g.[8, 8].
+    :param tower_dnn_units_lists: list, list of positive integer list, its length must be euqal to num_tasks, the layer number and units in each layer of task-specific DNN
+
+    :param l2_reg_embedding: float. L2 regularizer strength applied to embedding vector
+    :param l2_reg_dnn: float. L2 regularizer strength applied to DNN
+    :param seed: integer ,to use as random seed.
+    :param dnn_dropout: float in [0,1), the probability we will drop out a given DNN coordinate.
+    :param dnn_activation: Activation function to use in DNN
+    :param dnn_use_bn: bool. Whether use BatchNormalization before activation or not in DNN
+    :return: a Keras model instance
+    """
+
+    if num_tasks <= 1:
+        raise ValueError("num_tasks must be greater than 1")
+    if len(task_types) != num_tasks:
+        raise ValueError("num_tasks must be equal to the length of task_types")
+
+    for task_type in task_types:
+        if task_type not in ['binary', 'regression']:
+            raise ValueError("task must be binary or regression, {} is illegal".format(task_type))
+
+    if num_tasks != len(tower_dnn_units_lists):
+        raise ValueError("the length of tower_dnn_units_lists must be euqal to num_tasks")
+
+    features = build_input_features(dnn_feature_columns)
+
+    inputs_list = list(features.values())
+
+    sparse_embedding_list, dense_value_list = input_from_feature_columns(features, dnn_feature_columns,
+                                                                         l2_reg_embedding, seed)
+    dnn_input = combined_dnn_input(sparse_embedding_list, dense_value_list)
+
+    expert_outputs = []
+    # build task-specific expert layer
+    for i in range(num_tasks):
+        for j in range(num_experts_specific):
+            expert_network = DNN(expert_dnn_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                                 name='task_' + task_names[i] + '_expert_specific_' + str(j))(dnn_input)
+            expert_outputs.append(expert_network)
+
+    # build task-shared expert layer
+    for i in range(num_experts_shared):
+        expert_network = DNN(expert_dnn_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                             name='expert_shared_' + str(i))(dnn_input)
+        expert_outputs.append(expert_network)
+
+    # build one Extraction Layer
+    cgc_outs = []
+    for i in range(num_tasks):
+        # concat task-specific expert and task-shared expert
+        cur_expert_num = num_experts_specific + num_experts_shared
+        cur_experts = expert_outputs[i * num_experts_specific:(i + 1) * num_experts_specific] + expert_outputs[-int(
+            num_experts_shared):]  # task_specific + task_shared
+        expert_concat = tf.keras.layers.concatenate(cur_experts, axis=1, name='expert_concat_' + task_names[i])
+        expert_concat = tf.keras.layers.Reshape([cur_expert_num, expert_dnn_units[-1]],
+                                                name='expert_reshape_' + task_names[i])(expert_concat)
+
+        # build gate layers
+        if gate_dnn_units != None:
+            gate_network = DNN(gate_dnn_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                               name='gate_' + task_names[i])(dnn_input)
+            gate_input = gate_network
+        else:  # in origin paper, gate is one Dense layer with softmax.
+            gate_input = dnn_input
+
+        gate_out = tf.keras.layers.Dense(cur_expert_num, use_bias=False, activation='softmax',
+                                         name='gate_softmax_' + task_names[i])(gate_input)
+        gate_out = tf.keras.layers.Lambda(lambda x: tf.expand_dims(x, axis=-1))(gate_out)
+
+        # gate multiply the expert
+        gate_mul_expert = tf.keras.layers.Multiply(name='gate_mul_expert_' + task_names[i])([expert_concat, gate_out])
+        gate_mul_expert = tf.keras.layers.Lambda(lambda x: reduce_sum(x, axis=1, keep_dims=True))(gate_mul_expert)
+        cgc_outs.append(gate_mul_expert)
+
+    task_outs = []
+    for task_type, task_name, tower_dnn, cgc_out in zip(task_types, task_names, tower_dnn_units_lists, cgc_outs):
+        # build tower layer
+        tower_output = DNN(tower_dnn, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                           name='tower_' + task_name)(cgc_out)
+        logit = tf.keras.layers.Dense(1, use_bias=False, activation=None)(tower_output)
+        output = PredictionLayer(task_type, name=task_name)(logit)
+        task_outs.append(output)
+
+    model = tf.keras.models.Model(inputs=inputs_list, outputs=task_outs)
+    return model
@@ -0,0 +1,63 @@
+"""
+Author:
+    Mincai Lai, [email protected]
+
+Reference:
+    [1] Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018.(https://arxiv.org/abs/1804.07931)
+"""
+
+import tensorflow as tf
+
+from ...feature_column import build_input_features, input_from_feature_columns
+from ...layers.core import PredictionLayer, DNN
+from ...layers.utils import combined_dnn_input
+
+
+def ESSM(dnn_feature_columns, task_type='binary', task_names=('ctr', 'ctcvr'),
+         tower_dnn_units_lists=((128, 128), (128, 128)), l2_reg_embedding=0.00001, l2_reg_dnn=0,
+         seed=1024, dnn_dropout=0, dnn_activation='relu', dnn_use_bn=False):
+    """Instantiates the Entire Space Multi-Task Model architecture.
+
+    :param dnn_feature_columns: An iterable containing all the features used by deep part of the model.
+    :param task_type:  str, indicating the loss of each tasks, ``"binary"`` for  binary logloss or  ``"regression"`` for regression loss.
+    :param task_names: list of str, indicating the predict target of each tasks. default value is ['ctr', 'ctcvr']
+
+    :param tower_dnn_units_lists: list, list of positive integer, the length must be equal to 2, the layer number and units in each layer of task-specific DNN
+
+    :param l2_reg_embedding: float. L2 regularizer strength applied to embedding vector
+    :param l2_reg_dnn: float. L2 regularizer strength applied to DNN
+    :param seed: integer ,to use as random seed.
+    :param dnn_dropout: float in [0,1), the probability we will drop out a given DNN coordinate.
+    :param dnn_activation: Activation function to use in DNN
+    :param dnn_use_bn: bool. Whether use BatchNormalization before activation or not in DNN
+    :return: A Keras model instance.
+    """
+    if len(task_names) != 2:
+        raise ValueError("the length of task_names must be equal to 2")
+
+    if len(tower_dnn_units_lists) != 2:
+        raise ValueError("the length of tower_dnn_units_lists must be equal to 2")
+
+    features = build_input_features(dnn_feature_columns)
+    inputs_list = list(features.values())
+
+    sparse_embedding_list, dense_value_list = input_from_feature_columns(features, dnn_feature_columns,
+                                                                         l2_reg_embedding, seed)
+
+    dnn_input = combined_dnn_input(sparse_embedding_list, dense_value_list)
+
+    ctr_output = DNN(tower_dnn_units_lists[0], dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed)(
+        dnn_input)
+    cvr_output = DNN(tower_dnn_units_lists[1], dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed)(
+        dnn_input)
+
+    ctr_logit = tf.keras.layers.Dense(1, use_bias=False, activation=None)(ctr_output)
+    cvr_logit = tf.keras.layers.Dense(1, use_bias=False, activation=None)(cvr_output)
+
+    ctr_pred = PredictionLayer(task_type, name=task_names[0])(ctr_logit)
+    cvr_pred = PredictionLayer(task_type)(cvr_logit)
+
+    ctcvr_pred = tf.keras.layers.Multiply(name=task_names[1])([ctr_pred, cvr_pred])  # CTCVR = CTR * CVR
+
+    model = tf.keras.models.Model(inputs=inputs_list, outputs=[ctr_pred, ctcvr_pred])
+    return model
@@ -0,0 +1,100 @@
+"""
+Author:
+    Mincai Lai, [email protected]
+
+Reference:
+    [1] Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.(https://dl.acm.org/doi/abs/10.1145/3219819.3220007)
+"""
+
+import tensorflow as tf
+
+from ...feature_column import build_input_features, input_from_feature_columns
+from ...layers.core import PredictionLayer, DNN
+from ...layers.utils import combined_dnn_input, reduce_sum
+
+
+def MMOE(dnn_feature_columns, num_tasks=None, task_types=None, task_names=None, num_experts=4,
+         expert_dnn_units=(128, 128), gate_dnn_units=None, tower_dnn_units_lists=((32,), (32,)),
+         l2_reg_embedding=0.00001, l2_reg_dnn=0, seed=1024, dnn_dropout=0, dnn_activation='relu', dnn_use_bn=False):
+    """Instantiates the Multi-gate Mixture-of-Experts multi-task learning architecture.
+
+    :param dnn_feature_columns: An iterable containing all the features used by deep part of the model.
+    :param num_tasks: integer, number of tasks, equal to number of outputs, must be greater than 1.
+    :param task_types: list of str, indicating the loss of each tasks, ``"binary"`` for  binary logloss, ``"regression"`` for regression loss. e.g. ['binary', 'regression']
+    :param task_names: list of str, indicating the predict target of each tasks
+
+    :param num_experts: integer, number of experts.
+    :param expert_dnn_units: list, list of positive integer, its length must be greater than 1, the layer number and units in each layer of expert DNN
+    :param gate_dnn_units: list, list of positive integer or None, the layer number and units in each layer of gate DNN, default value is None. e.g.[8, 8].
+    :param tower_dnn_units_lists: list, list of positive integer list, its length must be euqal to num_tasks, the layer number and units in each layer of task-specific DNN
+
+    :param l2_reg_embedding: float. L2 regularizer strength applied to embedding vector
+    :param l2_reg_dnn: float. L2 regularizer strength applied to DNN
+    :param seed: integer ,to use as random seed.
+    :param dnn_dropout: float in [0,1), the probability we will drop out a given DNN coordinate.
+    :param dnn_activation: Activation function to use in DNN
+    :param dnn_use_bn: bool. Whether use BatchNormalization before activation or not in DNN
+    :return: a Keras model instance
+    """
+
+    if num_tasks <= 1:
+        raise ValueError("num_tasks must be greater than 1")
+
+    if len(task_types) != num_tasks:
+        raise ValueError("num_tasks must be equal to the length of task_types")
+
+    for task_type in task_types:
+        if task_type not in ['binary', 'regression']:
+            raise ValueError("task must be binary or regression, {} is illegal".format(task_type))
+
+    if num_tasks != len(tower_dnn_units_lists):
+        raise ValueError("the length of tower_dnn_units_lists must be euqal to num_tasks")
+
+    features = build_input_features(dnn_feature_columns)
+
+    inputs_list = list(features.values())
+
+    sparse_embedding_list, dense_value_list = input_from_feature_columns(features, dnn_feature_columns,
+                                                                         l2_reg_embedding, seed)
+    dnn_input = combined_dnn_input(sparse_embedding_list, dense_value_list)
+
+    # build expert layer
+    expert_outs = []
+    for i in range(num_experts):
+        expert_network = DNN(expert_dnn_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                             name='expert_' + str(i))(dnn_input)
+        expert_outs.append(expert_network)
+    expert_concat = tf.keras.layers.concatenate(expert_outs, axis=1, name='expert_concat')
+    expert_concat = tf.keras.layers.Reshape([num_experts, expert_dnn_units[-1]], name='expert_reshape')(
+        expert_concat)  # (num_experts, output dim of expert_network)
+
+    mmoe_outs = []
+    for i in range(num_tasks):  # one mmoe layer: nums_tasks = num_gates
+        # build gate layers
+        if gate_dnn_units != None:
+            gate_network = DNN(gate_dnn_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                               name='gate_' + task_names[i])(dnn_input)
+            gate_input = gate_network
+        else:  # in origin paper, gate is one Dense layer with softmax.
+            gate_input = dnn_input
+        gate_out = tf.keras.layers.Dense(num_experts, use_bias=False, activation='softmax',
+                                         name='gate_softmax_' + task_names[i])(gate_input)
+        gate_out = tf.keras.layers.Lambda(lambda x: tf.expand_dims(x, axis=-1))(gate_out)
+
+        # gate multiply the expert
+        gate_mul_expert = tf.keras.layers.Multiply(name='gate_mul_expert_' + task_names[i])([expert_concat, gate_out])
+        gate_mul_expert = tf.keras.layers.Lambda(lambda x: reduce_sum(x, axis=1, keep_dims=False))(gate_mul_expert)
+        mmoe_outs.append(gate_mul_expert)
+
+    task_outs = []
+    for task_type, task_name, tower_dnn, mmoe_out in zip(task_types, task_names, tower_dnn_units_lists, mmoe_outs):
+        # build tower layer
+        tower_output = DNN(tower_dnn, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed,
+                           name='tower_' + task_name)(mmoe_out)
+
+        logit = tf.keras.layers.Dense(1, use_bias=False, activation=None)(tower_output)
+        output = PredictionLayer(task_type, name=task_name)(logit)
+        task_outs.append(output)
+
+    model = tf.keras.models.Model(inputs=inputs_list, outputs=task_outs)
+    return model