[ERNIE] Add parameter converter from static to dygraph. (#1478)

ZHUI · web-flow · commit 09f18731a243 · 2021-12-23T14:05:28.000+08:00
diff --git a/examples/language_model/ernie-1.0/README.md b/examples/language_model/ernie-1.0/README.md
@@ -82,6 +82,17 @@ python -u  -m paddle.distributed.launch \
 - 一般而言， `global_batch_size = micro_batch_size * sharding_degree * dp_degree`。可以使用梯度累积的方式增大`global_batch_size`。设置`global_batch_size`为理论值的整数倍是，默认启用梯度累积。
 - 训练断点重启，直接启动即可，程序会找到最新的checkpoint，开始重启训练。
 
+### 其他
+#### 模型参数转换
+本示例提供了静态图训练脚本，但Paddle目前主要的使用方式是动态图。因此，本示例提供了静态图参数到动态图参数的转换脚本：
+
+```python
+python converter/params_static_to_dygraph.py --model ernie-1.0 --path ./output/task_name/model_100000/static_vars
+# or
+python converter/params_static_to_dygraph.py --model ernie-1.0 --path ./output/task_name/model_last/static_vars.pdparams
+```
+在当前目录下，可以看到转换后的参数`ernie-1.0_converted.pdparams`, 也可以设置脚本中`--output_path`参数，指定输出路径。
+
 
 ### 参考文献
 - [ERNIE: Enhanced Representation through Knowledge Integration](https://arxiv.org/pdf/1904.09223.pdf)
diff --git a/examples/language_model/ernie-1.0/converter/params_static_to_dygraph.py b/examples/language_model/ernie-1.0/converter/params_static_to_dygraph.py
@@ -0,0 +1,42 @@
+import argparse
+import paddle
+from paddlenlp.transformers import AutoModel
+from paddlenlp.utils.log import logger
+
+paddle.set_device("cpu")
+parser = argparse.ArgumentParser()
+parser.add_argument(
+    "--model", type=str, help="The name of pretrained weights in PaddleNLP.")
+parser.add_argument(
+    "--path", type=str, help="The path of checkpoint to be loaded.")
+parser.add_argument(
+    "--output_path",
+    type=str,
+    default=None,
+    help="The path of checkpoint to be loaded.")
+args = parser.parse_args()
+
+
+def init_dygraph_with_static(model, static_params_path):
+    from paddlenlp.utils.tools import static_params_to_dygraph
+    static_tensor_dict = paddle.static.load_program_state(static_params_path)
+    return static_params_to_dygraph(model, static_tensor_dict)
+
+
+def main(args):
+    logger.info("Loading model: %s" % args.model)
+    model = AutoModel.from_pretrained(args.model)
+    logger.info("Loading static params and trans paramters...")
+    model_dict = init_dygraph_with_static(model, args.path)
+    save_name = args.output_path
+    if save_name is None:
+        save_name = args.model + "_converted.pdparams"
+    if not save_name.endswith(".pdparams"):
+        save_name += ".pdparams"
+    logger.info("Saving converted params to %s" % save_name)
+    paddle.save(model_dict, save_name)
+    logger.info("New pdparams saved!")
+
+
+if __name__ == "__main__":
+    main(args)
diff --git a/paddlenlp/utils/tools.py b/paddlenlp/utils/tools.py
@@ -12,8 +12,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import paddle
 import numpy as np
+import paddle
+from .log import logger
 
 
 def static_params_to_dygraph(model, static_tensor_dict):
@@ -34,6 +35,9 @@ def static_params_to_dygraph(model, static_tensor_dict):
 
     ret_dict = dict()
     for n, p in state_dict.items():
+        if p.name not in static_tensor_dict:
+            logger.info("%s paramter is missing from you state dict." % n)
+            continue
         ret_dict[n] = static_tensor_dict[p.name]
 
     return ret_dict
@@ -56,7 +60,7 @@ def dygraph_params_to_static(model, dygraph_tensor_dict, topo=None):
     ret_dict = dict()
     for name, parm in state_dict.items():
         if name not in dygraph_tensor_dict:
-            print("Miss \t\t", name)
+            logger.info("%s paramter is missing from you state dict." % name)
             continue
 
         tensor = dygraph_tensor_dict[name]
@@ -157,4 +161,4 @@ def compare_version(version, pair_version):
             return 1
         elif int(version_code) < int(pair_version_code):
             return -1
-    return 0
+    return 0