optimize taskflow download

linjieccc · linjieccc · commit 6cdd4259f843 · 2022-04-14T08:55:50.000Z
diff --git a/docs/model_zoo/taskflow.md b/docs/model_zoo/taskflow.md
@@ -438,10 +438,10 @@ from paddlenlp import Taskflow
 >>> from paddlenlp import Taskflow
 >>> nptag = Taskflow("knowledge_mining", model="nptag")
 >>> nptag("糖醋排骨")
->>> [{'text': '糖醋排骨', 'label': '菜品'}]
+[{'text': '糖醋排骨', 'label': '菜品'}]
 
-nptag(["糖醋排骨", "红曲霉菌"])
->>> [{'text': '糖醋排骨', 'label': '菜品'}, {'text': '红曲霉菌', 'label': '微生物'}]
+>>> nptag(["糖醋排骨", "红曲霉菌"])
+[{'text': '糖醋排骨', 'label': '菜品'}, {'text': '红曲霉菌', 'label': '微生物'}]
 
 # 使用`linking`输出粗粒度类别标签`category`，即WordTag的词汇标签。
 >>> nptag = Taskflow("knowledge_mining", model="nptag", linking=True)
@@ -471,8 +471,7 @@ nptag(["糖醋排骨", "红曲霉菌"])
 [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}]
 
 # 批量预测
->>> corrector(['遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。',
-                '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。'])
+>>> corrector(['遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。', '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。'])
 [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}, {'source': '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。', 'target': '人生就是如此，经过磨练才能让自己更加茁壮，才能使自己更加乐观。', 'errors': [{'position': 18, 'correction': {'拙': '茁'}}]}]
 ```
 
@@ -628,16 +627,17 @@ nptag(["糖醋排骨", "红曲霉菌"])
 
 |                           任务名称                           |                           默认路径                           |                                                              |
 | :----------------------------------------------------------: | :----------------------------------------------------------: | :----------------------------------------------------------: |
-|         `Taskflow("word_segmentation", mode="base")`         |      `$HOME/.paddlenlp/taskflow/word_segmentation/lac`       | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
-|       `Taskflow("word_segmentation", mode="accurate")`       |    `$HOME/.paddlenlp/taskflow/word_segmentation/wordtag`     | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
-|                `Taskflow("ner", mode="fast")`                |             `$HOME/.paddlenlp/taskflow/ner/lac`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
-|              `Taskflow("ner", mode="accurate")`              |           `$HOME/.paddlenlp/taskflow/ner/wordtag`            | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
+|         `Taskflow("word_segmentation", mode="base")`         |             `$HOME/.paddlenlp/taskflow/lac`                  | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
+|       `Taskflow("word_segmentation", mode="accurate")`       |             `$HOME/.paddlenlp/taskflow/wordtag`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
+|       `Taskflow("pos_tagging")`                              |             `$HOME/.paddlenlp/taskflow/lac`                  | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
+|                `Taskflow("ner", mode="fast")`                |             `$HOME/.paddlenlp/taskflow/lac`                  | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
+|              `Taskflow("ner", mode="accurate")`              |             `$HOME/.paddlenlp/taskflow/wordtag`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
 |     `Taskflow("text_correction", model="csc-ernie-1.0")`     |  `$HOME/.paddlenlp/taskflow/text_correction/csc-ernie-1.0`   | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_correction/ernie-csc) |
 |      `Taskflow("dependency_parsing", model="ddparser")`      |   `$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser`    | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dependency_parsing/ddparser) |
 | `Taskflow("dependency_parsing", model="ddparser-ernie-1.0")` | `$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser-ernie-1.0` | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dependency_parsing/ddparser) |
 | `Taskflow("dependency_parsing", model="ddparser-ernie-gram-zh")` | `$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser-ernie-gram-zh` | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dependency_parsing/ddparser) |
 | `Taskflow("sentiment_analysis", model="skep_ernie_1.0_large_ch")` | `$HOME/.paddlenlp/taskflow/sentiment_analysis/skep_ernie_1.0_large_ch` | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/sentiment_analysis/skep) |
-|       `Taskflow("knowledge_mining", model="wordtag")`        |     `$HOME/.paddlenlp/taskflow/knowledge_mining/wordtag`     | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
+|       `Taskflow("knowledge_mining", model="wordtag")`        |             `$HOME/.paddlenlp/taskflow/wordtag`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
 |        `Taskflow("knowledge_mining", model="nptag")`         |      `$HOME/.paddlenlp/taskflow/knowledge_mining/nptag`      | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/nptag) |
 
 </div></details>  
diff --git a/paddlenlp/taskflow/dependency_parsing.py b/paddlenlp/taskflow/dependency_parsing.py
@@ -84,7 +84,7 @@ class DDParserTask(Task):
 
     resource_files_names = {
         "model_state": "model_state.pdparams",
-        "word_vocab": "vocab.json",
+        "word_vocab": "word_vocab.json",
         "rel_vocab": "rel_vocab.json",
     }
     resource_files_urls = {
diff --git a/paddlenlp/taskflow/task.py b/paddlenlp/taskflow/task.py
@@ -33,9 +33,10 @@ class Task(metaclass=abc.ABCMeta):
         kwargs (dict, optional): Additional keyword arguments passed along to the specific task. 
     """
 
-    def __init__(self, model, task, **kwargs):
+    def __init__(self, model, task, priority_path=None, **kwargs):
         self.model = model
         self.task = task
+        self.priority_path = priority_path
         self.kwargs = kwargs
         self._usage = ""
         # The dygraph model instantce 
@@ -50,6 +51,9 @@ def __init__(self, model, task, **kwargs):
             'task_flag'] if 'task_flag' in self.kwargs else self.model
         if 'task_path' in self.kwargs:
             self._task_path = self.kwargs['task_path']
+        elif self.priority_path:
+            self._task_path = os.path.join(self._home_path, "taskflow",
+                                           self.priority_path)
         else:
             self._task_path = os.path.join(self._home_path, "taskflow",
                                            self.task, self.model)
diff --git a/paddlenlp/taskflow/taskflow.py b/paddlenlp/taskflow/taskflow.py
@@ -39,33 +39,80 @@
 warnings.simplefilter(action='ignore', category=Warning, lineno=0, append=False)
 
 TASKS = {
+    'dependency_parsing': {
+        "models": {
+            "ddparser": {
+                "task_class": DDParserTask,
+                "task_flag": 'dependency_parsing-biaffine',
+            },
+            "ddparser-ernie-1.0": {
+                "task_class": DDParserTask,
+                "task_flag": 'dependency_parsing-ernie-1.0',
+            },
+            "ddparser-ernie-gram-zh": {
+                "task_class": DDParserTask,
+                "task_flag": 'dependency_parsing-ernie-gram-zh',
+            },
+        },
+        "default": {
+            "model": "ddparser",
+        }
+    },
+    'dialogue': {
+        "models": {
+            "plato-mini": {
+                "task_class": DialogueTask,
+                "task_flag": "dialogue-plato-mini"
+            },
+        },
+        "default": {
+            "model": "plato-mini",
+        }
+    },
     "knowledge_mining": {
         "models": {
             "wordtag": {
                 "task_class": WordTagTask,
                 "task_flag": 'knowledge_mining-wordtag',
+                "task_priority_path": "wordtag",
             },
             "nptag": {
                 "task_class": NPTagTask,
                 "task_flag": 'knowledge_mining-nptag',
             },
         },
         "default": {
-            "model": "wordtag"
+            "model": "wordtag",
+        }
+    },
+    "lexical_analysis": {
+        "models": {
+            "lac": {
+                "task_class": LacTask,
+                "hidden_size": 128,
+                "emb_dim": 128,
+                "task_flag": 'lexical_analysis-gru_crf',
+                "task_priority_path": "lac",
+            }
+        },
+        "default": {
+            "model": "lac"
         }
     },
     "ner": {
         "modes": {
             "accurate": {
                 "task_class": NERWordTagTask,
                 "task_flag": "ner-wordtag",
+                "task_priority_path": "wordtag",
                 "linking": False,
             },
             "fast": {
                 "task_class": NERLACTask,
                 "hidden_size": 128,
                 "emb_dim": 128,
                 "task_flag": "ner-lac",
+                "task_priority_path": "lac",
             }
         },
         "default": {
@@ -77,69 +124,37 @@
             "gpt-cpm-large-cn": {
                 "task_class": PoetryGenerationTask,
                 "task_flag": 'poetry_generation-gpt-cpm-large-cn',
+                "task_priority_path": "gpt-cpm-large-cn",
             },
         },
         "default": {
             "model": "gpt-cpm-large-cn",
         }
     },
-    "question_answering": {
-        "models": {
-            "gpt-cpm-large-cn": {
-                "task_class": QuestionAnsweringTask,
-                "task_flag": 'question_answering-gpt-cpm-large-cn',
-            },
-        },
-        "default": {
-            "model": "gpt-cpm-large-cn",
-        }
-    },
-    "lexical_analysis": {
+    "pos_tagging": {
         "models": {
             "lac": {
-                "task_class": LacTask,
+                "task_class": POSTaggingTask,
                 "hidden_size": 128,
                 "emb_dim": 128,
-                "task_flag": 'lexical_analysis-gru_crf',
+                "task_flag": 'pos_tagging-gru_crf',
+                "task_priority_path": "lac",
             }
         },
         "default": {
             "model": "lac"
         }
     },
-    "word_segmentation": {
-        "modes": {
-            "fast": {
-                "task_class": SegJiebaTask,
-                "task_flag": "word_segmentation-jieba",
-            },
-            "base": {
-                "task_class": SegLACTask,
-                "hidden_size": 128,
-                "emb_dim": 128,
-                "task_flag": "word_segmentation-gru_crf",
-            },
-            "accurate": {
-                "task_class": SegWordTagTask,
-                "task_flag": "word_segmentation-wordtag",
-                "linking": False,
-            },
-        },
-        "default": {
-            "mode": "base"
-        }
-    },
-    "pos_tagging": {
+    "question_answering": {
         "models": {
-            "lac": {
-                "task_class": POSTaggingTask,
-                "hidden_size": 128,
-                "emb_dim": 128,
-                "task_flag": 'pos_tagging-gru_crf',
-            }
+            "gpt-cpm-large-cn": {
+                "task_class": QuestionAnsweringTask,
+                "task_flag": 'question_answering-gpt-cpm-large-cn',
+                "task_priority_path": "gpt-cpm-large-cn",
+            },
         },
         "default": {
-            "model": "lac"
+            "model": "gpt-cpm-large-cn",
         }
     },
     'sentiment_analysis': {
@@ -157,25 +172,6 @@
             "model": "bilstm"
         }
     },
-    'dependency_parsing': {
-        "models": {
-            "ddparser": {
-                "task_class": DDParserTask,
-                "task_flag": 'dependency_parsing-biaffine',
-            },
-            "ddparser-ernie-1.0": {
-                "task_class": DDParserTask,
-                "task_flag": 'dependency_parsing-ernie-1.0',
-            },
-            "ddparser-ernie-gram-zh": {
-                "task_class": DDParserTask,
-                "task_flag": 'dependency_parsing-ernie-gram-zh',
-            },
-        },
-        "default": {
-            "model": "ddparser"
-        }
-    },
     'text_correction': {
         "models": {
             "csc-ernie-1.0": {
@@ -198,15 +194,28 @@
             "model": "simbert-base-chinese"
         }
     },
-    'dialogue': {
-        "models": {
-            "plato-mini": {
-                "task_class": DialogueTask,
-                "task_flag": "dialogue-plato-mini"
+    "word_segmentation": {
+        "modes": {
+            "fast": {
+                "task_class": SegJiebaTask,
+                "task_flag": "word_segmentation-jieba",
+            },
+            "base": {
+                "task_class": SegLACTask,
+                "hidden_size": 128,
+                "emb_dim": 128,
+                "task_flag": "word_segmentation-gru_crf",
+                "task_priority_path": "lac",
+            },
+            "accurate": {
+                "task_class": SegWordTagTask,
+                "task_flag": "word_segmentation-wordtag",
+                "task_priority_path": "wordtag",
+                "linking": False,
             },
         },
         "default": {
-            "model": "plato-mini"
+            "mode": "base"
         }
     },
 }
@@ -247,6 +256,13 @@ def __init__(self, task, model=None, mode=None, device_id=0, **kwargs):
             )), "The {} name:{} is not in task:[{}]".format(tag, model, task)
         else:
             self.model = TASKS[task]['default'][ind_tag]
+
+        if "task_priority_path" in TASKS[self.task][tag][self.model]:
+            self.priority_path = TASKS[self.task][tag][self.model][
+                "task_priority_path"]
+        else:
+            self.priority_path = None
+
         # Set the device for the task
         device = get_env_device()
         if device == 'cpu' or device_id == -1:
@@ -261,7 +277,10 @@ def __init__(self, task, model=None, mode=None, device_id=0, **kwargs):
         self.kwargs = kwargs
         task_class = TASKS[self.task][tag][self.model]['task_class']
         self.task_instance = task_class(
-            model=self.model, task=self.task, **self.kwargs)
+            model=self.model,
+            task=self.task,
+            priority_path=self.priority_path,
+            **self.kwargs)
         task_list = TASKS.keys()
         Taskflow.task_list = task_list
 
diff --git a/paddlenlp/utils/downloader.py b/paddlenlp/utils/downloader.py
@@ -362,8 +362,7 @@ def __init__(self, task, command="taskflow", addition=None):
         self.command = command
         self.task = task
         self.addition = addition
-        self.hash_flag = _md5(str(uuid.uuid1())[9:18]) + "-" + str(
-            int(time.time()))
+        self._initialize()
 
     def uri_path(self, server_url, api):
         srv = server_url
@@ -376,30 +375,38 @@ def uri_path(self, server_url, api):
             srv += api
         return srv
 
+    def _initialize(self):
+        etime = str(int(time.time()))
+        self.cache_info = _md5(str(uuid.uuid1())[-12:])
+        self.hash_flag = _md5(str(uuid.uuid1())[9:18]) + "-" + etime
+
     def request_check(self, task, command, addition):
         if task is None:
             return SUCCESS_STATUS
         payload = {'word': self.task}
-        api_url = self.uri_path(DOWNLOAD_SERVER, 'search')
+        api_url = self.uri_path(DOWNLOAD_SERVER, 'stat')
         cache_path = os.path.join("～")
         if os.path.exists(cache_path):
             extra = {
                 "command": self.command,
                 "mtime": os.stat(cache_path).st_mtime,
-                "hub_name": self.hash_flag
+                "hub_name": self.hash_flag,
+                "cache_info": self.cache_info
             }
         else:
             extra = {
                 "command": self.command,
                 "mtime": time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()),
-                "hub_name": self.hash_flag
+                "hub_name": self.hash_flag,
+                "cache_info": self.cache_info
             }
         if addition is not None:
             extra.update({"addition": addition})
         try:
             import paddle
             payload['hub_version'] = " "
             payload['paddle_version'] = paddle.__version__.split('-')[0]
+            payload['from'] = 'ppnlp'
             payload['extra'] = json.dumps(extra)
             r = requests.get(api_url, payload, timeout=1).json()
             if r.get("update_cache", 0) == 1:

Original file line number	Diff line number	Diff line change
`@@ -84,7 +84,7 @@ class DDParserTask(Task):`
`84`	`84`
`85`	`85`	`resource_files_names = {`
`86`	`86`	`"model_state": "model_state.pdparams",`
`87`		`- "word_vocab": "vocab.json",`
	`87`	`+ "word_vocab": "word_vocab.json",`
`88`	`88`	`"rel_vocab": "rel_vocab.json",`
`89`	`89`	`}`
`90`	`90`	`resource_files_urls = {`