add disco diffusion stable diffusion into taskflow (#3198)

JunnYu · web-flow · commit caaa102f647d · 2022-09-05T17:44:15.000+08:00
* add disco diffusion stable diffusion into taskflow

* update num_return_images in taskflow readme

* update text2image taskflow readme

* rename text2image_generation text_to_image

* rename
diff --git a/docs/model_zoo/taskflow.md b/docs/model_zoo/taskflow.md
@@ -41,7 +41,7 @@ PaddleNLP提供**开箱即用**的产业级NLP预置任务能力，无需训练
 | [智能写诗](#智能写诗)              | `Taskflow("poetry_generation")`  | ✅        | ✅        | ✅        |            |            | 使用最大中文开源CPM模型完成写诗                        |
 | [开放域对话](#开放域对话)          | `Taskflow("dialogue")`           | ✅        | ✅        | ✅        |            |            | 十亿级语料训练最强中文闲聊模型PLATO-Mini，支持多轮对话 |
 | [代码生成](#代码生成)          | `Taskflow("code_generation")`        | ✅        | ✅        | ✅        |            |            | 代码生成大模型 |
-| [文图生成](#文图生成)          | `Taskflow("text2image_generation")`        | ✅        | ✅        | ✅        |            |            | 文图生成大模型 |
+| [文图生成](#文图生成)          | `Taskflow("text_to_image")`        | ✅        | ✅        | ✅        |            |            | 文图生成大模型 |
 | [文本摘要](#文本摘要)          | `Taskflow("text_summarization")`        | ✅        | ✅        | ✅        | ✅          |            | 文本摘要大模型 |
 
 
@@ -1391,30 +1391,115 @@ from paddlenlp import Taskflow
 >>> from paddlenlp import Taskflow
 # 默认模型为 pai-painter-painting-base-zh
 >>> text_to_image = Taskflow("text_to_image")
-# 单条输入
->>> images = text_to_image("风阁水帘今在眼，且来先看早梅红")
-# [<PIL.Image.Image image mode=RGB size=2048x256>]
->>> images[0].save("painting-figure.png")
-# 多条输入
->>> images = text_to_image(["风阁水帘今在眼，且来先看早梅红", "见说春风偏有贺，露花千朵照庭闹"])
-# [<PIL.Image.Image image mode=RGB size=2048x256>,
-#  <PIL.Image.Image image mode=RGB size=2048x256>]
->>> for i, image in enumerate(images):
->>>     image.save(f"painting-figure_{i}.png")
-# pai-painter-commercial-base-zh模型
+# 单条输入， 默认返回2张图片。
+>>> image_list = text_to_image("风阁水帘今在眼，且来先看早梅红")
+# [[<PIL.Image.Image image mode=RGB size=256x256>], [<PIL.Image.Image image mode=RGB size=256x256>]]
+>>> image_list[0][0].save("painting-figure-1.png")
+>>> image_list[0][1].save("painting-figure-2.png")
+>>> image_list[0][0].argument
+# argument表示生成该图片所使用的参数
+# {'input': '风阁水帘今在眼，且来先看早梅红',
+#  'batch_size': 1,
+#  'seed': 2414128200,
+#  'temperature': 1.0,
+#  'top_k': 32,
+#  'top_p': 1.0,
+#  'condition_scale': 10.0,
+#  'num_return_images': 2,
+#  'use_faster': False,
+#  'use_fp16_decoding': False,
+#  'image_index_in_returned_images': 0}
+#
+# 多条输入， 返回值解释：[[第一个文本返回的第一张图片, 第一个文本返回的第二张图片], [第二个文本返回的第一张图片, 第二个文本返回的第二张图片]]
+>>> image_list = text_to_image(["风阁水帘今在眼，且来先看早梅红", "见说春风偏有贺，露花千朵照庭闹"])
+# [[<PIL.Image.Image image mode=RGB size=256x256>, <PIL.Image.Image image mode=RGB size=256x256>],
+#  [<PIL.Image.Image image mode=RGB size=256x256>, <PIL.Image.Image image mode=RGB size=256x256>]]
+>>> for batch_index, batch_image in enumerate(image_list):
+# len(batch_image) == 2 (num_return_images)
+>>>     for image_index_in_returned_images, each_image in enumerate(batch_image):
+>>>         each_image.save(f"painting-figure_{batch_index}_{image_index_in_returned_images}.png")
+```
+
+#### 支持多种模型
+
+##### EasyNLP仓库中的pai-painter模型
+```python
 >>> text_to_image = Taskflow("text_to_image", model="pai-painter-commercial-base-zh")
-# 多条输入
->>> images = text_to_image(["女童套头毛衣打底衫秋冬针织衫童装儿童内搭上衣", "春夏真皮工作鞋女深色软皮久站舒适上班面试职业皮鞋"])
->>> for i, image in enumerate(images):
->>>     image.save(f"commercial-figure_{i}.png")
-# dalle-mini模型
+>>> image_list = text_to_image(["女童套头毛衣打底衫秋冬针织衫童装儿童内搭上衣", "春夏真皮工作鞋女深色软皮久站舒适上班面试职业皮鞋"])
+>>> for batch_index, batch_image in enumerate(image_list):
+# len(batch_image) == 2 (num_return_images)
+>>>     for image_index_in_returned_images, each_image in enumerate(batch_image):
+>>>         each_image.save(f"commercial-figure_{batch_index}_{image_index_in_returned_images}.png")
+```
+
+##### DALLE-mini模型
+```python
 >>> text_to_image = Taskflow("text_to_image", model="dalle-mini")
-# 多条输入
->>> images = text_to_image(["New York Skyline with 'Google Research Pizza Cafe' written with fireworks on the sky.", "Dali painting of WALL·E"])
->>> for i, image in enumerate(images):
->>>     image.save(f"dalle-mini-figure_{i}.png")
+>>> image_list = text_to_image(["New York Skyline with 'Google Research Pizza Cafe' written with fireworks on the sky.", "Dali painting of WALL·E"])
+>>> for batch_index, batch_image in enumerate(image_list):
+# len(batch_image) == 2 (num_return_images)
+>>>     for image_index_in_returned_images, each_image in enumerate(batch_image):
+>>>         each_image.save(f"dalle-mini-figure_{batch_index}_{image_index_in_returned_images}.png")
+```
+
+##### Disco Diffusion模型
+```python
+# 注意，该模型生成速度较慢，在32G的V100上需要10分钟才能生成图片，因此默认返回1张图片。
+>>> text_to_image = Taskflow("text_to_image", model="disco_diffusion_ernie_vil-2.0-base-zh")
+>>> image_list = text_to_image("一幅美丽的睡莲池塘的画，由Adam Paquette在artstation上所做。")
+>>> for batch_index, batch_image in enumerate(image_list):
+>>>     for image_index_in_returned_images, each_image in enumerate(batch_image):
+>>>         each_image.save(f"disco_diffusion_ernie_vil-2.0-base-zh-figure_{batch_index}_{image_index_in_returned_images}.png")
 ```
 
+##### Stable Diffusion模型
+```python
+>>> text_to_image = Taskflow("text_to_image", model="CompVis/stable-diffusion-v1-4")
+>>> prompt = [
+    "In the morning light,Chinese ancient buildings in the mountains,Magnificent and fantastic John Howe landscape,lake,clouds,farm,Fairy tale,light effect,Dream,Greg Rutkowski,James Gurney,artstation",
+    "clouds surround the mountains and Chinese palaces,sunshine,lake,overlook,overlook,unreal engine,light effect,Dream，Greg Rutkowski,James Gurney,artstation"
+    ]
+>>> image_list = text_to_image(prompt)
+>>> for batch_index, batch_image in enumerate(image_list):
+# len(batch_image) == 2 (num_return_images)
+>>>     for image_index_in_returned_images, each_image in enumerate(batch_image):
+>>>         each_image.save(f"stable-diffusion-figure_{batch_index}_{image_index_in_returned_images}.png")
+```
+
+#### 支持复现生成结果 (以Stable Diffusion模型为例)
+```python
+>>> from paddlenlp import Taskflow
+>>> text_to_image = Taskflow("text_to_image", model="CompVis/stable-diffusion-v1-4")
+>>> prompt = [
+    "In the morning light,Chinese ancient buildings in the mountains,Magnificent and fantastic John Howe landscape,lake,clouds,farm,Fairy tale,light effect,Dream,Greg Rutkowski,James Gurney,artstation",
+    ]
+>>> image_list = text_to_image(prompt)
+>>> for batch_index, batch_image in enumerate(image_list):
+# len(batch_image) == 2 (num_return_images)
+>>>     for image_index_in_returned_images, each_image in enumerate(batch_image):
+>>>         each_image.save(f"stable-diffusion-figure_{batch_index}_{image_index_in_returned_images}.png")
+# 如果我们想复现promt[0]文本的第二张返回的结果，我们可以首先查看生成该图像所使用的参数信息。
+>>> each_image.argument
+# {'mode': 'text2image',
+#  'seed': 2389376819,
+#  'height': 512,
+#  'width': 512,
+#  'num_inference_steps': 50,
+#  'guidance_scale': 7.5,
+#  'latents': None,
+#  'num_return_images': 1,
+#  'input': 'In the morning light,Chinese ancient buildings in the mountains,Magnificent and fantastic John Howe landscape,lake,clouds,farm,Fairy tale,light effect,Dream,Greg Rutkowski,James Gurney,artstation'}
+# 通过set_argument设置该参数。
+>>> text_to_image.set_argument(each_image.argument)
+>>> new_image = text_to_image(each_image.argument["input"])
+# 查看生成图片的结果，可以发现最终结果与之前的图片相一致。
+>>> new_image[0][0]
+```
+<p align="center">
+ <img src="https://user-images.githubusercontent.com/50394665/188396018-284336c0-f85e-442b-a4ff-4238720de121.png" align="middle">
+<p align="center">
+
+
 #### 图片生成效果展示
 <p align="center">
  <img src="https://user-images.githubusercontent.com/50394665/183386146-9b265304-7294-46fa-896f-1dd90f44ba31.png" align="middle">
@@ -1423,12 +1508,15 @@ from paddlenlp import Taskflow
  <img src="https://user-images.githubusercontent.com/50394665/183386237-b0243ec5-09fe-47cc-9010-bd9b97fda862.png" align="middle">
  <img src="https://user-images.githubusercontent.com/50394665/183387833-0f9ef786-ea62-40e1-a48c-28680d418142.png" align="middle">
  <img src="https://user-images.githubusercontent.com/50394665/183387861-c4029b6c-f2e9-46d0-988f-6989f11a607d.png" align="middle">
+ <img src="https://user-images.githubusercontent.com/50394665/188397647-5c3e1804-82dc-4f6e-b7ec-befc15eb1910.png" align="middle" width="35%" height="35%">
+ <img src="https://user-images.githubusercontent.com/50394665/188397725-d43f84e7-d9aa-4fe0-a16c-2be1dc8b5c1d.png" align="middle" width="35%" height="35%">
+ <img src="https://user-images.githubusercontent.com/50394665/188397881-f2a76c5e-d853-4db0-be83-8ac0c2e0a634.png" align="middle" width="35%" height="35%">
+ <img src="https://user-images.githubusercontent.com/50394665/188397927-281402f1-a7f5-404f-9e4c-dc0236ba45ed.png" align="middle" width="35%" height="35%">
 <p align="center">
 
 #### 可配置参数说明
-* `model`：可选模型，默认为`pai-painter-painting-base-zh`，支持的模型有`["pai-painter-painting-base-zh", "pai-painter-scenery-base-zh", "pai-painter-commercial-base-zh", "dalle-mini", "dalle-mega-v16", "dalle-mega"]`。
-* `batch_size`：批处理大小，请结合机器情况进行调整，默认为1。
-* `num_return_images`：返回图片的数量，默认为8，即8张图片水平拼接形成一张长图。
+* `model`：可选模型，默认为`pai-painter-painting-base-zh`，支持的模型有`["dalle-mini", "dalle-mega", "dalle-mega-v16", "pai-painter-painting-base-zh", "pai-painter-scenery-base-zh", "pai-painter-commercial-base-zh", "CompVis/stable-diffusion-v1-4", "openai/disco-diffusion-clip-vit-base-patch32", "openai/disco-diffusion-clip-rn50", "openai/disco-diffusion-clip-rn101", "disco_diffusion_ernie_vil-2.0-base-zh"]`。
+* `num_return_images`：返回图片的数量，默认为2。特例：disco_diffusion模型由于生成速度太慢，因此该模型默认值为1。
 
 </div></details>
 
diff --git a/docs/source/paddlenlp.taskflow.rst b/docs/source/paddlenlp.taskflow.rst
@@ -29,7 +29,7 @@ paddlenlp.taskflow
    paddlenlp.taskflow.sentiment_analysis
    paddlenlp.taskflow.task
    paddlenlp.taskflow.taskflow
-   paddlenlp.taskflow.text2image_generation
+   paddlenlp.taskflow.text_to_image
    paddlenlp.taskflow.text_correction
    paddlenlp.taskflow.text_generation
    paddlenlp.taskflow.text_similarity
diff --git a/docs/source/paddlenlp.taskflow.text_to_image.rst b/docs/source/paddlenlp.taskflow.text_to_image.rst
@@ -1,7 +1,7 @@
-text2image\_generation
+text\_to\_image
 ================================================
 
-.. automodule:: paddlenlp.taskflow.text2image_generation
+.. automodule:: paddlenlp.taskflow.text_to_image
    :members:
    :no-undoc-members:
    :show-inheritance:
diff --git a/paddlenlp/taskflow/taskflow.py b/paddlenlp/taskflow/taskflow.py
@@ -37,7 +37,7 @@
 from .dialogue import DialogueTask
 from .information_extraction import UIETask, GPTask
 from .code_generation import CodeGenerationTask
-from .text_to_image import TextToImageGenerationTask
+from .text_to_image import TextToImageGenerationTask, TextToImageDiscoDiffusionTask, TextToImageStableDiffusionTask
 from .text_summarization import TextSummarizationTask
 
 warnings.simplefilter(action='ignore', category=Warning, lineno=0, append=False)
@@ -404,6 +404,35 @@
                 "task_flag": "text_to_image-pai-painter-commercial-base-zh",
                 "task_priority_path": "pai-painter-commercial-base-zh",
             },
+            "openai/disco-diffusion-clip-vit-base-patch32": {
+                "task_class":
+                TextToImageDiscoDiffusionTask,
+                "task_flag":
+                "text_to_image-openai/disco-diffusion-clip-vit-base-patch32",
+                "task_priority_path":
+                "openai/disco-diffusion-clip-vit-base-patch32",
+            },
+            "openai/disco-diffusion-clip-rn50": {
+                "task_class": TextToImageDiscoDiffusionTask,
+                "task_flag": "text_to_image-openai/disco-diffusion-clip-rn50",
+                "task_priority_path": "openai/disco-diffusion-clip-rn50",
+            },
+            "openai/disco-diffusion-clip-rn101": {
+                "task_class": TextToImageDiscoDiffusionTask,
+                "task_flag": "text_to_image-openai/disco-diffusion-clip-rn101",
+                "task_priority_path": "openai/disco-diffusion-clip-rn101",
+            },
+            "disco_diffusion_ernie_vil-2.0-base-zh": {
+                "task_class": TextToImageDiscoDiffusionTask,
+                "task_flag":
+                "text_to_image-disco_diffusion_ernie_vil-2.0-base-zh",
+                "task_priority_path": "disco_diffusion_ernie_vil-2.0-base-zh",
+            },
+            "CompVis/stable-diffusion-v1-4": {
+                "task_class": TextToImageStableDiffusionTask,
+                "task_flag": "text_to_image-CompVis/stable-diffusion-v1-4",
+                "task_priority_path": "CompVis/stable-diffusion-v1-4",
+            },
         },
         "default": {
             "model": "pai-painter-painting-base-zh",
@@ -416,6 +445,15 @@
     "uie-medical-base", "uie-base-en", "wordtag", "uie-m-large", "uie-m-base"
 ]
 
+support_argument_list = [
+    "dalle-mini", "dalle-mega", "dalle-mega-v16",
+    "pai-painter-painting-base-zh", "pai-painter-scenery-base-zh",
+    "pai-painter-commercial-base-zh", "CompVis/stable-diffusion-v1-4",
+    "openai/disco-diffusion-clip-vit-base-patch32",
+    "openai/disco-diffusion-clip-rn50", "openai/disco-diffusion-clip-rn101",
+    "disco_diffusion_ernie_vil-2.0-base-zh"
+]
+
 
 class Taskflow(object):
     """
@@ -521,4 +559,8 @@ def interactive_mode(self, max_turn):
 
     def set_schema(self, schema):
         assert self.task_instance.model in support_schema_list, 'This method can only be used by the task with the model of uie or wordtag.'
-        self.task_instance.set_schema(schema)
+        self.task_instance.set_schema(schema)
+
+    def set_argument(self, argument):
+        assert self.task_instance.model in support_argument_list, 'This method can only be used by the task with the model of text_to_image generation.'
+        self.task_instance.set_argument(argument)
diff --git a/paddlenlp/taskflow/text_to_image.py b/paddlenlp/taskflow/text_to_image.py