codefuse-ai
diff --git a/‎README.md
Lines changed: 32 additions & 23 deletions b/‎README.md
Lines changed: 32 additions & 23 deletions
diff --git a/‎README_cn.md
Lines changed: 34 additions & 24 deletions b/‎README_cn.md
Lines changed: 34 additions & 24 deletions
diff --git a/‎assets/img.jpg
233 KB b/‎assets/img.jpg
233 KB
diff --git a/‎assets/img.png
-134 KB b/‎assets/img.png
-134 KB
diff --git a/‎assets/img_1.jpg
224 KB b/‎assets/img_1.jpg
224 KB
diff --git a/‎assets/img_1.png
-130 KB b/‎assets/img_1.png
-130 KB
diff --git a/‎mftcoder_accelerate/src/pefts/mft_accelerate.py
Lines changed: 7 additions & 7 deletions b/‎mftcoder_accelerate/src/pefts/mft_accelerate.py
Lines changed: 7 additions & 7 deletions
@@ -41,6 +41,12 @@
 
 
 ## News
+🔥🔥 [2024/01/17] We released MFTCoder v0.3.0, mainly for MFTCoder-accelerate. It now supports new models like Mixtral(MoE), Deepseek-coder, chatglm3. It supports FSDP as an option. It also supports Self-paced Loss as a solution for convergence balance in Multitask Fine-tuning.
+
+🔥🔥 [2024/01/17] [CodeFuse-Deepseek-33B](https://huggingface.co/codefuse-ai/CodeFuse-Deepseek-33B) has been released, achieving a pass@1 (greedy decoding) score of 78.7% on HumanEval. It achieves top1 win-rate on Bigcode Leardboard.
+
+🔥🔥 [2024/01/17] [CodeFuse-Mixtral-8x7B](https://huggingface.co/codefuse-ai/CodeFuse-Mixtral-8X7B) has been released, achieving a pass@1 (greedy decoding) score of 56.1% on HumanEval.
+
 🔥🔥 [2023/11/07] [MFTCoder Paper](https://arxiv.org/abs/2311.02303) has been released on Arxiv, which discloses technique details of multi-task-fine-tuning.
 
 🔥🔥 [2023/10/20] [CodeFuse-QWen-14B](https://huggingface.co/codefuse-ai/CodeFuse-QWen-14B) has been released, achieving a pass@1 (greedy decoding) score of 48.8% on HumanEval, which gains 16% absolute improvement over the base model [Qwen-14b](https://huggingface.co/Qwen/Qwen-14B)
@@ -56,19 +62,21 @@
 ### HumanEval Performance
 | Model                       | HumanEval(Pass@1) |  Date   | 
 |:----------------------------|:-----------------:|:-------:|
-| **CodeFuse-CodeLlama-34B**  |     **74.4%**      | 2023/09  |
-|**CodeFuse-CodeLlama-34B-4bits** |     **73.8%**  |  2023/09 |
-| WizardCoder-Python-34B-V1.0 |       73.2%       | 2023/08  |
-| GPT-4(zero-shot)            |       67.0%       | 2023/03  |
-| PanGu-Coder2 15B            |       61.6%       | 2023/08  |
-| **CodeFuse-StarCoder-15B**  |     **54.9%**     | 2023/08  |
-| CodeLlama-34b-Python        |       53.7%       | 2023/08  |
-| **CodeFuse-QWen-14B**  |     **48.8%**     | 2023/10  |
-| CodeLlama-34b               |       48.8%       | 2023/08  |
-| GPT-3.5(zero-shot)          |       48.1%       | 2022/11 |
-| OctoCoder                   |       46.2%       | 2023/08  |
-| StarCoder-15B               |       33.6%       | 2023/05  |
-| QWen-14B |     32.3%     | 2023/10  |
+| **CodeFuse-Deepseek-33B**        |     **78.7%**     | 2024/01 |
+| **CodeFuse-Mixtral-8x7B**        |     **56.1%**     | 2024/01 |
+| **CodeFuse-CodeLlama-34B**       |     **74.4%**     | 2023/09 |
+| **CodeFuse-CodeLlama-34B-4bits** |     **73.8%**     | 2023/09 |
+| WizardCoder-Python-34B-V1.0      |       73.2%       | 2023/08 |
+| GPT-4(zero-shot)                 |       67.0%       | 2023/03 |
+| PanGu-Coder2 15B                 |       61.6%       | 2023/08 |
+| **CodeFuse-StarCoder-15B**       |     **54.9%**     | 2023/08 |
+| CodeLlama-34b-Python             |       53.7%       | 2023/08 |
+| **CodeFuse-QWen-14B**            |     **48.8%**     | 2023/10 |
+| CodeLlama-34b                    |       48.8%       | 2023/08 |
+| GPT-3.5(zero-shot)               |       48.1%       | 2022/11 |
+| OctoCoder                        |       46.2%       | 2023/08 |
+| StarCoder-15B                    |       33.6%       | 2023/05 |
+| QWen-14B                         |       32.3%       | 2023/10 |
 
 
 ## Articles
@@ -88,7 +96,7 @@ In MFTCoder, we released two codebases for finetuning Large Language Models:
 The aim of this project is to foster collaboration and share advancements in large language models, particularly within the domain of code development.
 
 ### Frameworks
-![img.png](./assets/img.png)
+![img.jpg](./assets/img.jpg)
 
 ### Highlights
 :white_check_mark: **Multi-task**: Train models on multiple tasks while maintaining a balance between them. The models can even generalize to new, previously unseen tasks.
@@ -133,17 +141,18 @@ If you want to explore some new framework like atorch, you could check:
 
 ## Models
 
-We are excited to release the following two CodeLLMs trained by MFTCoder, now available on Hugging Face:
-
+We are excited to release the following two CodeLLMs trained by MFTCoder, now available on both HuggingFace and ModelScope:
 
-| Model                                                                                      | Base Model         | Num of examples trained | Batch Size | Seq Length | 
-|--------------------------------------------------------------------------------------------|--------------------|-------------------------|------------|------------|
-| [🔥🔥🔥 CodeFuse-CodeLlama-34B](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B) | CodeLlama-34b-Python | 600k                    | 80         | 4096       | 
-| [🔥🔥🔥 CodeFuse-CodeLlama-34B-4bits](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B-4bits) |    CodeLlama-34b-Python|           |           | 4096       |
-| [🔥🔥🔥 CodeFuse-StarCoder-15B](https://huggingface.co/codefuse-ai/CodeFuse-StarCoder-15B) | Starcoder | 600k                    | 256         | 4096       | 
-| [🔥🔥🔥 CodeFuse-QWen-14B](https://huggingface.co/codefuse-ai/CodeFuse-QWen-14B) | Qwen-14b | 1100k                    | 256         | 4096       | 
-| [🔥 CodeFuse-13B](https://huggingface.co/codefuse-ai/CodeFuse-13B)                         | CodeFuse-13B       | 66k                     | 64         | 4096       |
 
+| Model                                 |                     |                                | Base Model         | Num of examples trained | Batch Size | Seq Length | 
+|--------------------------------------|------------------------|---|----------------------|------|------------|------------|
+| 🔥🔥  CodeFuse-Deepseek-33B        |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-Deepseek-33B)         |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-Deepseek-33B)          | Deepseek-coder-33B   | 60万  | 80         | 4096       |
+| 🔥🔥  CodeFuse-Mixtral-8x7B        |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-Mixtral-8x7B)         |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-Mixtral-8x7B)               | Mixtral-8x7B         | 60万  | 80         | 4096       |
+| 🔥🔥  CodeFuse-CodeLlama-34B       |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B)        |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B)               | CodeLlama-34b-Python | 60万  | 80         | 4096       |
+| 🔥🔥  CodeFuse-CodeLlama-34B-4bits |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B-4bits)  |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B-4bits)    | CodeLlama-34b-Python |   |          | 4096       |
+| 🔥🔥  CodeFuse-StarCoder-15B       |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-StarCoder-15B)        |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-StarCoder-15B)              | StarCoder-15B        | 60万  | 80         | 4096       |
+| 🔥🔥  CodeFuse-QWen-14B            |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-QWen-14B)             |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-QWen-14B)                       | Qwen-14b             | 110万                    | 256         | 4096       | 
+| 🔥🔥  CodeFuse-CodeGeex2-6B        |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-CodeGeex2-6B)             |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeGeex2-6B)                       | CodeGeex2-6B         | 110万                    | 256         | 4096       | 
 
 
 ## Datasets
 
@@ -39,6 +39,11 @@
 
 
 ## 新闻
+🔥🔥 [2024/01/17] MFTCoder新版v0.3.0发布。新增对Mixtral(MoE), deepseek等模型的支持；新增支持FSDP(Fully Sharded Data Parallel)；新增Self-paced Loss, 支持多任务收敛均衡。 感兴趣详见微信公众号CodeFuse[文章](https://mp.weixin.qq.com/s/PCQPkvbvfxSPzsqjOILCDw)
+
+🔥🔥 [2024/01/17] 开源了[CodeFuse-Deepseek-33B](https://huggingface.co/codefuse-ai/CodeFuse-Deepseek-33B)模型，在HumanEval pass@1(greedy decoding)上可以达到78.7%。感兴趣详见微信公众号CodeFuse[文章](https://mp.weixin.qq.com/s/PCQPkvbvfxSPzsqjOILCDw)
+
+🔥🔥 [2024/01/17] 开源了[CodeFuse-Mixtral-8x7B](https://huggingface.co/codefuse-ai/CodeFuse-Mixtral-8x7B)模型，在HumanEval pass@1(greedy decoding)上可以达到56.1%。感兴趣详见微信公众号CodeFuse[文章](https://mp.weixin.qq.com/s/PCQPkvbvfxSPzsqjOILCDw)
 
 🔥🔥 [2023/11/07] [MFTCoder论文](https://arxiv.org/abs/2311.02303)在Arxiv公布，介绍了多任务微调的技术细节。
 
@@ -53,21 +58,23 @@
 🔥 [2023/08/26]MFTCoder支持使用LoRA/QLoRA对Code Llama、Llama、Llama2、StarCoder、ChatGLM2、CodeGeeX2、Qwen和GPT-NeoX模型进行微调。
 
 ### HumanEval表现
-| 模型                          | HumanEval(Pass@1) |   日期    |
-|:----------------------------|:-----------------:|:-------:|
-| **CodeFuse-CodeLlama-34B**  |     **74.4%**      | 2023/09  |
-|**CodeFuse-CodeLlama-34B-4bits** |     **73.8%**  |  2023/09 |
-| WizardCoder-Python-34B-V1.0 |       73.2%       | 2023/08  |
-| GPT-4(zero-shot)            |       67.0%       | 2023/03  |
-| PanGu-Coder2 15B            |       61.6%       | 2023/08  |
-| **CodeFuse-StarCoder-15B**  |     **54.9%**     | 2023/08  |
-| CodeLlama-34b-Python        |       53.7%       | 2023/08  |
-| **CodeFuse-QWen-14B**  |     **48.8%**     | 2023/10  |
-| CodeLlama-34b               |       48.8%       | 2023/08  |
-| GPT-3.5(zero-shot)          |       48.1%       | 2022/11 |
-| OctoCoder                   |       46.2%       | 2023/08  |
-| StarCoder-15B               |       33.6%       | 2023/05  |
-| QWen-14B |     32.3%     | 2023/10  |
+| 模型                               | HumanEval(Pass@1) |   日期    |
+|:---------------------------------|:-----------------:|:-------:|
+| **CodeFuse-Deepseek-33B**        |     **78.7%**     | 2024/01 |
+| **CodeFuse-Mixtral-8x7B**        |     **56.1%**     | 2024/01 |
+| **CodeFuse-CodeLlama-34B**       |     **74.4%**     | 2023/09 |
+| **CodeFuse-CodeLlama-34B-4bits** |     **73.8%**     | 2023/09 |
+| WizardCoder-Python-34B-V1.0      |       73.2%       | 2023/08 |
+| GPT-4(zero-shot)                 |       67.0%       | 2023/03 |
+| PanGu-Coder2 15B                 |       61.6%       | 2023/08 |
+| **CodeFuse-StarCoder-15B**       |     **54.9%**     | 2023/08 |
+| CodeLlama-34b-Python             |       53.7%       | 2023/08 |
+| **CodeFuse-QWen-14B**            |     **48.8%**     | 2023/10 |
+| CodeLlama-34b                    |       48.8%       | 2023/08 |
+| GPT-3.5(zero-shot)               |       48.1%       | 2022/11 |
+| OctoCoder                        |       46.2%       | 2023/08 |
+| StarCoder-15B                    |       33.6%       | 2023/05 |
+| QWen-14B                         |       32.3%       | 2023/10 |
 
 
 ## 文章
@@ -82,7 +89,7 @@
 **Codefuse-MFTCoder** 是一个开源的多任务代码大语言模型项目，包含代码大模型的模型、数据、训练等。我们希望通过开源，分享交流大语言模型在代码领域的进步。
 
 ### 项目框架
-![img_1.png](./assets/img_1.png)
+![img_1.jpg](./assets/img_1.jpg)
 
 ### 项目优势
 :white_check_mark: **多任务**：一个模型同时支持多个任务，会保证多个任务之间的平衡，甚至可以泛化到新的没有见过的任务上去；
@@ -125,15 +132,18 @@ sh init_env.sh
 
 ## 模型
 
-使用本项目的训练代码，以及上述训练数据，我们训练并在huggingface开源了以下模型。
+使用本项目的训练代码，以及上述训练数据，我们训练并在huggingface, modelscope开源了以下模型。
+
+| 模型                                   |     HuggingFace links         |     ModelScope links         | 基座模型                 | 训练数据 | Batch Size | Seq Length |
+|--------------------------------------|------------------------|---|----------------------|------|------------|------------|
+| 🔥🔥🔥  CodeFuse-Deepseek-33B        |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-Deepseek-33B)         |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-Deepseek-33B)          | Deepseek-coder-33B   | 60万  | 80         | 4096       |
+| 🔥🔥🔥  CodeFuse-Mixtral-8x7B        |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-Mixtral-8x7B)         |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-Mixtral-8x7B)               | Mixtral-8x7B         | 60万  | 80         | 4096       |
+| 🔥🔥🔥  CodeFuse-CodeLlama-34B       |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B)        |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B)               | CodeLlama-34b-Python | 60万  | 80         | 4096       |
+| 🔥🔥🔥  CodeFuse-CodeLlama-34B-4bits |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B-4bits)  |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B-4bits)    | CodeLlama-34b-Python |   |          | 4096       |
+| 🔥🔥🔥  CodeFuse-StarCoder-15B       |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-StarCoder-15B)        |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-StarCoder-15B)              | StarCoder-15B        | 60万  | 80         | 4096       |
+| 🔥🔥🔥  CodeFuse-QWen-14B            |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-QWen-14B)             |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-QWen-14B)                       | Qwen-14b             | 110万                    | 256         | 4096       | 
+| 🔥🔥🔥  CodeFuse-CodeGeex2-6B        |[h-link](https://huggingface.co/codefuse-ai/CodeFuse-CodeGeex2-6B)             |[m-link](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeGeex2-6B)                       | CodeGeex2-6B         | 110万                    | 256         | 4096       | 
 
-| 模型                                                            | 基座模型                 | 训练数据 | Batch Size | Seq Length |
-|---------------------------------------------------------------|----------------------|------|------------|------------|
-| [🔥🔥🔥  CodeFuse-CodeLlama-34B](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B) | CodeLlama-34b-Python | 60万  | 80         | 4096       |
-| [🔥🔥🔥  CodeFuse-CodeLlama-34B-4bits](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B-4bits) | CodeLlama-34b-Python |   |          | 4096       |
-| [🔥🔥🔥  CodeFuse-StarCoder-15B](https://huggingface.co/codefuse-ai/CodeFuse-StarCoder-15B) | CodeLlama-34b-Python | 60万  | 80         | 4096       |
-| [🔥🔥🔥 CodeFuse-QWen-14B](https://huggingface.co/codefuse-ai/CodeFuse-QWen-14B) | Qwen-14b | 110万                    | 256         | 4096       | 
-| [🔥 CodeFuse-13B](https://huggingface.co/codefuse-ai/CodeFuse-13B)           | CodeFuse-13B-Base    | 6.6万 | 64         | 4096       |
 
 
 
 
@@ -73,8 +73,8 @@ def get_task_mask(args, task_id):
     return task_mask
 
 
-def get_ltor_masks_and_position_ids(data):
-    """Build masks and position id for left to right model."""
+def get_attention_mask_and_position_ids(data):
+    """Build masks and position ids if you need to"""
 
     # Extract batch size and sequence length.
     batch_size, seq_length = data.size()
@@ -124,11 +124,11 @@ def __call__(self, instances):
         result_batch['labels'] = input_ids[:, 1:max_pos].contiguous()
 
         # Get the masks and position ids.
-        if self.args.model_type == 'phi':
-            result_batch['attention_mask'], result_batch['position_ids'] = None, None
-        else:
-            result_batch['attention_mask'], result_batch['position_ids'] = get_ltor_masks_and_position_ids(
-                data=result_batch['input_ids'])
+        # For decoder-only models, attention_mask and position_ids should be None and transformers will create them.
+        result_batch['attention_mask'], result_batch['position_ids'] = None, None
+
+        # if you want to be compatible with non-gpt(non-causal)models, something you can do here
+        # result_batch['attention_mask'], result_batch['position_ids'] = get_attention_mask_and_position_ids(data=result_batch['input_ids'])
 
         if task_id is not None:
             task_id = torch.tensor(np.array(task_id))