You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
**DataFlow**是一个用于数据评估与处理的系统,旨在对嘈杂的数据源(如 PDF 文档、纯文本、低质量问答数据)进行**清洗、增强与评估**以得到高质量的训练数据。得到高质量数据我们可以通过有针对性的训练(包括预训练、有监督微调、强化学习训练)提升大语言模型在通用领域(推理能力和检索能力)与特定领域(如医疗、金融、法律等)的性能。
16
+
**DataFlow**是一个高效完成高质量数据治理的系统,旨在对诸如 PDF 文档、纯文本、爬虫数据等低质量而嘈杂的数据进行**修正、扩增、评估与过滤**(refine, generate, evaluate, filt) 以得到高质量的训练数据。这些数据可以通过预训练、有监督微调、强化学习训练提升大语言模型在通用领域(推理能力和检索能力)与特定领域(如医疗、金融、法律等)的性能。此外,Dataflow产出的高质量数据也可以有效赋能现有的RAG系统。
17
17
18
-
具体而言,我们构建了一系列多样化的算子(Operator),这些算子基于规则方法、深度学习模型、大语言模型(LLMs)以及 LLM API 开发而成。我们将这些算子系统性地整合进六条独立的数据处理流水线(Pipeline)中,构成了完整的 **DataFlow 系统**。
18
+
具体而言,DataFlow系统由如下部分组成:
19
+
1.**算子(Operator):**:我们对于多种数据治理需求进行了分析与抽象,构建了一系列多样化的算子,这些算子基于规则方法、深度学习模型、大语言模型(LLMs)以及 LLM API 开发而成。算子具有原子性,便于复用和框架级别统一优化。
0 commit comments