Skip to content

Commit fb57e67

Browse files
authored
Update text_process_operators.md
1 parent 2bc7452 commit fb57e67

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

docs/zh/notes/guide/general_operators/text_process_operators.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -238,6 +238,6 @@ DeitaQualityFilter:
238238

239239
支持的打分器,详见[评估算法文档](/zh/guide/f50mqhmb/)(除Diversity部分)。
240240

241-
此外,启发式规则过滤在预训练数据的筛选方面占有很大的比重,在这一方面,[Dingo数据质量评估工具](https://github.com/DataEval/dingo)对我们的开发带来了很大的启发。我们在`dataflow/process/text/filters/heuristics.py`中整合了部分Dingo中使用的规则过滤算法,共22种。详见[规则文档](https://github.com/DataEval/dingo/blob/dev/docs/rules.md),过滤器名称可参考`dataflow/process/text/filters/heuristics.py`文件。
241+
此外,启发式规则过滤在预训练数据的筛选方面占有很大的比重,在这一方面,[Dingo数据质量评估工具](https://github.com/DataEval/dingo)对我们的开发带来了很大的启发。我们在`dataflow/operators/filter/GeneralText/heuristics.py`中整合了部分Dingo中使用的规则过滤算法,共22种。详见[规则文档](https://github.com/DataEval/dingo/blob/dev/docs/rules.md),过滤器名称可参考`dataflow/process/text/filters/heuristics.py`文件。
242242

243243
需要说明的是,以上提到的42种数据过滤器具有相同的`Yaml`调用方式。

0 commit comments

Comments
 (0)