1515 <a href =" https://github.com/DataEval/dingo/issues " ><img src =" https://img.shields.io/github/issues/DataEval/dingo " alt =" GitHub 问题 " ></a >
1616</p >
1717
18+
19+ <div align =" center " >
20+ <a href =" https://discord.gg/Jhgb2eKWh8 " style =" text-decoration :none ;" >
21+ <img src="https://user-images.githubusercontent.com/25839884/218347213-c080267f-cbb6-443e-8532-8e1ed9a58ea9.png" width="8%" alt="Discord" /></a>
22+ <a href =" https://huggingface.co/spaces/DataEval/dingo " style =" text-decoration :none ;" >
23+ <img src="https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo.png" width="8%" alt="Hugging Face" /></a>
24+ </div >
25+
1826</div >
1927
2028# Changelog
2129
2230- 2024/12/27: Project Initialization
2331
24- # 一、 介绍
32+ # 介绍
2533
2634Dingo是一款数据质量评估工具,帮助你自动化检测数据集中的数据质量问题。Dingo提供了多种内置的规则和模型评估方法,同时也支持自定义评估方法。Dingo支持常用的文本数据集和多模态数据集,包括预训练数据集、微调数据集和评测数据集。此外,Dingo支持多种使用方式,包括本地CLI和SDK,便于集成到各种评测平台,如[ OpenCompass] ( https://github.com/open-compass/opencompass ) 等。
2735
@@ -30,7 +38,7 @@ Dingo是一款数据质量评估工具,帮助你自动化检测数据集中的
3038![ Architecture of dingo] ( ./docs/assets/architeture.png )
3139
3240
33- # 二、 快速启动
41+ # 快速启动
3442
3543## 1. 安装
3644
@@ -208,7 +216,7 @@ python -m dingo.run.vsl --input 输出目录
208216## 5. 在线演示
209217尝试我们的在线演示: [ (Hugging Face)🤗] ( https://huggingface.co/spaces/DataEval/dingo )
210218
211- # 三、 数据质量指标
219+ # 数据质量指标
212220
213221Dingo将数据质量问题分为7个维度的质量指标。每个维度可以通过基于规则的方法和基于LLM的prompt进行评估:
214222
@@ -289,7 +297,7 @@ input_data = {
289297
290298每条规则都针对文本质量的特定方面进行检查,并映射到这些指标之一。运行评估时,Dingo将提供每个维度的分数并识别触发了哪些规则。
291299
292- # 四、 规则组
300+ # 规则组
293301
294302Dingo为不同类型的数据集提供预配置的规则组:
295303
@@ -308,7 +316,7 @@ input_data = {
308316}
309317```
310318
311- # 五、 功能亮点
319+ # 功能亮点
312320
313321## 1. 多源和多模态支持
314322
@@ -334,7 +342,7 @@ input_data = {
334342- ** 质量指标** :7维质量评估
335343- ** 可追溯性** :异常追踪的详细报告
336344
337- # 六、 使用指南
345+ # 使用指南
338346
339347## 1. 自定义规则、Prompt和模型
340348
@@ -444,27 +452,32 @@ result = executor.execute()
444452}
445453```
446454
447- # 七、未来计划
455+ # 研究与学术成果
456+
457+
458+ - ** "多语言网页数据的数据质量评估"** : [ WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages] ( https://arxiv.org/pdf/2501.14506 )
459+
460+ # 未来计划
448461
449462- [ ] 更丰富的图文评测指标
450463- [ ] 音频和视频数据模态评测
451464- [ ] 小模型评测(如fasttext、Qurating)
452465- [ ] 数据多样性评测
453466
454- # 八、 局限性
467+ # 局限性
455468
456469当前内置的检测规则和模型方法主要关注常见的数据质量问题。对于特殊评估需求,我们建议定制化检测规则。
457470
458- # 九、 致谢
471+ # 致谢
459472
460473- [ RedPajama-Data] ( https://github.com/togethercomputer/RedPajama-Data )
461474- [ mlflow] ( https://github.com/mlflow/mlflow )
462475
463- # 十、 贡献
476+ # 贡献
464477
465478我们感谢所有的贡献者为改进和提升 ` Dingo ` 所作出的努力。请参考[ 贡献指南] ( docs/en/CONTRIBUTING.md ) 来了解参与项目贡献的相关指引。
466479
467- # 十一、 开源许可证
480+ # 开源许可证
468481
469482该项目采用 [ Apache 2.0 开源许可证] ( LICENSE ) 。
470483
0 commit comments