Skip to content

Commit 8996fc9

Browse files
authored
Merge pull request #60 from e06084/dev
docs: update readme
2 parents ac7ac65 + badd957 commit 8996fc9

File tree

2 files changed

+32
-15
lines changed

2 files changed

+32
-15
lines changed

README.md

Lines changed: 8 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -21,11 +21,9 @@
2121

2222
<div align="center">
2323
<a href="https://discord.gg/Jhgb2eKWh8" style="text-decoration:none;">
24-
<img src="https://user-images.githubusercontent.com/25839884/218347213-c080267f-cbb6-443e-8532-8e1ed9a58ea9.png" width="3%" alt="Discord" /></a>
25-
<img src="https://user-images.githubusercontent.com/25839884/218346358-56cc8e2f-a2b8-487f-9088-32480cceabcf.png" width="3%" alt="" />
24+
<img src="https://user-images.githubusercontent.com/25839884/218347213-c080267f-cbb6-443e-8532-8e1ed9a58ea9.png" width="8%" alt="Discord" /></a>
2625
<a href="https://huggingface.co/spaces/DataEval/dingo" style="text-decoration:none;">
27-
<img src="https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo.png" width="3%" alt="Hugging Face" /></a>
28-
<img src="https://user-images.githubusercontent.com/25839884/218346358-56cc8e2f-a2b8-487f-9088-32480cceabcf.png" width="3%" alt="" />
26+
<img src="https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo.png" width="8%" alt="Hugging Face" /></a>
2927
</div>
3028

3129

@@ -453,6 +451,12 @@ Example summary:
453451
}
454452
```
455453

454+
# Research & Publications
455+
456+
- **"Comprehensive Data Quality Assessment for Multilingual WebData"** : [WanJuanSiLu: A High-Quality Open-Source Webtext
457+
Dataset for Low-Resource Languages](https://arxiv.org/pdf/2501.14506)
458+
459+
456460
# Future Plans
457461

458462
- [ ] Richer graphic and text evaluation indicators

README_zh-CN.md

Lines changed: 24 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -15,13 +15,21 @@
1515
<a href="https://github.com/DataEval/dingo/issues"><img src="https://img.shields.io/github/issues/DataEval/dingo" alt="GitHub 问题"></a>
1616
</p>
1717

18+
19+
<div align="center">
20+
<a href="https://discord.gg/Jhgb2eKWh8" style="text-decoration:none;">
21+
<img src="https://user-images.githubusercontent.com/25839884/218347213-c080267f-cbb6-443e-8532-8e1ed9a58ea9.png" width="8%" alt="Discord" /></a>
22+
<a href="https://huggingface.co/spaces/DataEval/dingo" style="text-decoration:none;">
23+
<img src="https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo.png" width="8%" alt="Hugging Face" /></a>
24+
</div>
25+
1826
</div>
1927

2028
# Changelog
2129

2230
- 2024/12/27: Project Initialization
2331

24-
# 一、介绍
32+
# 介绍
2533

2634
Dingo是一款数据质量评估工具,帮助你自动化检测数据集中的数据质量问题。Dingo提供了多种内置的规则和模型评估方法,同时也支持自定义评估方法。Dingo支持常用的文本数据集和多模态数据集,包括预训练数据集、微调数据集和评测数据集。此外,Dingo支持多种使用方式,包括本地CLI和SDK,便于集成到各种评测平台,如[OpenCompass](https://github.com/open-compass/opencompass)等。
2735

@@ -30,7 +38,7 @@ Dingo是一款数据质量评估工具,帮助你自动化检测数据集中的
3038
![Architecture of dingo](./docs/assets/architeture.png)
3139

3240

33-
# 二、快速启动
41+
# 快速启动
3442

3543
## 1. 安装
3644

@@ -208,7 +216,7 @@ python -m dingo.run.vsl --input 输出目录
208216
## 5. 在线演示
209217
尝试我们的在线演示: [(Hugging Face)🤗](https://huggingface.co/spaces/DataEval/dingo)
210218

211-
# 三、数据质量指标
219+
# 数据质量指标
212220

213221
Dingo将数据质量问题分为7个维度的质量指标。每个维度可以通过基于规则的方法和基于LLM的prompt进行评估:
214222

@@ -289,7 +297,7 @@ input_data = {
289297

290298
每条规则都针对文本质量的特定方面进行检查,并映射到这些指标之一。运行评估时,Dingo将提供每个维度的分数并识别触发了哪些规则。
291299

292-
# 四、规则组
300+
# 规则组
293301

294302
Dingo为不同类型的数据集提供预配置的规则组:
295303

@@ -308,7 +316,7 @@ input_data = {
308316
}
309317
```
310318

311-
# 五、功能亮点
319+
# 功能亮点
312320

313321
## 1. 多源和多模态支持
314322

@@ -334,7 +342,7 @@ input_data = {
334342
- **质量指标**:7维质量评估
335343
- **可追溯性**:异常追踪的详细报告
336344

337-
# 六、使用指南
345+
# 使用指南
338346

339347
## 1. 自定义规则、Prompt和模型
340348

@@ -444,27 +452,32 @@ result = executor.execute()
444452
}
445453
```
446454

447-
# 七、未来计划
455+
# 研究与学术成果
456+
457+
458+
- **"多语言网页数据的数据质量评估"** : [WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages](https://arxiv.org/pdf/2501.14506)
459+
460+
# 未来计划
448461

449462
- [ ] 更丰富的图文评测指标
450463
- [ ] 音频和视频数据模态评测
451464
- [ ] 小模型评测(如fasttext、Qurating)
452465
- [ ] 数据多样性评测
453466

454-
# 八、局限性
467+
# 局限性
455468

456469
当前内置的检测规则和模型方法主要关注常见的数据质量问题。对于特殊评估需求,我们建议定制化检测规则。
457470

458-
# 九、致谢
471+
# 致谢
459472

460473
- [RedPajama-Data](https://github.com/togethercomputer/RedPajama-Data)
461474
- [mlflow](https://github.com/mlflow/mlflow)
462475

463-
# 十、贡献
476+
# 贡献
464477

465478
我们感谢所有的贡献者为改进和提升 `Dingo` 所作出的努力。请参考[贡献指南](docs/en/CONTRIBUTING.md)来了解参与项目贡献的相关指引。
466479

467-
# 十一、开源许可证
480+
# 开源许可证
468481

469482
该项目采用 [Apache 2.0 开源许可证](LICENSE)
470483

0 commit comments

Comments
 (0)