Pretraining dataset

Data sources come from the following categories:

Web crawler dataset:

Website UET (ĐH Công nghệ): tuyensinh.uet.vnu.edu.vn; new.uet.vnu.edu.vn
Website HUS (ĐH KHTN): hus.vnu.edu.vn
Website EUB (ĐH Kinh tế): ueb.vnu.edu.vn
Website IS (ĐH Quốc tế): is.vnu.edu.vn
Website Eduacation (ĐH Giáo dục): education.vnu.edu.vn
Website NXB ĐHQG: press.vnu.edu.vn
List domain web crawler

CC100:
link to CC100 vi
C4_vi:
link to C4_vi

Tokenizer

We use tokenizer from meta-llama/Llama-3.1-8B

Training models

We apply continual pretraining to meta-llama/Llama-3.1-8B on our processed dataset. The training process last 10 days on 2 Nvidia A100 GPUs and we achieve the average training loss of 1.9

Filtering models

Quality classification model:

Model type: deberta-v2
Params: 278 M
Size: 1.11 GB

Domain classification model :

Model type: fasttext
Size: 2.02 GB

Toxic detection model

Model type: RoBERTa with classification layers
Params: 136 M
Size: 544 MB

Deduplication

Locality Sensitive Hashing: Minhash

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.github/workflows		.github/workflows
CPT.py		CPT.py
README.md		README.md
dedup.py		dedup.py
domain_classification.py		domain_classification.py
processing_data.ipynb		processing_data.ipynb
quality_filter.py		quality_filter.py
toxic_filter.py		toxic_filter.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pretraining dataset

Tokenizer

Training models

Filtering models

Deduplication

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

22022658NguyenTienKhoi/ViEdu-pretraining-data-processing

Folders and files

Latest commit

History

Repository files navigation

Pretraining dataset

Tokenizer

Training models

Filtering models

Deduplication

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages