updated

anxiangsir · anxiangsir · commit 316368187b5b · 2025-09-26T08:44:45.000+08:00
diff --git a/README.md b/README.md
@@ -298,12 +298,12 @@ CUDA_VISIBLE_DEVICES=4,5,6,7 accelerate launch \
 To improve model training efficiency, we implement offline sample packing:
 
 1. Download the [**Mid-Training-85M Dataset**](https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M)
-2. Pack the mid-training data into webdataset format, For detailed instructions, refer to [**Offline Padding-Free Data Packing**](examples/llava_ov_1_5/sample_packing/README.md)
+2. Pack the data into webdataset format, refer to [**Offline Padding-Free Data Packing**](examples/llava_ov_1_5/sample_packing/README.md)
 
 
 ### Instruct
 1. Download the [**LLaVA-OneVision-1.5-Insturct-Data**](https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data)
-2. Convert the instruct data into webdataset format, For detailed instructions, refer to [**WebDataset Conversion for Mixed Instruction Data**](docs/sft_data_preprocessing.md)
+2. Convert the data into webdataset format, refer to [**Conversion for Mixed Instruction Data**](docs/sft_data_preprocessing.md)
 
 ## Roadmaps
 
diff --git a/docs/sft_data_preprocessing.md b/docs/sft_data_preprocessing.md
@@ -23,7 +23,7 @@ docker run -it --gpus all \
 
 ## 2\. Data Download
 
-Download LLaVA-NeXT-780k-webdataset at [LLaVA-NeXT-780k](https://huggingface.co/datasets/lmms-lab/LLaVA-NeXT-Data)
+Download LLaVA-NeXT-780k at [🤗HF/LLaVA-NeXT-780k](https://huggingface.co/datasets/lmms-lab/LLaVA-NeXT-Data)
 
 
 ## 3\. Execute the WebDataset Conversion