more renaming

sanchit-gandhi · sanchit-gandhi · commit 85b8cac79786 · 2024-04-05T12:24:02.000+02:00
diff --git a/README.md b/README.md
@@ -27,21 +27,21 @@ In the proceeding example, we follow Stability's approach by taking audio embedd
 model, and training the linear classifier on a combination of three open-source datasets:
 1. The English Accented (`en_accented`) subset of [Voxpopuli](https://huggingface.co/datasets/facebook/voxpopuli)
 2. The train split of [VCTK](https://huggingface.co/datasets/vctk) 
-3. The dev split of [EdAcc](https://huggingface.co/datasets/sanchit-gandhi/edacc)
+3. The dev split of [EdAcc](https://huggingface.co/datasets/edinburghcstr/edacc)
 
-The model is subsequently evaluated on the test split of [EdAcc](https://huggingface.co/datasets/sanchit-gandhi/edacc)
+The model is subsequently evaluated on the test split of [EdAcc](https://huggingface.co/datasets/edinburghcstr/edacc)
 to give the final classification accuracy.
 
 ```bash
 #!/usr/bin/env bash
 
 python run_audio_classification.py \
     --model_name_or_path "facebook/mms-lid-126" \
-    --train_dataset_name "vctk+facebook/voxpopuli+sanchit-gandhi/edacc" \
+    --train_dataset_name "vctk+facebook/voxpopuli+edinburghcstr/edacc" \
     --train_dataset_config_name "main+en_accented+default" \
     --train_split_name "train+test+validation" \
     --train_label_column_name "accent+accent+accent" \
-    --eval_dataset_name "sanchit-gandhi/edacc" \
+    --eval_dataset_name "edinburghcstr/edacc" \
     --eval_dataset_config_name "default" \
     --eval_split_name "test" \
     --eval_label_column_name "accent" \
diff --git a/dataset_concatenation_scripts/run_dataset_concatenation.sh b/dataset_concatenation_scripts/run_dataset_concatenation.sh
@@ -1,7 +1,7 @@
 #!/usr/bin/env bash
 
 python run_dataset_concatenation.py \
-    --dataset_name "sanchit-gandhi/vctk+facebook/voxpopuli+sanchit-gandhi/edacc-normalized" \
+    --dataset_name "sanchit-gandhi/vctk+facebook/voxpopuli+edinburghcstr/edacc-normalized" \
     --dataset_config_name "default+en_accented+default" \
     --dataset_split_name "train+test+validation" \
     --label_column_name "accent+accent+accent" \
@@ -11,7 +11,7 @@ python run_dataset_concatenation.py \
     --output_dir "./concatenated-dataset"
 
 python run_dataset_concatenation.py \
-    --dataset_name "sanchit-gandhi/edacc-normalized" \
+    --dataset_name "edinburghcstr/edacc-normalized" \
     --dataset_config_name "default" \
     --dataset_split_name "test" \
     --label_column_name "accent" \
diff --git a/edacc/prepare_edacc.py b/edacc/prepare_edacc.py
@@ -73,7 +73,7 @@ def main():
                 "How would you describe your accent in English? (e.g. Italian, Glaswegian)"
             ]
 
-    accent_dataset = load_dataset("sanchit-gandhi/edacc_accents", split="train")
+    accent_dataset = load_dataset("edinburghcstr/edacc_accents", split="train")
 
     def format_dataset(batch):
         batch["speaker_id"] = (
diff --git a/edacc/run_edacc.sh b/edacc/run_edacc.sh
@@ -3,5 +3,5 @@
 python prepare_edacc.py \
     --dataset_dir "/fsx/sanchit/edacc/edacc_v1.0" \
     --output_dir "/fsx/sanchit/edacc_processed" \
-    --hub_dataset_id "sanchit-gandhi/edacc-normalized" \
+    --hub_dataset_id "edinburghcstr/edacc-normalized" \
     --push_to_hub

Original file line number	Diff line number	Diff line change
`@@ -73,7 +73,7 @@ def main():`
`73`	`73`	`"How would you describe your accent in English? (e.g. Italian, Glaswegian)"`
`74`	`74`	`]`
`75`	`75`
`76`		`- accent_dataset = load_dataset("sanchit-gandhi/edacc_accents", split="train")`
	`76`	`+ accent_dataset = load_dataset("edinburghcstr/edacc_accents", split="train")`
`77`	`77`
`78`	`78`	`def format_dataset(batch):`
`79`	`79`	`batch["speaker_id"] = (`