African Language Parallel Sentences Collection

This dataset collection includes sentence pairs for African languages along with similarity scores. It can be used for machine translation, sentence alignment, or other natural language processing tasks. This dataset is based on the NLLBv1 dataset, published on OPUS under an open-source initiative led by META. You can find more information here: OPUS - NLLB-v1. Below is a table listing the language pairs and their counts:

Language Pair	Total Sentence Pairs
Afrikaans-Akan	96786
Afrikaans-Amharic	2084061
Afrikaans-Bambara	121707
Afrikaans-Bemba	340946
Afrikaans-Chichewa	1149573
Afrikaans-Dinka	113793
Afrikaans-Dyula	130823
Afrikaans-Ewe	603861
Afrikaans-Fon	250256
Afrikaans-Fulah	168993
Afrikaans-Ganda	477039
Afrikaans-Hausa	1915829
Afrikaans-Igbo	820401
Afrikaans-Kamba	99195
Afrikaans-Kikuyu	127764
Afrikaans-Kimbundu	115415
Afrikaans-Kinyarwanda	1042316
Afrikaans-Kongo	199797
Afrikaans-Lingala	346128
Afrikaans-Nuer	51337
Afrikaans-Oromo	471696
Afrikaans-Pedi	408589
Afrikaans-Rundi	538952
Afrikaans-Shona	1293875
Afrikaans-Somali	1432523
Afrikaans-Swahili	2454143
Afrikaans-Swati	184251
Afrikaans-Tigrinya	454330
Afrikaans-Tsonga	554518
Afrikaans-Tswana	779255
Afrikaans-Tumbuka	407317
Afrikaans-Twi	567621
Afrikaans-Umbundu	205246
Afrikaans-Wolof	237043
Afrikaans-Xhosa	1361566
Afrikaans-Yoruba	1775488
Afrikaans-Zulu	1771278
Akan-Amharic	101523
Akan-Bambara	14267
Akan-Bemba	34555
Akan-Chichewa	52335
Akan-Dinka	13572
Akan-Dyula	19101
Akan-Ewe	64269
Akan-Fon	46382
Akan-Fulah	14234
Akan-Ganda	45950
Akan-Hausa	98876
Akan-Igbo	39244
Akan-Kamba	11522
Akan-Kikuyu	13930
Akan-Kimbundu	15566
Akan-Kinyarwanda	67130
Akan-Kongo	23039
Akan-Lingala	36203
Akan-Nuer	8534
Akan-Oromo	47078
Akan-Pedi	46138
Akan-Rundi	47706
Akan-Shona	68092
Akan-Somali	78259
Akan-Swahili	165350
Akan-Swati	19251
Akan-Tigrinya	33956
Akan-Tsonga	51276
Akan-Tswana	54079
Akan-Tumbuka	36800
Akan-Twi	76664
Akan-Umbundu	22651
Akan-Wolof	39021
Akan-Xhosa	70562
Akan-Yoruba	113776
Akan-Zulu	82123
Amharic-Bambara	51635
Amharic-Bemba	171640
Amharic-Chichewa	725008
Amharic-Dinka	45791
Amharic-Dyula	99334
Amharic-Ewe	245623
Amharic-Fon	95259
Amharic-Fulah	435048
Amharic-Ganda	179444
Amharic-Hausa	751953
Amharic-Igbo	419692
Amharic-Kamba	81295
Amharic-Kikuyu	97726
Amharic-Kimbundu	64624
Amharic-Kinyarwanda	304469
Amharic-Kongo	109426
Amharic-Lingala	155816
Amharic-Nuer	35192
Amharic-Oromo	109805
Amharic-Pedi	147780
Amharic-Rundi	259185
Amharic-Shona	856816
Amharic-Somali	516987
Amharic-Swahili	1030476
Amharic-Swati	66047
Amharic-Tigrinya	300472
Amharic-Tsonga	251293
Amharic-Tswana	278272
Amharic-Tumbuka	256776
Amharic-Twi	224561
Amharic-Umbundu	102087
Amharic-Wolof	66465
Amharic-Xhosa	520514
Amharic-Yoruba	422785
Amharic-Zulu	938790
Bambara-Bemba	30898
Bambara-Chichewa	52883
Bambara-Dinka	13957
Bambara-Dyula	23483
Bambara-Ewe	35521
Bambara-Fon	25524
Bambara-Fulah	38120
Bambara-Ganda	43061
Bambara-Hausa	76985
Bambara-Igbo	37302
Bambara-Kamba	12455
Bambara-Kikuyu	16932
Bambara-Kimbundu	13259
Bambara-Kinyarwanda	56300
Bambara-Kongo	24662
Bambara-Lingala	32699
Bambara-Nuer	12783
Bambara-Oromo	30266
Bambara-Pedi	34981
Bambara-Rundi	39695
Bambara-Shona	57466
Bambara-Somali	71328
Bambara-Swahili	146216
Bambara-Swati	15606
Bambara-Tigrinya	28791
Bambara-Tsonga	41624
Bambara-Tswana	55244
Bambara-Tumbuka	35385
Bambara-Twi	44143
Bambara-Umbundu	20037
Bambara-Wolof	20330
Bambara-Xhosa	47406
Bambara-Yoruba	61947
Bambara-Zulu	66613
Bemba-Chichewa	224465
Bemba-Dinka	18134
Bemba-Dyula	56182
Bemba-Ewe	169160
Bemba-Fon	86130
Bemba-Fulah	48062
Bemba-Ganda	120534
Bemba-Hausa	180646
Bemba-Igbo	89452
Bemba-Kamba	76200
Bemba-Kikuyu	46655
Bemba-Kimbundu	73364
Bemba-Kinyarwanda	197886
Bemba-Kongo	88200
Bemba-Lingala	140378
Bemba-Nuer	16278
Bemba-Oromo	67775
Bemba-Pedi	101403
Bemba-Rundi	208681
Bemba-Shona	245336
Bemba-Somali	125817
Bemba-Swahili	398331
Bemba-Swati	55154
Bemba-Tigrinya	113617
Bemba-Tsonga	204918
Bemba-Tswana	169805
Bemba-Tumbuka	167288
Bemba-Twi	182348
Bemba-Umbundu	115462
Bemba-Wolof	39092
Bemba-Xhosa	213174
Bemba-Yoruba	123084
Bemba-Zulu	312412
Chichewa-Oromo	94366
Chichewa-Rundi	339945
Chichewa-Shona	977417
Chichewa-Somali	535036
Chichewa-Swahili	1078588
Chichewa-Swati	89228
Chichewa-Tigrinya	196854
Chichewa-Tsonga	365385
Chichewa-Tswana	290369
Chichewa-Tumbuka	292145
Chichewa-Twi	277105
Chichewa-Umbundu	141904
Chichewa-Wolof	69792
Chichewa-Xhosa	702941
Chichewa-Yoruba	525619
Chichewa-Zulu	1184037
Dinka-Chichewa	40701
Dinka-Dyula	17561
Dinka-Ewe	28177
Dinka-Fon	14461
Dinka-Fulah	38360
Dinka-Ganda	31116
Dinka-Hausa	51120
Dinka-Igbo	30769
Dinka-Kamba	6936
Dinka-Kikuyu	13013
Dinka-Kimbundu	6351
Dinka-Kinyarwanda	39196
Dinka-Kongo	17192
Dinka-Lingala	22370
Dinka-Nuer	13896
Dinka-Oromo	18728
Dinka-Pedi	21424
Dinka-Rundi	24413
Dinka-Shona	41412
Dinka-Somali	47951
Dinka-Swahili	106278
Dinka-Swati	9824
Dinka-Tigrinya	26547
Dinka-Tsonga	26142
Dinka-Tswana	40960
Dinka-Tumbuka	23524
Dinka-Twi	34672
Dinka-Umbundu	11337
Dinka-Wolof	25725
Dinka-Xhosa	35685
Dinka-Yoruba	49992
Dinka-Zulu	43842
Dyula-Chichewa	100921
Dyula-Ewe	70901
Dyula-Fon	41426
Dyula-Fulah	32888
Dyula-Ganda	77324
Dyula-Hausa	130406
Dyula-Igbo	63642
Dyula-Kamba	22901
Dyula-Kikuyu	34322
Dyula-Kimbundu	25167
Dyula-Kinyarwanda	102925
Dyula-Kongo	42986
Dyula-Lingala	57764
Dyula-Nuer	14363
Dyula-Oromo	45728
Dyula-Pedi	65221
Dyula-Rundi	72663
Dyula-Shona	111253
Dyula-Somali	112861
Dyula-Swahili	242778
Dyula-Swati	28528
Dyula-Tigrinya	55864
Dyula-Tsonga	82077
Dyula-Tswana	94328
Dyula-Tumbuka	69174
Dyula-Twi	82986
Dyula-Umbundu	37912
Dyula-Wolof	33194
Dyula-Xhosa	88194
Dyula-Yoruba	102291
Dyula-Zulu	124555
Ewe-Chichewa	285213
Ewe-Fon	78389
Ewe-Fulah	78098
Ewe-Ganda	139117
Ewe-Hausa	204932
Ewe-Igbo	117699
Ewe-Kamba	64762
Ewe-Kikuyu	61576
Ewe-Kimbundu	62600
Ewe-Kinyarwanda	210356
Ewe-Kongo	104677
Ewe-Lingala	137272
Ewe-Nuer	21245
Ewe-Oromo	74473
Ewe-Pedi	111573
Ewe-Rundi	197510
Ewe-Shona	281405
Ewe-Somali	174327
Ewe-Swahili	515756
Ewe-Swati	53779
Ewe-Tigrinya	153184
Ewe-Tsonga	237451
Ewe-Tswana	227661
Ewe-Tumbuka	178779
Ewe-Twi	215252
Ewe-Umbundu	106645
Ewe-Wolof	54684
Ewe-Xhosa	237405
Ewe-Yoruba	167046
Ewe-Zulu	344558
Fon-Chichewa	131151
Fon-Fulah	81491
Fon-Ganda	64936
Fon-Hausa	103601
Fon-Igbo	55155
Fon-Kamba	35955
Fon-Kikuyu	34694
Fon-Kimbundu	44269
Fon-Kinyarwanda	105316
Fon-Kongo	57877
Fon-Lingala	69800
Fon-Nuer	12128
Fon-Oromo	50665
Fon-Pedi	58696
Fon-Rundi	89002
Fon-Shona	119304
Fon-Somali	108292
Fon-Swahili	260363
Fon-Swati	31019
Fon-Tigrinya	59562
Fon-Tsonga	97374
Fon-Tswana	100104
Fon-Tumbuka	73794
Fon-Twi	87199
Fon-Umbundu	56632
Fon-Wolof	23879
Fon-Xhosa	90621
Fon-Yoruba	83416
Fon-Zulu	137778
Fulah-Chichewa	220801
Fulah-Ganda	91894
Fulah-Hausa	269335
Fulah-Igbo	111376
Fulah-Kamba	14631
Fulah-Kikuyu	27116
Fulah-Kimbundu	19094
Fulah-Kinyarwanda	220054
Fulah-Kongo	34996
Fulah-Lingala	50170
Fulah-Nuer	25702
Fulah-Oromo	92794
Fulah-Pedi	55965
Fulah-Rundi	80036
Fulah-Shona	122877
Fulah-Somali	240563
Fulah-Swahili	323993
Fulah-Swati	30447
Fulah-Tigrinya	124029
Fulah-Tsonga	67239
Fulah-Tswana	88945
Fulah-Tumbuka	60296
Fulah-Twi	77858
Fulah-Umbundu	30013
Fulah-Wolof	46967
Fulah-Xhosa	167072
Fulah-Yoruba	374873
Fulah-Zulu	197504
Ganda-Chichewa	187292
Ganda-Nuer	29008
Ganda-Oromo	71187
Ganda-Pedi	115301
Ganda-Rundi	151680
Ganda-Shona	201678
Ganda-Somali	139227
Ganda-Swahili	334135
Ganda-Swati	57049
Ganda-Tigrinya	101857
Ganda-Tsonga	156337
Ganda-Tswana	183013
Ganda-Tumbuka	143005
Ganda-Twi	156867
Ganda-Umbundu	76417
Ganda-Wolof	49136
Ganda-Xhosa	158308
Ganda-Yoruba	147769
Ganda-Zulu	221470
Hausa-Chichewa	1185730
Hausa-Ganda	183010
Hausa-Igbo	713539
Hausa-Kamba	100301
Hausa-Kikuyu	114669
Hausa-Kimbundu	95341
Hausa-Kinyarwanda	340233
Hausa-Kongo	135595
Hausa-Lingala	172584
Hausa-Nuer	47684
Hausa-Oromo	118255
Hausa-Pedi	181280
Hausa-Rundi	261554
Hausa-Shona	829704
Hausa-Somali	530058
Hausa-Swahili	956076
Hausa-Swati	89952
Hausa-Tigrinya	170394
Hausa-Tsonga	249927
Hausa-Tswana	294987
Hausa-Tumbuka	260765
Hausa-Twi	212496
Hausa-Umbundu	123040
Hausa-Wolof	77051
Hausa-Xhosa	627717
Hausa-Yoruba	795564
Hausa-Zulu	964409
Igbo-Chichewa	529822
Igbo-Ganda	111322
Igbo-Kamba	41429
Igbo-Kikuyu	55141
Igbo-Kimbundu	39828
Igbo-Kinyarwanda	181304
Igbo-Kongo	68066
Igbo-Lingala	93766
Igbo-Nuer	24786
Igbo-Oromo	63492
Igbo-Pedi	102943
Igbo-Rundi	134613
Igbo-Shona	498036
Igbo-Somali	379753
Igbo-Swahili	536881
Igbo-Swati	49075
Igbo-Tigrinya	101632
Igbo-Tsonga	131392
Igbo-Tswana	159643
Igbo-Tumbuka	133589
Igbo-Twi	127455
Igbo-Umbundu	58531
Igbo-Wolof	50187
Igbo-Xhosa	356544
Igbo-Yoruba	414643
Igbo-Zulu	609149
Kamba-Chichewa	92690
Kamba-Ganda	53058
Kamba-Kikuyu	18711
Kamba-Kimbundu	27811
Kamba-Kinyarwanda	74997
Kamba-Kongo	35726
Kamba-Lingala	50317
Kamba-Nuer	6081
Kamba-Oromo	37902
Kamba-Pedi	37846
Kamba-Rundi	72991
Kamba-Shona	94694
Kamba-Somali	87143
Kamba-Swahili	223368
Kamba-Swati	18509
Kamba-Tigrinya	48413
Kamba-Tsonga	75284
Kamba-Tswana	71382
Kamba-Tumbuka	63077
Kamba-Twi	67883
Kamba-Umbundu	41134
Kamba-Wolof	13110
Kamba-Xhosa	81623
Kamba-Yoruba	71526
Kamba-Zulu	121894
Kikuyu-Chichewa	86651
Kikuyu-Ganda	68172
Kikuyu-Kimbundu	20074
Kikuyu-Kinyarwanda	84433
Kikuyu-Kongo	35481
Kikuyu-Lingala	45462
Kikuyu-Nuer	10916
Kikuyu-Oromo	40833
Kikuyu-Pedi	50865
Kikuyu-Rundi	59660
Kikuyu-Shona	87949
Kikuyu-Somali	93562
Kikuyu-Swahili	219559
Kikuyu-Swati	24267
Kikuyu-Tigrinya	51429
Kikuyu-Tsonga	66196
Kikuyu-Tswana	77638
Kikuyu-Tumbuka	54854
Kikuyu-Twi	73017
Kikuyu-Umbundu	29453
Kikuyu-Wolof	26654
Kikuyu-Xhosa	74796
Kikuyu-Yoruba	90165
Kikuyu-Zulu	106379
Kimbundu-Chichewa	96058
Kimbundu-Ganda	53011
Kimbundu-Kongo	44692
Kimbundu-Lingala	59358
Kimbundu-Nuer	6053
Kimbundu-Oromo	34479
Kimbundu-Pedi	44774
Kimbundu-Rundi	75678
Kimbundu-Shona	90586
Kimbundu-Somali	90883
Kimbundu-Swahili	198165
Kimbundu-Swati	21334
Kimbundu-Tigrinya	40798
Kimbundu-Tsonga	90272
Kimbundu-Tswana	77646
Kimbundu-Tumbuka	63791
Kimbundu-Twi	69333
Kimbundu-Umbundu	47912
Kimbundu-Wolof	13730
Kimbundu-Xhosa	83018
Kimbundu-Yoruba	69194
Kimbundu-Zulu	126319
Kinyarwanda-Chichewa	390897
Kinyarwanda-Ganda	192894
Kinyarwanda-Kimbundu	84215
Kinyarwanda-Kongo	115905
Kinyarwanda-Lingala	210704
Kinyarwanda-Nuer	31429
Kinyarwanda-Oromo	113822
Kinyarwanda-Pedi	215097
Kinyarwanda-Rundi	482377
Kinyarwanda-Shona	388329
Kinyarwanda-Somali	268324
Kinyarwanda-Swahili	745958
Kinyarwanda-Swati	98826
Kinyarwanda-Tigrinya	163191
Kinyarwanda-Tsonga	332229
Kinyarwanda-Tswana	282261
Kinyarwanda-Tumbuka	218922
Kinyarwanda-Twi	230016
Kinyarwanda-Umbundu	122920
Kinyarwanda-Wolof	68002
Kinyarwanda-Xhosa	366850
Kinyarwanda-Yoruba	229031
Kinyarwanda-Zulu	546206
Kongo-Chichewa	125181
Kongo-Ganda	86976
Kongo-Lingala	85011
Kongo-Nuer	15327
Kongo-Oromo	50122
Kongo-Pedi	70821
Kongo-Rundi	99480
Kongo-Shona	127296
Kongo-Somali	96579
Kongo-Swahili	234895
Kongo-Swati	34683
Kongo-Tigrinya	69626
Kongo-Tsonga	114900
Kongo-Tswana	124614
Kongo-Tumbuka	93758
Kongo-Twi	117793
Kongo-Umbundu	58711
Kongo-Wolof	33175
Kongo-Xhosa	113621
Kongo-Yoruba	126345
Kongo-Zulu	155908
Lingala-Chichewa	220080
Lingala-Ganda	111492
Lingala-Nuer	18098
Lingala-Oromo	66262
Lingala-Pedi	112597
Lingala-Rundi	180158
Lingala-Shona	203471
Lingala-Somali	138569
Lingala-Swahili	391897
Lingala-Swati	55264
Lingala-Tigrinya	97832
Lingala-Tsonga	200871
Lingala-Tswana	170337
Lingala-Tumbuka	129185
Lingala-Twi	150224
Lingala-Umbundu	86575
Lingala-Wolof	41809
Lingala-Xhosa	209554
Lingala-Yoruba	146710
Lingala-Zulu	285794
Nuer-Chichewa	34019
Nuer-Oromo	16609
Nuer-Rundi	21156
Nuer-Shona	35601
Nuer-Somali	52559
Nuer-Swahili	103449
Nuer-Swati	7761
Nuer-Tigrinya	20787
Nuer-Tsonga	22087
Nuer-Tswana	33649
Nuer-Tumbuka	19926
Nuer-Twi	25731
Nuer-Umbundu	9607
Nuer-Wolof	14025
Nuer-Xhosa	28525
Nuer-Yoruba	49468
Nuer-Zulu	38861
Oromo-Rundi	91889
Oromo-Shona	102932
Oromo-Somali	88097
Oromo-Swahili	205236
Oromo-Swati	38006
Oromo-Tigrinya	58814
Oromo-Tsonga	91347
Oromo-Tswana	110031
Oromo-Tumbuka	73849
Oromo-Twi	100171
Oromo-Umbundu	48783
Oromo-Wolof	38907
Oromo-Xhosa	104058
Oromo-Yoruba	84295
Oromo-Zulu	120891
Pedi-Chichewa	172380
Pedi-Nuer	16394
Pedi-Oromo	80150
Pedi-Rundi	142452
Pedi-Shona	169322
Pedi-Somali	150442
Pedi-Swahili	342821
Pedi-Swati	98022
Pedi-Tigrinya	78712
Pedi-Tsonga	249455
Pedi-Tswana	271907
Pedi-Tumbuka	101945
Pedi-Twi	122346
Pedi-Umbundu	66472
Pedi-Wolof	42905
Pedi-Xhosa	237725
Pedi-Yoruba	169985
Pedi-Zulu	313998
Rundi-Shona	334205
Rundi-Somali	210469
Rundi-Swahili	622955
Rundi-Swati	71808
Rundi-Tigrinya	161796
Rundi-Tsonga	283463
Rundi-Tswana	221202
Rundi-Tumbuka	194527
Rundi-Twi	199589
Rundi-Umbundu	121294
Rundi-Wolof	45932
Rundi-Xhosa	307503
Rundi-Yoruba	174926
Rundi-Zulu	467223
Shona-Somali	532720
Shona-Swahili	1099171
Shona-Swati	86651
Shona-Tigrinya	226951
Shona-Tsonga	351101
Shona-Tswana	299901
Shona-Tumbuka	294060
Shona-Twi	272924
Shona-Umbundu	153467
Shona-Wolof	67753
Shona-Xhosa	847016
Shona-Yoruba	541537
Shona-Zulu	1309315
Somali-Swahili	630267
Somali-Swati	74547
Somali-Tigrinya	169616
Somali-Tsonga	196989
Somali-Tswana	197113
Somali-Tumbuka	179588
Somali-Twi	189353
Somali-Umbundu	96449
Somali-Wolof	71347
Somali-Xhosa	377342
Somali-Yoruba	378909
Somali-Zulu	605556
Swahili-Tigrinya	423021
Swahili-Tsonga	585431
Swahili-Tswana	507209
Swahili-Tumbuka	499548
Swahili-Twi	514581
Swahili-Umbundu	276673
Swahili-Wolof	156839
Swahili-Xhosa	793222
Swahili-Yoruba	582985
Swahili-Zulu	1366197
Swati-Swahili	175608
Swati-Tigrinya	36832
Swati-Tsonga	125555
Swati-Tswana	106936
Swati-Tumbuka	52465
Swati-Twi	58915
Swati-Umbundu	32317
Swati-Wolof	21230
Swati-Xhosa	120198
Swati-Yoruba	78042
Swati-Zulu	193252
Tigrinya-Tsonga	157713
Tigrinya-Tswana	154981
Tigrinya-Tumbuka	152915
Tigrinya-Twi	142352
Tigrinya-Umbundu	66681
Tigrinya-Wolof	35192
Tigrinya-Xhosa	158878
Tigrinya-Yoruba	133380
Tigrinya-Zulu	251069
Tsonga-Tumbuka	203106
Tsonga-Twi	229944
Tsonga-Umbundu	132324
Tsonga-Wolof	49796
Tsonga-Xhosa	413346
Tsonga-Yoruba	187996
Tsonga-Zulu	548606
Tswana-Tsonga	315656
Tswana-Tumbuka	187262
Tswana-Twi	241557
Tswana-Umbundu	109540
Tswana-Wolof	77986
Tswana-Xhosa	318484
Tswana-Yoruba	213015
Tswana-Zulu	412358
Tumbuka-Twi	176324
Tumbuka-Umbundu	99125
Tumbuka-Wolof	48826
Tumbuka-Xhosa	235704
Tumbuka-Yoruba	169097
Tumbuka-Zulu	359883
Twi-Umbundu	111020
Twi-Wolof	60423
Twi-Xhosa	240275
Twi-Yoruba	178712
Twi-Zulu	321639
Umbundu-Wolof	23989
Umbundu-Xhosa	133083
Umbundu-Yoruba	84666
Umbundu-Zulu	193864
Wolof-Xhosa	64044
Wolof-Yoruba	85181
Wolof-Zulu	71057
Xhosa-Yoruba	381959
Xhosa-Zulu	1249447
Yoruba-Zulu	649355

Accessing the Datasets in Python

You can load any of these datasets in Python using the datasets library from Hugging Face:

from datasets import load_dataset

dataset = load_dataset("michsethowusu/{language_pair}_sentence-pairs")
print(dataset)

Replace {language_pair}_sentence-pairs with the actual dataset name from the table above.

References

Below are papers related to how the data was collected and used in various multilingual and cross-lingual applications:

[1] Holger Schwenk and Matthijs Douze, Learning Joint Multilingual Sentence Representations with Neural Machine Translation, ACL workshop on Representation Learning for NLP, 2017

[2] Holger Schwenk and Xian Li, A Corpus for Multilingual Document Classification in Eight Languages, LREC, pages 3548-3551, 2018.

[3] Holger Schwenk, Filtering and Mining Parallel Data in a Joint Multilingual Space ACL, July 2018

[4] Alexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R. Bowman, Holger Schwenk and Veselin Stoyanov, XNLI: Cross-lingual Sentence Understanding through Inference, EMNLP, 2018.

[5] Mikel Artetxe and Holger Schwenk, Margin-based Parallel Corpus Mining with Multilingual Sentence Embeddings arXiv, Nov 3 2018.

[6] Mikel Artetxe and Holger Schwenk, Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond arXiv, Dec 26 2018.

[7] Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong and Paco Guzman, WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia arXiv, July 11 2019.

[8] Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB

[9] Paul-Ambroise Duquenne, Hongyu Gong, Holger Schwenk, Multimodal and Multilingual Embeddings for Large-Scale Speech Mining, NeurIPS 2021, pages 15748-15761.

[10] Kevin Heffernan, Onur Celebi, and Holger Schwenk, Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

African Language Parallel Sentences Collection

Accessing the Datasets in Python

References

About

Uh oh!

Releases

Packages

License

michsethowusu/African-Language-Parallel-Sentences-Collection

Folders and files

Latest commit

History

Repository files navigation

African Language Parallel Sentences Collection

Accessing the Datasets in Python

References

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages