Skip to content

Commit 0392aa9

Browse files
authored
Merge pull request #90 from NGO-Algorithm-Audit/JFP_edits
Text update NL EN web app
2 parents 8af100a + c2aba5a commit 0392aa9

File tree

2 files changed

+38
-38
lines changed

2 files changed

+38
-38
lines changed

src/locales/en.ts

Lines changed: 7 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -52,12 +52,12 @@ export const en = {
5252
lower: 'Lower value of outcome label is better, such as error rate',
5353
higher: 'Higher value of outcome label is better, such as accuracy',
5454
tooltip:
55-
'When error rate or misclassifications are chosen as the outcome label, a lower value is preferred, as the goal is to minimize errors. Conversely, when accuracy or precision is selected as the outcome label, a higher value is preferred, reflecting the aim to maximize performance.',
55+
'When error rate or misclassifications are chosen as the outcome label, a lower value is preferred, as the goal is to minimize errors. Conversely, when accuracy or precision is selected as the outcome label, a higher value is preferred, reflecting the aim to maximize performance. Selected for an investigation or a false positive is consiered as disadvantageous, so for this outcome label a lower value is preferred',
5656
},
5757
iterationsTooltip:
58-
'Number of times the dataset is split in smaller clusters until the minimal cluster size is reached',
58+
'Number of times the dataset is split in smaller clusters. Can terminate early if the minimum cluster size is reached',
5959
minClusterSizeTooltip:
60-
'The minimum number of samples per cluster. By default set to 10% of the number of rows in the attached dataset.',
60+
'The minimum number of samples per cluster. By default set to 1% of the number of rows in the attached dataset.',
6161
},
6262
},
6363
errors: {
@@ -302,7 +302,7 @@ In this example, we analyze which group is most adversely affected by the risk p
302302
`,
303303
},
304304
distributionOfFeaturesAcrossClustersAccordeonTitle:
305-
'Distribution of features across clusters',
305+
'Features per cluster',
306306
numericalVariableDistributionAcrossClustersAccordeonTitle:
307307
'Distribution of numerical variables across clusters',
308308
clusters: {
@@ -340,13 +340,13 @@ In this example, we analyze which group is most adversely affected by the risk p
340340
'No significant difference in average uitkomstlabel between the most biased cluster and the rest of the dataset.',
341341
},
342342
distribution: {
343-
mainHeading: '6. Testing cluster differences wrt. features',
343+
mainHeading: '6. Cluster differences wrt. features',
344344
heading:
345-
'"{{variable}}" distribution across the different clusters:',
345+
'"{{variable}}" distribution per cluster:',
346346
},
347347
splittingDataset: {
348348
heading: '3. Splitting dataset',
349-
description: `To reduce the possibility that the clustering method detects noise, the dataset is split in a train (80%) and test dataset (20%). The clustering method is first fitted on the train dataset. Then, the presence of statistically significant signal in the most deviating clusters is evaluated using the test dataset.`,
349+
description: `To reduce the possibility that the clustering method detects noise, the dataset is split in a train (80%) and test dataset (20%). The clustering method is first fitted on the train dataset. Then, the presence of statistically significant signal in the most deviating cluster is evaluated using the test dataset.`,
350350
},
351351
clusterinResults: {
352352
heading: '4. Clustering results',

src/locales/nl.ts

Lines changed: 31 additions & 31 deletions
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,7 @@ export const nl = {
77
fileUploadError: 'Upload een geldig csv-bestand.',
88
removeButton: 'Verwijderen',
99
dropzoneLabel:
10-
'Sleep een csv-bestand hierheen, klik om een eigen bestand te selecteren of gebruik de "Demo dataset" knop',
10+
'Sleep een csv-bestand hierheen, klik om een lokaal bestand te selecteren of gebruik de "Demo dataset" knop',
1111
datasetPreview: 'Voorbeeld van dataset met de eerste 5 rijen.',
1212
error: 'Sorry, er is iets misgegaan.',
1313
loadingMessage: 'Omgeving instellen...',
@@ -28,39 +28,39 @@ export const nl = {
2828
dataSet: 'Dataset',
2929
dataSetTooltip: `Bereid je data voor zodat:
3030
- missende waarden zijn verwijderd of vervangen;
31-
- alle kolommen (behalve de gelijkheidsmetriek-kolom) dezelfde datatypes hebben, numeriek of categorisch;
32-
- de gelijkheidsmetriek-kolom numeriek is`,
33-
performanceMetric: 'Gelijkheidsmetriek',
31+
- alle kolommen (behalve de uitkomstlabel-kolom) dezelfde datatypes hebben, numeriek of categorisch;
32+
- de uitkomstlabel-kolom numeriek is`,
33+
performanceMetric: 'Uitkomstlabel',
3434
performanceMetricTooltip:
35-
'Clustering vindt plaats aan de hand van de gelijkheidsmetriek. De gelijkheidsmetriek moet een numerieke waarde zijn. Voorbeelden van een gelijkheidsmetriek is "geclassificeerd worden als hoog risico" of "geselecteerd worden voor een controle"',
35+
'Clustering vindt plaats aan de hand van het uitkomstlabel, welk een numerieke waarde moet zijn. Voorbeelden van een uitkomstlabel is "geclassificeerd als hoog risico" of "geselecteerd voor controle"',
3636
dataType: 'Type data',
3737
dataTypeTooltip:
38-
'Geef aan of de data categorisch of numeriek zijn. Alle kolommen (behalve de gelijkheidsmetriek-kolom) moeten hetzelfde datatype hebben',
38+
'Geef aan of de data categorisch of numeriek zijn. Alle kolommen (behalve de uitkomstlabel-kolom) moeten hetzelfde datatype hebben',
3939
categoricalData: 'Categorische data',
4040
numericalData: 'Numerieke data',
4141
filterSelect:
42-
'Selecteer een kolom om cluster distributies te bekijken',
42+
'Selecteer een kolom om de verdeling per cluster te bekijken',
4343
},
4444
parameters: {
4545
title: 'Parameters',
4646
iterations: 'Iteraties',
4747
minClusterSize: 'Minimale clustergrootte',
4848
performanceInterpretation: {
49-
title: 'Interpretatie van gelijkheidsmetriek',
50-
lower: 'Lagere waarde van gelijkheidsmetriek is beter, bijv. foutpercentage',
51-
higher: 'Hogere waarde van gelijkheidsmetriek is beter, bijv. nauwkeurigheid',
49+
title: 'Interpretatie van uitkomstlabel',
50+
lower: 'Lagere waarde van uitkomstlabel is beter, bijv. foutpercentage',
51+
higher: 'Hogere waarde van uitkomstlabel is beter, bijv. nauwkeurigheid',
5252
tooltip:
53-
'Wanneer foutpercentage of misclassificaties worden gekozen als gelijkheidsmetriek geniet een lagere waarde de voorkeur omdat het doel is om fouten te minimaliseren. Andersom: wanneer nauwkeurigheid of precisie wordt geselecteerd als de gelijkheidsmetriek geniet een hogere waarde de voorkeur met oog op het nastreven van maximale prestaties',
53+
'Wanneer foutpercentage of misclassificaties worden gekozen als uitkomstlabel wordt een lagere waarde als beter beschouwd omdat het doel is om fouten te minimaliseren. Andersom: wanneer nauwkeurigheid of precisie wordt geselecteerd als het uitkomstlabel wordt een hogere waarde de voorkeur als beter beschouwd met oog op het nastreven van maximale prestaties. Geselecteerd worden voor controle of een valspositieve wordt als nadeling worden beschouwd, dus voor dat uitkomstlabel is een lagere waarde beter',
5454
},
5555
iterationsTooltip:
56-
'Aantal keren dat de dataset wordt opgesplitst in clusters totdat de minimale clustergrootte is bereikt',
56+
'Aantal keren dat de dataset wordt opgesplitst in kleinere clusters. Kan voortijdig worden gestopt als de minimale clustergrootte bereikt is',
5757
minClusterSizeTooltip:
58-
'Het minimale aantal datapunten per cluster. Standaard ingesteld op 10% van het aantal rijen in de onderzochte dataset',
58+
'Het minimale aantal datapunten per cluster. Standaard ingesteld op 1% van het aantal rijen in de onderzochte dataset',
5959
},
6060
},
6161
errors: {
6262
csvRequired: 'Upload een CSV-bestand.',
63-
targetColumnRequired: 'Selecteer een gelijkheidsmetriek.',
63+
targetColumnRequired: 'Selecteer een uitkomstlabel.',
6464
dataTypeRequired: 'Selecteer een gegevenstype.',
6565
noNumericColumns:
6666
'Geen numerieke kolommen gevonden. Upload een geldige dataset.',
@@ -166,7 +166,7 @@ export const nl = {
166166
correlationRealdata: 'Correlatie matrix',
167167
correlationSyntheticData: 'Correlatie matrix',
168168
dataSetPreview: {
169-
heading: '0. Preview van de data',
169+
heading: '0. Voorbeeld van de data',
170170
},
171171
columnsInDataset: '1. Detectie van datatypes',
172172
handlingMissingDataTitle: '2. Handling missing data',
@@ -193,26 +193,26 @@ export const nl = {
193193
biasAnalysis: {
194194
demo: {
195195
heading: 'Informatie over de demodataset',
196-
description: `Als demonstratie wordt de [COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset](https://github.com/propublica/compas-analysis/tree/master) geladen. De dataset bevat kenmerken van criminele verdachten en hun risico op recidive, zoals voorspeld door het COMPAS-algoritme. De dataset bevat demografische gegevens zoals leeftijd, geslacht en ras, evenals strafblad, details over de aanklacht en het voorspelde risicolabel. Deze dataset wordt gebruikt als benchmark voor het bestuderen van algoritmische discriminatie. Een beschrijving van alle variabelen is te vinden in de onderstaande tabel.
196+
description: `Als voorbeeld wordt de [COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset](https://github.com/propublica/compas-analysis/tree/master) gebruikt. De dataset bevat kenmerken van criminele verdachten en hun risico op recidive, zoals voorspeld door het COMPAS-algoritme. De dataset bevat demografische gegevens zoals leeftijd, geslacht en ras, evenals strafblad, details over de aanklacht en het voorspelde risicolabel. Deze dataset wordt gebruikt als benchmark voor onderzoek naar eerlijke algoritmes. Een beschrijving van alle variabelen is te vinden in onderstaande tabel.
197197
198-
**Variabelebeschrijving**
198+
**Beschrijving variabelen**
199199
200200
| Variabelenaam | Beschrijving | Waarden |
201201
| ----------------- | --------------------------------------------------------- | ------------------------------------------------------------------------ |
202202
| age_cat | Leeftijdscategorie | Jonger dan 25, 25-45, Ouder dan 45 |
203203
| sex | Geslacht | Man, Vrouw |
204-
| race | Ras | Afro-Amerikaans, Aziatisch, Blank, Spaans, Inheems-Amerikaans, Overig |
204+
| race | Ras | Afro-Amerikaans, Aziatisch, Kaukasisch, Latijns-Amerikaans, Inheems-Amerikaans, Overig |
205205
| c_charge_degree | Ernst van de strafrechtelijke aanklacht | M: Overtreding – Minder ernstige feiten, F: Misdrijf – Ernstigere feiten |
206206
| is_recid | Of de verdachte opnieuw de fout in ging (recidive) | 0: Nee, 1: Ja |
207207
| score_text | Voorspeld risicolabel van de verdachte | 0: Geen hoog risico, 1: Hoog risico |
208-
| false_positive | Verdachte voorspeld om te recidiveren, maar deed dat niet | 0: geen valse positieve, 1: valse positieve |
208+
| false_positive | Verdachte voorspeld om te recidiveren, maar deed dat niet | 0: geen valspositieve, 1: valspositieve |
209209
210210
<br>
211211
212-
In dit voorbeeld analyseren we welke groep het meest nadelig wordt beïnvloed door het risicovoorspellingsalgoritme. Dit doen we door het clusteralgoritme toe te passen op de onderstaande datasetweergave. De kolom "is_recid" geeft aan of een verdachte daadwerkelijk opnieuw de fout in ging (1: ja, 0: nee). De kolom "score_text" geeft aan of werd voorspeld dat een verdachte opnieuw de fout in zou gaan (1: ja, 0: nee). De kolom "false_positive" (FP) vertegenwoordigt gevallen waarin het algoritme voorspelde dat een verdachte opnieuw de fout in zou gaan, maar dit niet gebeurde (1: FP, 0: geen FP). Een voorbeeldweergave van de gegevens is hieronder te vinden. De kolom "false_positive" wordt gebruikt als uitkomstlabel.
212+
In dit voorbeeld analyseren welke groepen het COMPAS risicotaxatie-algoritme afwijkend presteert. Dit doen we door het clusteralgoritme toe te passen op de onderstaande dataset. De kolom "is_recid" geeft aan of een verdachte daadwerkelijk opnieuw de fout in ging (1: ja, 0: nee). De kolom "score_text" geeft aan of werd voorspeld dat een verdachte opnieuw de fout in zou gaan (1: ja, 0: nee). De kolom "false_positive" (FP) vertegenwoordigt gevallen waarin het algoritme voorspelde dat een verdachte opnieuw de fout in zou gaan, maar dit niet gebeurde (1: FP, 0: geen FP). Een voorbeeld van de data wordt hieronder gegeven. De kolom "false_positive" wordt gebruikt als uitkomstlabel.
213213
`,
214214
},
215-
testingStatisticalSignificance: `**5. Testen van clusterverschillen ten opzichte van uitkomstlabels**
215+
testingStatisticalSignificance: `**5. Toetsen verschil cluster mbt. uitkomstlabels**
216216
217217
- <i class="font-serif">H</i><sub>0</sub>: er is geen verschil in uitkomstlabels tussen het meest afwijkende cluster en de rest van de dataset
218218
- <i class="font-serif">H</i><sub>1</sub>: er is een verschil in uitkomstlabels tussen het meest afwijkende cluster en de rest van de dataset
@@ -222,30 +222,30 @@ Er wordt een tweezijdige t-toets uitgevoerd om <i class="font-serif">H</i><sub>0
222222
p-waarde : {{p_val}}
223223
`,
224224
parameters: {
225-
heading: 'Geselecteerde parameters',
225+
heading: '2. Geselecteerde parameters',
226226
iterations: 'Aantal iteraties: {{value}}',
227227
minClusterSize: 'Minimale clustergrootte: {{value}}',
228-
performanceMetric: 'Prestatiemetingkolom: {{value}}',
228+
performanceMetric: 'Uitkomstlabel: {{value}}',
229229
performanceMetricTooltip:
230230
'De geselecteerde kolom wordt gebruikt om de bias te meten.',
231231
dataType: 'Gegevenstype: {{value}}',
232232
description: `- Aantal iteraties: {{iterations}}
233233
- Minimale clustergrootte: {{minClusterSize}}
234-
- Prestatiemetingkolom: {{performanceMetric}}
234+
- Uitkomstlabel: {{performanceMetric}}
235235
- Gegevenstype: {{dataType}}
236236
`,
237237
},
238238
distribution: {
239239
mainHeading:
240-
'6. Testen van clusterverschillen ten opzichte van kenmerken',
241-
heading: '"{{variable}}" verdeling over de verschillende clusters:',
240+
'6. Verschil clusters mbt. eigenschappen',
241+
heading: '"{{variable}}" verdeling per cluster:',
242242
},
243243
splittingDataset: {
244244
heading: '3. Splitsen dataset',
245-
description: `Om de kans te verkleinen dat de clusteringmethode ruis detecteert, wordt de dataset opgesplitst in een trainingsset (80%) en een testset (20%). De clusteringmethode wordt eerst getraind op de trainingsset. Vervolgens wordt met behulp van de testset beoordeeld of er sprake is van een statistisch significant signaal in de meest afwijkende clusters.`,
245+
description: `Om de kans te verkleinen dat de clusteringmethode ruis detecteert, wordt de dataset opgesplitst in een trainingsset (80%) en een testset (20%). De clusteringmethode wordt eerst getraind op de trainingsset. Vervolgens wordt met behulp van de testset beoordeeld of er sprake is van een statistisch significant signaal in het meest afwijkende cluster.`,
246246
},
247247
distributionOfFeaturesAcrossClustersAccordeonTitle:
248-
'Verdeling van kenmerken over clusters',
248+
'Eigenschappen per cluster',
249249
numericalVariableDistributionAcrossClustersAccordeonTitle:
250250
'Verdeling van numerieke variabelen over clusters',
251251
clusters: {
@@ -258,7 +258,7 @@ p-waarde : {{p_val}}
258258
biasedCluster: {
259259
heading: 'In het cluster met de meeste bias hebben datapunten:',
260260
accordionTitle:
261-
'Open details om vergelijkingen van kenmerken met de rest van de dataset te bekijken',
261+
'Eigenschappen meest afwijkende cluster ten opzichte van de rest van de dataset',
262262
comparison: {
263263
less: '{{value}} minder {{feature}} dan in de rest van de dataset.',
264264
more: '{{value}} meer {{feature}} dan in de rest van de dataset.',
@@ -286,8 +286,8 @@ p-waarde : {{p_val}}
286286
label: 'Kies cluster om het aantal datapunten voor weer te geven',
287287
valueText: 'Aantal datapunten in cluster {{index}}: {{value}}',
288288
},
289-
higherAverage: `De meest bevooroordeelde cluster heeft een statistisch significant hogere gemiddelde bias score dan de rest van de dataset.`,
290-
noSignificance: `Geen statistisch significant verschil in gemiddelde bias score tussen de meest bevooroordeelde cluster en de rest van de dataset.`,
289+
higherAverage: `Het meest afwijkende cluster heeft statistisch significant andere uitkomstlabels dan de rest van de dataset.`,
290+
noSignificance: `Het meest afwijkende cluster heeft statistisch significant geen andere uitkomstlabels dan de rest van de dataset.`,
291291

292292
conclusion: `7. Conclusie en bias rapport`,
293293
conclusionDescription: `Uit de bovenstaande figuren en statistische tests kan worden geconcludeerd dat:`,

0 commit comments

Comments
 (0)