You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: src/locales/en.ts
+7-7Lines changed: 7 additions & 7 deletions
Original file line number
Diff line number
Diff line change
@@ -52,12 +52,12 @@ export const en = {
52
52
lower: 'Lower value of outcome label is better, such as error rate',
53
53
higher: 'Higher value of outcome label is better, such as accuracy',
54
54
tooltip:
55
-
'When error rate or misclassifications are chosen as the outcome label, a lower value is preferred, as the goal is to minimize errors. Conversely, when accuracy or precision is selected as the outcome label, a higher value is preferred, reflecting the aim to maximize performance.',
55
+
'When error rate or misclassifications are chosen as the outcome label, a lower value is preferred, as the goal is to minimize errors. Conversely, when accuracy or precision is selected as the outcome label, a higher value is preferred, reflecting the aim to maximize performance. Selected for an investigation or a false positive is consiered as disadvantageous, so for this outcome label a lower value is preferred',
56
56
},
57
57
iterationsTooltip:
58
-
'Number of times the dataset is split in smaller clusters until the minimal cluster size is reached',
58
+
'Number of times the dataset is split in smaller clusters. Can terminate early if the minimum cluster size is reached',
59
59
minClusterSizeTooltip:
60
-
'The minimum number of samples per cluster. By default set to 10% of the number of rows in the attached dataset.',
60
+
'The minimum number of samples per cluster. By default set to 1% of the number of rows in the attached dataset.',
61
61
},
62
62
},
63
63
errors: {
@@ -302,7 +302,7 @@ In this example, we analyze which group is most adversely affected by the risk p
'"{{variable}}" distribution across the different clusters:',
345
+
'"{{variable}}" distribution per cluster:',
346
346
},
347
347
splittingDataset: {
348
348
heading: '3. Splitting dataset',
349
-
description: `To reduce the possibility that the clustering method detects noise, the dataset is split in a train (80%) and test dataset (20%). The clustering method is first fitted on the train dataset. Then, the presence of statistically significant signal in the most deviating clusters is evaluated using the test dataset.`,
349
+
description: `To reduce the possibility that the clustering method detects noise, the dataset is split in a train (80%) and test dataset (20%). The clustering method is first fitted on the train dataset. Then, the presence of statistically significant signal in the most deviating cluster is evaluated using the test dataset.`,
Copy file name to clipboardExpand all lines: src/locales/nl.ts
+31-31Lines changed: 31 additions & 31 deletions
Original file line number
Diff line number
Diff line change
@@ -7,7 +7,7 @@ export const nl = {
7
7
fileUploadError: 'Upload een geldig csv-bestand.',
8
8
removeButton: 'Verwijderen',
9
9
dropzoneLabel:
10
-
'Sleep een csv-bestand hierheen, klik om een eigen bestand te selecteren of gebruik de "Demo dataset" knop',
10
+
'Sleep een csv-bestand hierheen, klik om een lokaal bestand te selecteren of gebruik de "Demo dataset" knop',
11
11
datasetPreview: 'Voorbeeld van dataset met de eerste 5 rijen.',
12
12
error: 'Sorry, er is iets misgegaan.',
13
13
loadingMessage: 'Omgeving instellen...',
@@ -28,39 +28,39 @@ export const nl = {
28
28
dataSet: 'Dataset',
29
29
dataSetTooltip: `Bereid je data voor zodat:
30
30
- missende waarden zijn verwijderd of vervangen;
31
-
- alle kolommen (behalve de gelijkheidsmetriek-kolom) dezelfde datatypes hebben, numeriek of categorisch;
32
-
- de gelijkheidsmetriek-kolom numeriek is`,
33
-
performanceMetric: 'Gelijkheidsmetriek',
31
+
- alle kolommen (behalve de uitkomstlabel-kolom) dezelfde datatypes hebben, numeriek of categorisch;
32
+
- de uitkomstlabel-kolom numeriek is`,
33
+
performanceMetric: 'Uitkomstlabel',
34
34
performanceMetricTooltip:
35
-
'Clustering vindt plaats aan de hand van de gelijkheidsmetriek. De gelijkheidsmetriek moet een numerieke waarde zijn. Voorbeelden van een gelijkheidsmetriek is "geclassificeerd worden als hoog risico" of "geselecteerd worden voor een controle"',
35
+
'Clustering vindt plaats aan de hand van het uitkomstlabel, welk een numerieke waarde moet zijn. Voorbeelden van een uitkomstlabel is "geclassificeerd als hoog risico" of "geselecteerd voor controle"',
36
36
dataType: 'Type data',
37
37
dataTypeTooltip:
38
-
'Geef aan of de data categorisch of numeriek zijn. Alle kolommen (behalve de gelijkheidsmetriek-kolom) moeten hetzelfde datatype hebben',
38
+
'Geef aan of de data categorisch of numeriek zijn. Alle kolommen (behalve de uitkomstlabel-kolom) moeten hetzelfde datatype hebben',
39
39
categoricalData: 'Categorische data',
40
40
numericalData: 'Numerieke data',
41
41
filterSelect:
42
-
'Selecteer een kolom om cluster distributies te bekijken',
42
+
'Selecteer een kolom om de verdeling per cluster te bekijken',
43
43
},
44
44
parameters: {
45
45
title: 'Parameters',
46
46
iterations: 'Iteraties',
47
47
minClusterSize: 'Minimale clustergrootte',
48
48
performanceInterpretation: {
49
-
title: 'Interpretatie van gelijkheidsmetriek',
50
-
lower: 'Lagere waarde van gelijkheidsmetriek is beter, bijv. foutpercentage',
51
-
higher: 'Hogere waarde van gelijkheidsmetriek is beter, bijv. nauwkeurigheid',
49
+
title: 'Interpretatie van uitkomstlabel',
50
+
lower: 'Lagere waarde van uitkomstlabel is beter, bijv. foutpercentage',
51
+
higher: 'Hogere waarde van uitkomstlabel is beter, bijv. nauwkeurigheid',
52
52
tooltip:
53
-
'Wanneer foutpercentage of misclassificaties worden gekozen als gelijkheidsmetriek geniet een lagere waarde de voorkeur omdat het doel is om fouten te minimaliseren. Andersom: wanneer nauwkeurigheid of precisie wordt geselecteerd als de gelijkheidsmetriek geniet een hogere waarde de voorkeur met oog op het nastreven van maximale prestaties',
53
+
'Wanneer foutpercentage of misclassificaties worden gekozen als uitkomstlabel wordt een lagere waarde als beter beschouwd omdat het doel is om fouten te minimaliseren. Andersom: wanneer nauwkeurigheid of precisie wordt geselecteerd als het uitkomstlabel wordt een hogere waarde de voorkeur als beter beschouwd met oog op het nastreven van maximale prestaties. Geselecteerd worden voor controle of een valspositieve wordt als nadeling worden beschouwd, dus voor dat uitkomstlabel is een lagere waarde beter',
54
54
},
55
55
iterationsTooltip:
56
-
'Aantal keren dat de dataset wordt opgesplitst in clusters totdat de minimale clustergrootte is bereikt',
56
+
'Aantal keren dat de dataset wordt opgesplitst in kleinere clusters. Kan voortijdig worden gestopt als de minimale clustergrootte bereikt is',
57
57
minClusterSizeTooltip:
58
-
'Het minimale aantal datapunten per cluster. Standaard ingesteld op 10% van het aantal rijen in de onderzochte dataset',
58
+
'Het minimale aantal datapunten per cluster. Standaard ingesteld op 1% van het aantal rijen in de onderzochte dataset',
59
59
},
60
60
},
61
61
errors: {
62
62
csvRequired: 'Upload een CSV-bestand.',
63
-
targetColumnRequired: 'Selecteer een gelijkheidsmetriek.',
63
+
targetColumnRequired: 'Selecteer een uitkomstlabel.',
64
64
dataTypeRequired: 'Selecteer een gegevenstype.',
65
65
noNumericColumns:
66
66
'Geen numerieke kolommen gevonden. Upload een geldige dataset.',
description: `Als demonstratie wordt de [COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset](https://github.com/propublica/compas-analysis/tree/master) geladen. De dataset bevat kenmerken van criminele verdachten en hun risico op recidive, zoals voorspeld door het COMPAS-algoritme. De dataset bevat demografische gegevens zoals leeftijd, geslacht en ras, evenals strafblad, details over de aanklacht en het voorspelde risicolabel. Deze dataset wordt gebruikt als benchmark voor het bestuderen van algoritmische discriminatie. Een beschrijving van alle variabelen is te vinden in de onderstaande tabel.
196
+
description: `Als voorbeeld wordt de [COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset](https://github.com/propublica/compas-analysis/tree/master) gebruikt. De dataset bevat kenmerken van criminele verdachten en hun risico op recidive, zoals voorspeld door het COMPAS-algoritme. De dataset bevat demografische gegevens zoals leeftijd, geslacht en ras, evenals strafblad, details over de aanklacht en het voorspelde risicolabel. Deze dataset wordt gebruikt als benchmark voor onderzoek naar eerlijke algoritmes. Een beschrijving van alle variabelen is te vinden in onderstaande tabel.
| c_charge_degree | Ernst van de strafrechtelijke aanklacht | M: Overtreding – Minder ernstige feiten, F: Misdrijf – Ernstigere feiten |
206
206
| is_recid | Of de verdachte opnieuw de fout in ging (recidive) | 0: Nee, 1: Ja |
207
207
| score_text | Voorspeld risicolabel van de verdachte | 0: Geen hoog risico, 1: Hoog risico |
208
-
| false_positive | Verdachte voorspeld om te recidiveren, maar deed dat niet | 0: geen valse positieve, 1: valse positieve |
208
+
| false_positive | Verdachte voorspeld om te recidiveren, maar deed dat niet | 0: geen valspositieve, 1: valspositieve |
209
209
210
210
<br>
211
211
212
-
In dit voorbeeld analyseren we welke groep het meest nadelig wordt beïnvloed door het risicovoorspellingsalgoritme. Dit doen we door het clusteralgoritme toe te passen op de onderstaande datasetweergave. De kolom "is_recid" geeft aan of een verdachte daadwerkelijk opnieuw de fout in ging (1: ja, 0: nee). De kolom "score_text" geeft aan of werd voorspeld dat een verdachte opnieuw de fout in zou gaan (1: ja, 0: nee). De kolom "false_positive" (FP) vertegenwoordigt gevallen waarin het algoritme voorspelde dat een verdachte opnieuw de fout in zou gaan, maar dit niet gebeurde (1: FP, 0: geen FP). Een voorbeeldweergave van de gegevens is hieronder te vinden. De kolom "false_positive" wordt gebruikt als uitkomstlabel.
212
+
In dit voorbeeld analyseren welke groepen het COMPAS risicotaxatie-algoritme afwijkend presteert. Dit doen we door het clusteralgoritme toe te passen op de onderstaande dataset. De kolom "is_recid" geeft aan of een verdachte daadwerkelijk opnieuw de fout in ging (1: ja, 0: nee). De kolom "score_text" geeft aan of werd voorspeld dat een verdachte opnieuw de fout in zou gaan (1: ja, 0: nee). De kolom "false_positive" (FP) vertegenwoordigt gevallen waarin het algoritme voorspelde dat een verdachte opnieuw de fout in zou gaan, maar dit niet gebeurde (1: FP, 0: geen FP). Een voorbeeld van de data wordt hieronder gegeven. De kolom "false_positive" wordt gebruikt als uitkomstlabel.
213
213
`,
214
214
},
215
-
testingStatisticalSignificance: `**5. Testen van clusterverschillen ten opzichte van uitkomstlabels**
'De geselecteerde kolom wordt gebruikt om de bias te meten.',
231
231
dataType: 'Gegevenstype: {{value}}',
232
232
description: `- Aantal iteraties: {{iterations}}
233
233
- Minimale clustergrootte: {{minClusterSize}}
234
-
- Prestatiemetingkolom: {{performanceMetric}}
234
+
- Uitkomstlabel: {{performanceMetric}}
235
235
- Gegevenstype: {{dataType}}
236
236
`,
237
237
},
238
238
distribution: {
239
239
mainHeading:
240
-
'6. Testen van clusterverschillen ten opzichte van kenmerken',
241
-
heading: '"{{variable}}" verdeling over de verschillende clusters:',
240
+
'6. Verschil clusters mbt. eigenschappen',
241
+
heading: '"{{variable}}" verdeling per cluster:',
242
242
},
243
243
splittingDataset: {
244
244
heading: '3. Splitsen dataset',
245
-
description: `Om de kans te verkleinen dat de clusteringmethode ruis detecteert, wordt de dataset opgesplitst in een trainingsset (80%) en een testset (20%). De clusteringmethode wordt eerst getraind op de trainingsset. Vervolgens wordt met behulp van de testset beoordeeld of er sprake is van een statistisch significant signaal in de meest afwijkende clusters.`,
245
+
description: `Om de kans te verkleinen dat de clusteringmethode ruis detecteert, wordt de dataset opgesplitst in een trainingsset (80%) en een testset (20%). De clusteringmethode wordt eerst getraind op de trainingsset. Vervolgens wordt met behulp van de testset beoordeeld of er sprake is van een statistisch significant signaal in het meest afwijkende cluster.`,
0 commit comments