Skip to content

Commit 4502e80

Browse files
committed
vertalingen nl en verplaatsing features of the most biased cluster to section 7
1 parent 961549e commit 4502e80

File tree

3 files changed

+55
-25
lines changed

3 files changed

+55
-25
lines changed

src/assets/bias-detection-python-code.tsx

Lines changed: 12 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -565,6 +565,17 @@ def run():
565565
setOutputData("mostBiasedCluster", df_most_biased_cluster.to_json(orient='records'))
566566
setOutputData("otherClusters", df_other.to_json(orient='records'))
567567
568+
569+
setResult(json.dumps({
570+
'type': 'heading',
571+
'headingKey': 'biasAnalysis.conclusion'
572+
}))
573+
574+
setResult(json.dumps({
575+
'type': 'text',
576+
'key': 'biasAnalysis.conclusionDescription'
577+
}))
578+
568579
# Calculate the difference in percentage for each category value between cluster 0 and the entire dataset
569580
diff_percentages = {}
570581
@@ -590,15 +601,7 @@ def run():
590601
}))
591602
592603
593-
setResult(json.dumps({
594-
'type': 'heading',
595-
'headingKey': 'biasAnalysis.conclusion'
596-
}))
597-
598-
setResult(json.dumps({
599-
'type': 'text',
600-
'key': 'biasAnalysis.conclusionDescription'
601-
}))
604+
602605
603606
setResult(json.dumps({
604607
'type': 'export-button',

src/locales/en.ts

Lines changed: 3 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -83,7 +83,8 @@ export const en = {
8383
},
8484
demoCard: {
8585
title: 'Try it out!',
86-
description: "Use our demo dataset if you don't have a dataset at hand",
86+
description:
87+
"Use our demo dataset if you don't have a dataset at hand",
8788
},
8889
},
8990
syntheticData: {
@@ -339,7 +340,7 @@ In this example, we analyze which group is most adversely affected by the risk p
339340
'No significant difference in average uitkomstlabel between the most biased cluster and the rest of the dataset.',
340341
},
341342
distribution: {
342-
mainHeading: '5. Testing cluster differences wrt. features',
343+
mainHeading: '6. Testing cluster differences wrt. features',
343344
heading:
344345
'"{{variable}}" distribution across the different clusters:',
345346
},

src/locales/nl.ts

Lines changed: 40 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -193,20 +193,33 @@ export const nl = {
193193
biasAnalysis: {
194194
demo: {
195195
heading: 'Informatie over de demodataset',
196-
description:
197-
'Als demo wordt de [Twitter15](https://www.dropbox.com/scl/fi/flgahafqckxtup2s9eez8/rumdetect2017.zip?dl=0&e=1&file_subpath=%2Frumor_detection_acl2017%2Ftwitter15&rlkey=b7v86v3q1dpvcutxqk0xi7oej) dataset hieronder geladen. De dataset bevat kenmerken van tweets en de voorspelling van een BERT-gebaseerd misinformatie detectie algoritme of een tweet nepnieuws is of niet. Fout-positieve classificaties zijn gemarkeerd als FP. Een FP geeft aan dat tweet ten onrechte door het misinformatie algoritme zijn geclassificeerd als nepnieuws. De FP-metriek wordt in dit voorbeeld gebruikt als metriek om bias te meten. \n \n  \n\n In dit voorbeeld onderzoeken we welk type tweets vaker/minder vaak door het misinformatie algoritme worden geclassificeerd als nepnieuws.',
198-
},
199-
testingStatisticalSignificance: `**4. Testing statistical significance for the bias score difference between the most deviating cluster and the rest of the dataset**
196+
description: `Als demonstratie wordt de [COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset](https://github.com/propublica/compas-analysis/tree/master) geladen. De dataset bevat kenmerken van criminele verdachten en hun risico op recidive, zoals voorspeld door het COMPAS-algoritme. De dataset bevat demografische gegevens zoals leeftijd, geslacht en ras, evenals strafblad, details over de aanklacht en het voorspelde risicolabel. Deze dataset wordt gebruikt als benchmark voor het bestuderen van algoritmische discriminatie. Een beschrijving van alle variabelen is te vinden in de onderstaande tabel.
197+
198+
**Variabelebeschrijving**
200199
201-
- <i class="font-serif">H</i><sub>0</sub>: no difference in bias between the most deviating cluster and the rest of the dataset
202-
- <i class="font-serif">H</i><sub>1</sub>: difference in bias between the most deviating cluster and the rest of the dataset
200+
| Variabelenaam | Beschrijving | Waarden |
201+
| ----------------- | --------------------------------------------------------- | ------------------------------------------------------------------------ |
202+
| age_cat | Leeftijdscategorie | Jonger dan 25, 25-45, Ouder dan 45 |
203+
| sex | Geslacht | Man, Vrouw |
204+
| race | Ras | Afro-Amerikaans, Aziatisch, Blank, Spaans, Inheems-Amerikaans, Overig |
205+
| c_charge_degree | Ernst van de strafrechtelijke aanklacht | M: Overtreding – Minder ernstige feiten, F: Misdrijf – Ernstigere feiten |
206+
| is_recid | Of de verdachte opnieuw de fout in ging (recidive) | 0: Nee, 1: Ja |
207+
| score_text | Voorspeld risicolabel van de verdachte | 0: Geen hoog risico, 1: Hoog risico |
208+
| false_positive | Verdachte voorspeld om te recidiveren, maar deed dat niet | 0: geen valse positieve, 1: valse positieve |
203209
204-
A two-sided t-test is performed to accept or reject <i class="font-serif">H</i><sub>0</sub>:.
210+
<br>
211+
212+
In dit voorbeeld analyseren we welke groep het meest nadelig wordt beïnvloed door het risicovoorspellingsalgoritme. Dit doen we door het clusteralgoritme toe te passen op de onderstaande datasetweergave. De kolom "is_recid" geeft aan of een verdachte daadwerkelijk opnieuw de fout in ging (1: ja, 0: nee). De kolom "score_text" geeft aan of werd voorspeld dat een verdachte opnieuw de fout in zou gaan (1: ja, 0: nee). De kolom "false_positive" (FP) vertegenwoordigt gevallen waarin het algoritme voorspelde dat een verdachte opnieuw de fout in zou gaan, maar dit niet gebeurde (1: FP, 0: geen FP). Een voorbeeldweergave van de gegevens is hieronder te vinden. De kolom "false_positive" wordt gebruikt als uitkomstlabel.
213+
`,
214+
},
215+
testingStatisticalSignificance: `**5. Testen van clusterverschillen ten opzichte van uitkomstlabels**
205216
217+
- <i class="font-serif">H</i><sub>0</sub>: er is geen verschil in uitkomstlabels tussen het meest afwijkende cluster en de rest van de dataset
218+
- <i class="font-serif">H</i><sub>1</sub>: er is een verschil in uitkomstlabels tussen het meest afwijkende cluster en de rest van de dataset
206219
207-
T_statistic : {{t_stat}}
220+
Er wordt een tweezijdige t-toets uitgevoerd om <i class="font-serif">H</i><sub>0</sub> te aanvaarden of te verwerpen.
208221
209-
p_value : {{p_val}}
222+
p-waarde : {{p_val}}
210223
`,
211224
parameters: {
212225
heading: 'Geselecteerde parameters',
@@ -222,6 +235,15 @@ p_value : {{p_val}}
222235
- Gegevenstype: {{dataType}}
223236
`,
224237
},
238+
distribution: {
239+
mainHeading:
240+
'6. Testen van clusterverschillen ten opzichte van kenmerken',
241+
heading: '"{{variable}}" verdeling over de verschillende clusters:',
242+
},
243+
splittingDataset: {
244+
heading: '3. Splitsen dataset',
245+
description: `Om de kans te verkleinen dat de clusteringmethode ruis detecteert, wordt de dataset opgesplitst in een trainingsset (80%) en een testset (20%). De clusteringmethode wordt eerst getraind op de trainingsset. Vervolgens wordt met behulp van de testset beoordeeld of er sprake is van een statistisch significant signaal in de meest afwijkende clusters.`,
246+
},
225247
distributionOfFeaturesAcrossClustersAccordeonTitle:
226248
'Verdeling van kenmerken over clusters',
227249
numericalVariableDistributionAcrossClustersAccordeonTitle:
@@ -256,17 +278,21 @@ p_value : {{p_val}}
256278
`,
257279
},
258280
},
259-
distribution: {
260-
heading:
261-
'De "{{variable}}" variabele verdeling over de verschillende clusters:',
281+
clusterinResults: {
282+
heading: '4. Cluster resultaten',
283+
description: `
284+
- Aantal gevonden clusters: {{clusterCount}}
285+
`,
286+
label: 'Kies cluster om het aantal datapunten voor weer te geven',
287+
valueText: 'Aantal datapunten in cluster {{index}}: {{value}}',
262288
},
263289
higherAverage: `De meest bevooroordeelde cluster heeft een statistisch significant hogere gemiddelde bias score dan de rest van de dataset.`,
264290
noSignificance: `Geen statistisch significant verschil in gemiddelde bias score tussen de meest bevooroordeelde cluster en de rest van de dataset.`,
265291

266-
conclusion: `6. Conclusie en bias rapport`,
292+
conclusion: `7. Conclusie en bias rapport`,
267293
conclusionDescription: `Uit de bovenstaande figuren en statistische tests kan worden geconcludeerd dat:`,
268294

269-
moreInformationHeading: `7. Meer informatie`,
295+
moreInformationHeading: `8. Meer informatie`,
270296
moreInformationDescription: `- [Scientific article](https://arxiv.org/pdf/2502.01713)
271297
- [Github repository](https://github.com/NGO-Algorithm-Audit/unsupervised-bias-detection)`,
272298
},

0 commit comments

Comments
 (0)