Skip to content

Commit cdb3f09

Browse files
authored
Merge pull request #76 from NGO-Algorithm-Audit/feature/structural_edits
Feature/structural edits
2 parents 8107396 + 647c192 commit cdb3f09

File tree

12 files changed

+146
-0
lines changed

12 files changed

+146
-0
lines changed

content/.DS_Store

0 Bytes
Binary file not shown.
Lines changed: 49 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,49 @@
1+
---
2+
title: >-
3+
Bias report Short Stay Visum – SigmaRed for the Dutch Ministry of Ministry of
4+
Foreign Affairs
5+
subtitle: >
6+
Bias report requested by the Dutch Ministry of Ministry of Foreign Affairs on
7+
a short stay visa classification model by SigmaRed Technologies. The report
8+
concludes there is no disproportionate discrimination based on age, marital
9+
status or gender. However, we note that essential validation criteria are
10+
lacking in the report, which are essential to support these conclusions.
11+
image: /images/knowledge_base/BuZa_SR.png
12+
author: SigmaRed
13+
type: regular
14+
summary: >-
15+
Bias assessment of Dutch Ministry of Ministry of Foreign Affairs' short stay
16+
visa classification model by SigmaRed Technologies
17+
---
18+
19+
Full report: [https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17777\&did=2024D17777](https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17777\&did=2024D17777)
20+
21+
#### Bias report Short Stay Visum – SigmaRed for the Dutch Ministry of Ministry of Foreign Affairs
22+
23+
Bias report requested by the Dutch Ministry of Ministry of Foreign Affairs on the application process for short-stay visas (known as Kort Verblijf Visum, or KVV), which makes use of a rule-based classification model to categorise applicants into a fast, regular or intensive track. The goal of the study is to "detect and assess potential inter-group bias by examining the relationship between risk profile percentages and rejection rates across different demographic groups".
24+
25+
Based on a comparative analysis of disparate impact ratios between 2022 and 2023, it is concluded that "no disproportionate discrimination based on age marital status or gender" is found\*. In the report, the rationale for excluding many bias metrics is provided. However, this explanation is absent for conditional demographic parity (CDP). Despite the common <a href="https://arxiv.org/abs/2005.05906" target="_blank">understanding</a> that CDP is suggested as an alternative to DI to mitigate Simpson's paradox, the authors do not clarify why DI is favored over CDP. Using CDP as a bias metric may result in different quantitative outcomes that might fail to support the current conclusion of the report.
26+
27+
Moreover, the bias assessment does not evaluate the eligibility of the selection criteria used in the assessed risk profile. The following 7 criteria are used in the model:
28+
29+
1. Purpose of stay
30+
2. Location of application
31+
3. Nationality
32+
4. Gender
33+
5. Age class
34+
6. Marital status
35+
7. Professional.
36+
37+
Before such selection criteria can be included in a risk profile, it is imperative to justify why differentiation based on these criteria is proportional, suitable and necessary. <a href="https://publicaties.mensenrechten.nl/publicatie/61a734e65d726f72c45f9dce" target="_blank">Guidelines</a> from the Netherlands Institute on Human Rights outline this obligation. For instance, quantitative evidence supporting the inclusion of selection criteria in a risk profile could be obtained through hypothesis testing on random samples of visa applicants. It is unclear why this obvious first step in assessing bias in risk profiling is absent in the report.
38+
39+
In the context of differentiation on the basis of age, the Netherlands Institute on Human Rights explains:
40+
41+
> "It is not necessarily prohibited for an algorithm to consider someone’s age. However, there must be a clear connection between age and the aim pursued. Until it is shown that someone’s age increases the likelihood \[of a rejected visum application], age is ineligible as a selection criteria in algorithmic-driven selection procedures."
42+
43+
So, it's remarkable that the assessment solely focusses on the quantitative aspects of bias testing and concludes that no age discrimination occurs.
44+
45+
In general, the organisational and qualitative dimension of deploying algorithmic-driven decision-making processes is not covered in this bias assessment. This is noteworthy as experts argue that both the quantitative and qualitative reasoning paradigm are needed to assess bias in algorithmic-driven decision-making. No silver quantitative bullet exist to mitigate algorithmic bias. Algorithms are designed by people and hence organizational checks and balances, including algorithm risk management frameworks, need to be reviewed to assess bias in algorithms. Given the absence of a qualitative review of the above mentioned profiling criteria 1-7, this is a weak spot of the report.
46+
47+
Lastly, instead of using advanced causal inference techniques such as inverse probability weighting (IPW) and instrument variable (IV) analysis to assess whether the rule-based classification model had a direct effect on the decisions made by officers, a preference is given to the simpler F-test.
48+
49+
\* for visa applicants with the Yemeni nationality a certain degree of unequal treatment is reported &#x9;
Lines changed: 23 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,23 @@
1+
---
2+
title: 'Examining confirmation bias using the F-test '
3+
subtitle: >
4+
An F-test is applied to test the relationship rule-based classification model
5+
had a direct effect on the decisions made by civil servants reviewing Dutch
6+
visa applications
7+
image: /images/knowledge_base/BuZa_Ftest.png
8+
author: Onbekend
9+
type: regular
10+
summary: >-
11+
Applied to test confirmation bias of civil servant in an algorithmic-driven
12+
visa application process
13+
---
14+
15+
Full report: [https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17779\&did=2024D17779](https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17779\&did=2024D17779)
16+
17+
#### Examining confirmation bias using the F-test
18+
19+
In the short-stay visas application process of the Dutch Ministry of Ministry of Foreign Affairs (known as Kort Verblijf Visum, or KVV), a rule-based classification model to categorise applicants into a fast, regular or intensive track. The goal of this experiment is to examine "whether labeling visa applications has an effect on decisions made by civil servants reviewing the case?".
20+
21+
Based on the outcomes of a field experiment, in which 42 fictional cases are presented to civil servants, a one-sided F-test (ANOVA, fixed effects, omnibus) is applied. For significance level 5%, no evidence is found that labeling had an effect on the taken decisions.
22+
23+
This form of hypothesis testing is preferred over more advanced form of causal inference, such as inverse probability weighting (IPW) and instrument variable (IV) analysis. See also [artikel](/knowledge-platform/knowledge-base/20240429_buza_sr/).
Lines changed: 50 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,50 @@
1+
---
2+
title: >-
3+
Bias rapport Kort Verblijf Visum – SigmaRed in opdracht van het Ministerie van
4+
Buitenlandse Zaken
5+
subtitle: >
6+
Bias test van het Ministerie van Buitenlandse Zaken kort verblijf visum
7+
classificatie model door SigmaRed Technologies. Het rapport concludeert dat er
8+
geen disproportionele discriminatie plaatsvindt op basis van leeftijd,
9+
burgerlijke staat en gender. Essentiële stappen in het valideren van
10+
selectiecriteria ontbreken echter, welke essentieel zijn om dergelijke
11+
conclusies te kunnen trekken.
12+
image: /images/knowledge_base/BuZa_SR.png
13+
author: SigmaRed
14+
type: regular
15+
summary: >-
16+
Bias assessment of Dutch Ministry of Ministry of Foreign Affairs' short stay
17+
visa classification model by SigmaRed Technologies
18+
---
19+
20+
Volledige rapport: [https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17777\&did=2024D17777](https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17777\&did=2024D17777)
21+
22+
#### Bias rapport Kort Verblijf Visum – SigmaRed in opdracht van het Ministerie van Buitenlandse Zaken
23+
24+
Bias rapport op verzoek van het Ministerie van Buitenlandse Zaken over het Kort Verblijf Visum (KVV) proces waarin een regel-gebaseerd classificatiemodel wordt gebruikt om aanvragers in te delen in een snelle, reguliere of intensieve aanvraagprocedures. Het doel van het rapport is om "potentiële bias op te sporen en te wegen door de relatie tussen risicoprofielpercentages en afwijzingspercentages tussen verschillende demografische groepen te onderzoeken".
25+
26+
Op basis van een vergelijking tussen disparate impact ratios tussen 2022 en 2023 wordt geconcludeerd dat er "geen onevenredige discriminatie op basis van leeftijd, burgerlijke staat of geslacht" wordt gevonden\*. In het rapport wordt voor veel biasmetrieken gemotiveerd waarom deze niet gebruikt worden. Echter ontbreekt deze verklaring voor de bias metriek conditionele demografische pariteit (CDP). Het is algemeen <a href="https://arxiv.org/abs/2005.05906" target="_blank">bekend</a> dat CDP de voorkeur geniet boven DI, omdat het beter bestand is tegen Simpson's paradox. De auteurs motiveren echter niet waarom van dit voorkeursscenario wordt afgeweken. Het gebruik van CDP als biasmetriek kan leiden tot andere kwantitatieve uitkomsten die de huidige conclusie van het rapport mogelijk niet ondersteunen.
27+
28+
Daarnaast staat het rapport niet stil bij de geschiktheid van de criteria op basis waarvan het risicoprofiel onderscheid maakt. De volgende 7 criteria worden in het profiel gebruikt:
29+
30+
1. Verblijfsdoel
31+
2. Post (plaats van aanvraag)
32+
3. Nationaliteit
33+
4. Geslacht
34+
5. Leeftijdsklasse
35+
6. Burgetlijke staat
36+
7. Beroep.
37+
38+
Alvorens zulke criteria rechtmatig gebruikt kunnen worden in een risicoprofiel dient te moeten worden gemotiveerd waarom differentiatie op basis van deze criteria is proportioneel, geschikt en noodzakelijk is. <a href="https://publicaties.mensenrechten.nl/publicatie/61a734e65d726f72c45f9dce" target="_blank">Kaders</a> van het College van de Rechten van de Mensen maken deze verplichting concreet. Bijvoorbeeld, kwantitatief bewijs voor het gerbuiken van selectiecriteria in een risicoprofiel kan worden gevonden door statistische hypothesetoetsen uit te voeren op willekeurig getrokken steekproeven van visa-aanvragers. Het is onduidelijk waarom deze triviale eerste stap in het toetsen van een risicoprofiel niet wordt behandeld in dit rapport.
39+
40+
Voor leeftijdsdiscriminatie licht het College van de Rechten van de Mens toe:
41+
42+
> "\[...] het is niet per se verboden dat een algoritme iemands leeftijd meeneemt. Toch zal er wel een duidelijk verband moet zijn tussen leeftijd en het doel van het algoritme. Zolang niet is aangetoond dat iemands leeftijd de kans vergroot op \[het weigeren van een visumaanvraag] mag je leeftijd evengoed niet laten meewegen in de algoritmische selectie."
43+
44+
Het is dus opmerkelijk dat de conclusie (dat het algoritme niet discrimineert op basis van leeftijd) enkel op kwanitatieve resultaten is gebaseerd.
45+
46+
In het algemeen geldt dat de organisatorische en kwalitatieve dimensie van onderzoek naar bias in algoritmes niet in het rapport wordt behandeld. Dit is opmerkelijk aangezien experts bij dergelijk onderzoek aandringen op multidisciplinaire blik. De consensus luidt dat de verantwoorde inzet van algoritmes niet zuiver kwantitatief beslecht kan worden. Het gaat niet alleen om de bias-maten, de werking van algoritmes blijft mensenwerk. Het onderzoeken van organisatorische omgangsvormen, rollen en verantwoordelijkheden en de werkcultuur om over lastige datamodellering-vraagstukken te spreken binnen de organisatie is daarbij van groot belang. Gegeven dat eer kwalitatieve interpretatie van de gebruikte selectiecriteria 1-7 in het risicoprofiel ontbreekt, is dit een tekortkoming in het rapport.
47+
48+
Tot slot: in het rapport worden geavanceerde methoden voor causale inferentie toegepast om het verband tussen de classificatie van het model (snel, regulier, intensief) en de beoordeling van de visumaanvraag door een ambtenaar te toetsen, onder andere door toepassing van inverse probability weighting (IPW) en instrument variable (IV) analysis. Het is onduidelijk waarom niet is gekozen voor de simpelere F-test, zoals [hier](/nl/knowledge-platform/knowledge-base/20242904_f-test_confirmation_bias/) toegepast op dezelfde casus.
49+
50+
\*voor visumaanvragers met de Jemenitische nationaliteit wordt een zekere mate van ongelijke behandeling gemeten
Lines changed: 24 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,24 @@
1+
---
2+
title: 'Test op confirmation bias aan de hand van F-toets '
3+
subtitle: >
4+
Een F-toetst wordt toepast om een verband te testen tussen de classificatie
5+
van een algoritme en de beoordeling van een ambtenaar in de context van
6+
snelle, reguliere en intensieve visumaanvragen
7+
image: /images/knowledge_base/BuZa_Ftest.png
8+
author: Onbekend
9+
type: regular
10+
summary: >-
11+
Toepast om een verband te testen tussen de classificatie van een algoritme en
12+
de beoordeling van een ambtenaar in de context van snelle, reguliere en
13+
intensieve visumaanvragen
14+
---
15+
16+
Volledige rapport: [https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17779\&did=2024D17779](https://www.tweedekamer.nl/kamerstukken/detail?id=2024D17779\&did=2024D17779)
17+
18+
#### Test op confirmation bias aan de hand van F-toets
19+
20+
In de aanvraagprocedure Kort Verblijf Visum (KVV) van het Ministerie van Buitenlandse Zaken wordt een regel-gebaseerd classificatiemodel gebruikt om aanvragers in te delen in een snelle, reguliere of intensieve aanvraagprocedures. Het doel van dit onderzoek is om te bepalen "in hoeverre labeling van visumaanvragen invloed heeft op de uitkomsten van visumbeslissingen die worden genomen door beslismedewerkers?".
21+
22+
Op een veldexperiment, waarin 42 fictieve casussen aan medewerkers zijn voorgelegd, is een eenzijdige F-test (ANOVA, fixed effects, omnibus) toegepast. Voor significantieniveau 5% volgt geen bewijs dat het label geen invloed heeft gehad op de genomen beslissing.
23+
24+
De vorm van hypothesetesten geniet de voorkeur boven meer geavanceerde vormen van causale inferentie, zoals inverse probability weighting (IPW) en instrument variable (IV) analysis. Zie ook dit [artikel](/nl/knowledge-platform/knowledge-base/20240429_buza_sr/).
288 KB
Loading
124 KB
Loading
51 KB
Loading
45.2 KB
Loading
99.9 KB
Loading

0 commit comments

Comments
 (0)