You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
The synthetic data generation tool performs a series of steps:
109
109
110
110
#### Required preparations by the user:
111
111
The user shoulds prepare the following aspects to synthesize data:
112
-
- <spanstyle="color:#005AA7">Dataset:</span> Should consists of categorical, numerical and/or time data.
112
+
- <spanstyle="color:#005AA7">Dataset:</span> Only categorical, numerical, or time data can be processed. Datasets may contain a maximum of 8 columns, must have a header with column names and do not require an index column.
113
113
- <spanstyle="color:#005AA7">Method:</span> By default, the CART method is used to generate synthetic data. CART generally produces higher quality synthetic data, but might not work well on datasets with categorical variables with 20+ categories. Use Gaussian Copula in those cases.
114
114
- <spanstyle="color:#005AA7">Number of synthetic data points:</span> Number of synthetic data points to be generated by the tool. Due to computational contstraints of browser-based synthetic data generation, the maximum is set to 5.000.
115
115
@@ -184,8 +184,8 @@ Computing the *disclosure protection metric* for synthetic data. This metric mea
184
184
##### Step 5. Download:
185
185
The generated synthetic data can de downloaded as csv and as json file. Evaluation of the synthetic data according to the above metrics can be downloaded as a evaluation report in pdf.
186
186
187
-
#### Documentatie
188
-
Meer documentatie over de tool en onderliggende SDG methoden kunnen worden gevonden op <ahref="https://github.com/NGO-Algorithm-Audit/python-synhtpop"target="_blank">Github</a>.
187
+
#### Documentation
188
+
More documentation about the tool and underlying SDG methods can be found on <ahref="https://github.com/NGO-Algorithm-Audit/python-synhtpop"target="_blank">Github</a>.
De tool voor synthetische data generatie doorloopt de volgende stappen:
109
109
110
110
#### Benodigdheden van de gebruiker:
111
111
De gebruiker dient de volgende aspecten voor te bereiden:
112
-
- <spanstyle="color:#005AA7">Dataset:</span> Moet bestaan uit categorische, numerieke of tijdsdata.
112
+
- <spanstyle="color:#005AA7">Dataset:</span> Alleen categorische, numerieke of tijdsdata kunnen worden verwerkt. Datasets mogen maximaal 8 kolommen bevatten, dienen een header te hebben met kolomnamen en hoeven geen index-kolom te hebben.
113
113
- <spanstyle="color:#005AA7">Methode:</span> Standaard wordt de CART-methode gebruikt om synthetische data te genereren. CART levert doorgaans synthetische data van hoge kwaliteit, maar werkt mogelijk minder goed bij datasets met categorische variabelen met meer dan 20 categorieën. Gebruik in dat geval Gaussian Copula.
114
114
- <spanstyle="color:#005AA7">Aantal synthetische datapunten:</span> Aantal synthetische datapunten die door de tool worden gegenereerd. Vanwege de rekencapaciteit van browser-gebaseerde datageneratie is het maximum ingesteld op 5.000.
115
115
@@ -182,17 +182,16 @@ De *onthullings beschermings metriek* meet het aandeel synthetische datapunten d
182
182
##### Step 5. Download:
183
183
De gegenereerde synthetische data kan worden gedownload als csv- en json-bestand. De evaluatie volgens bovenstaande metrics kan als evaluatierapport in pdf worden gedownload.
184
184
185
-
186
-
#### Documentation
187
-
More documentation about the tool and underlying SDG methods can be found on <ahref="https://github.com/NGO-Algorithm-Audit/python-synhtpop"target="_blank">Github</a>.
185
+
#### Documentatie
186
+
Meer documentatie over de tool en onderliggende SDG methoden kunnen worden gevonden op <ahref="https://github.com/NGO-Algorithm-Audit/python-synhtpop"target="_blank">Github</a>.
0 commit comments