Web-Scraper für Chronik von antisemitischen Vorfällen veröffentlicht von der Amadeu Antonio Stiftung
September 2020, Markus Konrad markus.konrad@wzb.eu / Wissenschaftszentrum Berlin für Sozialforschung
Lädt sämtliche Einträge, welche von Amadeu Antonio Stiftung (AAS) unter
https://www.amadeu-antonio-stiftung.de/chronik/ veröffentlicht wurden, herunter und speichert diese als strukturierten
Datensatz in der CSV-Datei collected_data.csv ab. Der Datensatz in dieser Datei enthält folgende Spalten:
url: URL zum vollständigen Eintragtitle: Titel des Eintragsauthor: Autor des Eintrags (falls angegeben)author_url: Link zum Autor des Eintrags (falls angegeben)date: Veröffentlichungsdatum (ISO 8601 Format)location: Ortsverweis (falls angegeben)text: Vollständiger Text des Eintragssources_urls: Links zu Quellenangaben (falls mehrere Quellen sind diese mit ";" getrennt)sources_texts: Titel der Quellenangaben analog zusources_urls
Der Webscraper wurde am 2. September 2020 programmiert. Änderungen der Webseite nach diesem Datum können den Scraper unbenutzbar machen bzw. Änderungen am Skript erfordern.
- benötigt Python 3
- Installation von Python Paketen aus
requirements.txtvia pip:pip install -r requirements.txt
- eventuell
MAX_PAGESinaas_chronik_scraper.pysetzen, um nur die ersten N Seiten zu laden - ausführen des Skripts bspw. via
python3 aas_chronik_scraper.py - erneutes Ausführen des Skripts lädt schon vorhandene Daten aus
rawdataundcollected_data.csv– sollen die Daten also "frisch" geladen werden, sollten die Dateien inrawdatasowiecollected_data.csvgelöscht werden
Lizenziert unter Apache License 2.0. Siehe LICENSE.txt-Datei.