-
Notifications
You must be signed in to change notification settings - Fork 0
Description
Als HNA-Anwender:in möchte ich wissen, wie genau die SoNAR-ETL-Pipeline aufgebaut ist, um besser beurteilen zu können, ob sich SoNAR-Daten für mein Forschungsanliegen eignen (wissenschaftliche Datenkritik). Insbesondere von Interesse sind dabei die Transformationsregeln, die zur Anwendung kommen. Ich benötige Antworten auf die Fragen: Wie wurden die Daten in SoNAR integriert, welche Verarbeitungsschritte sind dabei erfolgt? Wann erfolgte die letzte Integration und wie hat sich der SoNAR-Datenraum durch die neue Datenintegration verändert?
Anforderung I: ausführliche Dokumentation der ETL-Pipeline
Anforderung II: Kurzerklärung
Dokumentiert werden sollen/wichtige Fragen sind:
- verwendete Regeln oder gelernte Verfahren zur Transformation der Daten: Wie genau errechnet das System aus den zugrundeliegenden Daten bspw. eine Relation zwischen zwei Entitäten?
Zu beachten:
- Verwenden passender Relationsbezeichnungen: "Aufgrund der breiten vorgesehen Datenquellen und Nutzer:innengruppen müssen vermutlich größere Relationskategorien wie "verwandschaftliche Beziehung" oder "Ko-Autorschaft" ausreichen." (Quelle: HU-AP4-5; Nutzer:innenstudie, S. 24f.)
Weiterer relevanter Kontext:
"Eine intellektuelle Interpretation ist insbesondere bei Daten, die eine thematische Beziehung - bspw. ein Brief oder Buch über eine Person - belegen, notwendig, um diese wissenschaftlich einzuordnen [...]. Dies wird besonders sichtbar, wenn ein Datensatz mehrere Entitäten auf unterschiedlichste Weise miteinander verbindet, wie dies bspw. bei Briefen mit mehreren Verfasser:innen und Adressat:innen und darin behandelten Entitäten häufig auftritt. Wird eine Relation durch mehrere Datensätze aus unterschiedlichen Quellen belegt, so sollten diese analysiert und daraufhin überprüft werden, ob sie zusätzliche Belege für die Relation sind oder auf Grund von Dopplungen in einer einzelnen Datenquelle oder auch mehreren Quellen auftreten. Dies kann insbesondere mit bibliothekarischen Datenquellen passieren, denn es gibt schnell Fälle, in denen "immer wieder die gleichen Publikationen nur wahrscheinlich in unterschiedlichen Ausgaben" (P10, Min. 36:44) auftreten." (Quelle: HU-AP4-5; Nutzer:innenstudie, S. 25)