Data Transparency III: Documentation ETL-Pipeline

**Als HNA-Anwender:in möchte ich wissen, wie genau die SoNAR-ETL-Pipeline aufgebaut ist, um besser beurteilen zu können, ob sich SoNAR-Daten für mein Forschungsanliegen eignen (wissenschaftliche Datenkritik). Insbesondere von Interesse sind dabei die Transformationsregeln, die zur Anwendung kommen. Ich benötige Antworten auf die Fragen: Wie wurden die Daten in SoNAR integriert, welche Verarbeitungsschritte sind dabei erfolgt? Wann erfolgte die letzte Integration und wie hat sich der SoNAR-Datenraum durch die neue Datenintegration verändert?** 

Anforderung I: ausführliche Dokumentation der ETL-Pipeline
Anforderung II: Kurzerklärung

Dokumentiert werden sollen/wichtige Fragen sind:
- verwendete Regeln oder gelernte Verfahren zur Transformation der Daten: Wie genau errechnet das System aus den zugrundeliegenden Daten bspw. eine Relation zwischen zwei Entitäten?

Zu beachten:
- Verwenden passender Relationsbezeichnungen: "Aufgrund der breiten vorgesehen Datenquellen und Nutzer:innengruppen müssen vermutlich größere Relationskategorien wie "verwandschaftliche Beziehung" oder "Ko-Autorschaft" ausreichen." (Quelle: HU-AP4-5; Nutzer:innenstudie, S. 24f.) 

Weiterer relevanter Kontext:
"Eine intellektuelle Interpretation ist insbesondere bei Daten, die eine thematische Beziehung - bspw. ein Brief oder Buch über eine Person - belegen, notwendig, um diese wissenschaftlich einzuordnen [...]. Dies wird besonders sichtbar, wenn ein Datensatz mehrere Entitäten auf unterschiedlichste Weise miteinander verbindet, wie dies bspw. bei Briefen mit mehreren Verfasser:innen und Adressat:innen und darin behandelten Entitäten häufig auftritt. Wird eine Relation durch mehrere Datensätze aus unterschiedlichen Quellen belegt, so sollten diese analysiert und daraufhin überprüft werden, ob sie zusätzliche Belege für die Relation sind oder auf Grund von Dopplungen in einer einzelnen Datenquelle oder auch mehreren Quellen auftreten. Dies kann insbesondere mit bibliothekarischen Datenquellen passieren, denn es gibt schnell Fälle, in denen "immer wieder die gleichen Publikationen nur wahrscheinlich in unterschiedlichen Ausgaben" (P10, Min. 36:44) auftreten." (Quelle: HU-AP4-5; Nutzer:innenstudie, S. 25)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Data Transparency III: Documentation ETL-Pipeline #2

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Data Transparency III: Documentation ETL-Pipeline #2

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions