Skip to content

Commit 3188c2e

Browse files
authored
Merge branch 'main' into schnaitter/review
2 parents 21c3fb1 + 507868f commit 3188c2e

File tree

14 files changed

+146
-102
lines changed

14 files changed

+146
-102
lines changed
29.1 KB
Loading

bereinigung/modell.md

Lines changed: 27 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -3,13 +3,30 @@ In den letzten Abschnitten wurde eine filmwissenschaftliche Fragestellung entwic
33

44
## Datensätze aus dem Bibliothekskatalog
55

6-
Bisher wurden die Datensätze zu einzelnen oder einer Gruppe von Filmen über den <a href="http://server8.bibl.filmuniversitaet.de/" class="external-link" target="_blank">Online-Bibliothekskatalog (OPAC)</a> der Filmuniversität mittels gezielter Suchanfragen abgerufen (vgl. Abschnitt [Materialrecherche](/recherche/material)). Im Rahmen dieser ersten Überblicks-Recherche zum vorhandenen Filmmaterial war es ausreichend, die filmografischen Daten per "Copy and Paste" aus der Trefferanzeige des Katalogs zu kopieren, z.B. in ein Textverarbeitungsprogramm oder ein Programm zur Tabellenkalkulation. Die Menge der recherchierten Filme blieb dabei übersichtlich, daher konnte auf diese Weise ein erster Vergleich und eine erste stichpunktartige Auswertung bezüglich potenzieller Gemeinsamkeiten stattfinden.
6+
Bisher wurden die Datensätze zu einzelnen oder einer Gruppe von Filmen über den <a href="http://server8.bibl.filmuniversitaet.de/" class="external-link" target="_blank">Online-Bibliothekskatalog (OPAC)</a> der Filmuniversität mittels gezielter Suchanfragen abgerufen (vgl. Kapitel [Materialrecherche](/recherche/material)). Im Rahmen dieser ersten Überblicks-Recherche zum vorhandenen Filmmaterial war es ausreichend, die filmografischen Daten per "Copy and Paste" aus der Trefferanzeige des Katalogs zu kopieren, z.B. in ein Textverarbeitungsprogramm oder ein Programm zur Tabellenkalkulation. Die Menge der recherchierten Filme blieb dabei übersichtlich, daher konnte auf diese Weise wie im Kapitel Materialrecherche im Abschnitt zur [Sichtung von Filmen](/recherche/material.md#sichtung-von-filmen) beschriebenen ein erster Vergleich und eine erste stichpunktartige Auswertung bezüglich potenzieller Gemeinsamkeiten stattfinden.
7+
8+
Für das gesamte Korpus der Filme wäre diese Vorgehensweise nicht durchzuführen: Bei der Überblicks-Recherche ergab sich auf die Suchanfrage nach studentischen Filmen aus den Jahren 1985 bis 1999 im Katalog eine Trefferanzahl von 1366 bibliografischen Einträgen. Welche alternativen Möglichkeiten gibt es nun, einen Datensatz mit den Metadaten bzw. filmografischen Daten zum Filmkorpus unserer Fallstudie zu erstellen?
9+
10+
````{margin}
11+
```{admonition} Hinweis
12+
:class: hinweis
13+
Eine Anleitung zu "Scarping als Methode zum Korpusaufbau" findet sich bei <a href="https://quadriga-dk.github.io/Text-Fallstudie-2/scraping_intro/scraping_intro.html" target="_blank">Fallstudie II - Text</a>.
14+
```
15+
````
16+
17+
Um Informationen aus Webseiten zu extrahieren und zu speichern wird häufig das sogenannte "Web Scraping"[^1] angewendet. Hierfür stehen verschiedene Software-Tools zur Verfügung, die jedoch meist Programmierkenntnisse und ein grundlegendes Wissen über den technischen Aufbau und die Abfrage von Webseiten voraussetzen. Häufig sind auch ethische und rechtliche Aspekte zu beachten, wie z.B. Fragen des Urheber- und Persönlichkeitsrechtes. Zudem kann Web Scraping aus technischen Gründen nicht bei allen Web-Ressourcen eingesetzt werden. Insgesamt erscheint uns daher im Rahmen dieser OER Web Scarping nicht als das geeignete Mittel, den erforderlichen Datensatz zu erheben.
18+
19+
Für die Abfrage von filmografischen Daten stehen im Internet verschiedene nicht-kommerzielle und kommerzielle [Datenbanken](../einleitung/filmwissenschaft.md#datenbanken-und-digitale-tools) zu Verfügung. Deren Daten können meist durch vorhandene Schnittstellen abgerufen und in einen Datensatz zusammengestellt werden. Hierfür sind wiederum Programmierkenntnisse und technisches Wissen über die Funktionsweisen und den Aufbau von Datenbanken notwendig. Insbesondere bei kommerziellen Datenbanken wie <a href="https://www.imdb.com/" class="external-link" target="_blank">IMDb</a> ist oft nur ein Teil der Informationen frei in Form von Datensätzen erhältlich, für zusätzliche Informationen muss bezahlt werden. Einige filmbezogene Datenbanken stellen ihre Einträge als (Teil)datensätze in verschiedenen Formaten frei zum Download zur Verfügung, wie z.B. die <a href="https://www.omdb.org/de/de/content/Help:DataDownload" class="external-link" target="_blank">omdb</a>. In allen diesen Fällen müssen für die Arbeit mit diesen Daten und insbesondere bei der weiteren Publikation der erstellten Datensätze [Rechtliche Rahmenbedingungen](../publikation/problemfelder.md) wie Urheberrechte und vorhandene Lizenzen beachtet werden.
20+
21+
Ein Großteil der studentischen Produktionen in unserem Untersuchungszeitraum sind in diesen Datenbanken jedoch nicht erfasst, da es sich um unveröffentlichte Werke wie Übungen handelt, die nur im Archiv der Filmuniversität vorhanden und auch nur dort verzeichnet sind. Die Zusammenstellung eines Datensatzes mit den filmografischen Angaben zu unserer Fallstudie ist über diese Datenbanken also nicht möglich.
22+
23+
Gerade bei Datensätzen, die sehr spezielle Informationen enthalten, die evtl. nur in einer bestimmten Datenbank oder bei einer bestimmten Institution vorgehalten werden, bietet es sich an, dort direkt anzufragen. Insbesondere bei nicht-kommerziellen Organisationen ist es für Forschungszwecke häufig möglich, einen Auszug mit den für die eigene Arbeit notwendigen Daten aus der Datenbank zu erhalten. Wir haben daher bei der Bibliothek der Filmuniversität angefragt, ob uns die Daten aus dem Katalog des Filmarchivs für unseren Untersuchungszeitraum 1985 bis 1999 zur Verfügung gestellt werden können.
24+
725

8-
Für das gesamte Korpus der Filme wäre diese Vorgehensweise nicht durchzuführen: Bei der Überblicks-Recherche ergab sich auf die Suchanfrage nach studentischen Filmen aus den Jahren 1985 bis 1999 im Katalog eine Trefferanzahl von 1366 bibliografischen Einträgen. Welche alternativen Möglichkeiten zum manuellen Kopieren der Daten aus den OPAC in eine Datei gibt es nun? Um Informationen aus Webseiten zu extrahieren und zu speichern wird häufig das sogenannte "Web Scraping"[^1] angewendet, für das verschiedene Software-Tools zur Verfügung stehen. Web Scraping kann jedoch aus technischen Gründen nicht bei allen Web-Ressourcen eingesetzt werden.
926

1027
## Auszug aus der Datenbank des Bibliothekskatalogs
1128

12-
Eine eigenständige automatisierte Verarbeitung der Daten aus der Oberfläche des OPACs war nicht möglich. Daher wurde der Systembibliothekar der Filmuniversität angefragt, ob er uns die OPAC-Daten zu den studentischen Filmen unseres Untersuchungszeitraums zur Verfügen stellen kann. Er erklärte sich bereit, für die Fallstudie einen Auszug aus der Datenbank des Bibliothekskatalogs zu erstellen, der alle Einträge aus dem OPAC für die Filme des Korpus enthält.
29+
Der Systembibliothekar der Filmuniversität erklärte sich bereit, für unsere Fallstudie einen Auszug aus der Datenbank des Bibliothekskatalogs zu erstellen, der alle Einträge aus dem OPAC für die Filme unseres Korpus enthält.
1330

1431
```{admonition} Achtung
1532
:class: caution
@@ -42,9 +59,9 @@ alt: Darstellung der Vollanzeige eines Einzeltitels im Katalog der Bibliothek de
4259
Ausschnitt aus der Vollanzeige eines Einzeltitels im Anzeigeformat "Feldnummern" im OPAC der Filmuniversität.
4360
```
4461

45-
In der Vollanzeige des Titels und in den verschiedenen Anzeigeformaten wird deutlich, dass die filmografischen Daten und damit die Metadaten zu den Titeln einer bestimmten Struktur, einem bestimmten Modell folgen. Auf die Funktion und auf den Aufbau solcher Datenmodelle geht Johanna Drucker ein. {cite}`c-Drucker_2021` Sie weist darauf hin, dass jede Erzeugung von Daten eine Modellierung beinhaltet. Durch ein Modell wird festgelegt, was als Merkmal des Datenobjekts – hier des jeweiligen Films – aufgeführt wird, d.h. was für die Charakterisierung als notwendig erachtet wird. Zudem muss entschieden werden, in welchem Format diese Informationen vorliegen sollen.
62+
In der Vollanzeige des Titels und in den verschiedenen Anzeigeformaten wird deutlich, dass die filmografischen Daten und damit die Metadaten zu den Titeln einer bestimmten Struktur, einem bestimmten Modell folgen. Auf die Funktion und auf den Aufbau solcher Datenmodelle geht Johanna Drucker ein {cite}`c-Drucker_2021`. Sie weist darauf hin, dass jede Erzeugung von Daten eine Modellierung beinhaltet. Durch ein Modell wird festgelegt, was als Merkmal des Datenobjekts – hier des jeweiligen Films – aufgeführt wird, d.h. was für die Charakterisierung als notwendig erachtet wird. Zudem muss entschieden werden, in welchem Format diese Informationen vorliegen sollen.
4663

47-
Mit Bezug auf Herbert Stachowiak führt Fotis Jannidis genauer aus, was mit dem Oberbegriff "Modell" gemeint ist. {cite}`c-Jannidis_2017` Er nennt drei Aspekte:
64+
Mit Bezug auf Herbert Stachowiak führt Fotis Jannidis genauer aus, was mit dem Oberbegriff "Modell" gemeint ist {cite}`c-Jannidis_2017`. Er nennt drei Aspekte:
4865

4966
```{admonition} Aspekte eines Modells
5067
:class: keypoint
@@ -53,13 +70,13 @@ Mit Bezug auf Herbert Stachowiak führt Fotis Jannidis genauer aus, was mit dem
5370
- Ein Modell hat einen oder mehrere Verwendungszwecke.
5471
```
5572

56-
Dass eine Auswahl aus Merkmalen getroffen wird, impliziert auch, dass Modelle und damit Datenmodelle, wie schon im Abschnitt zu [Metadaten](/recherche/metadaten) ausgeführt, bestimmte Weltanschauungen, Werte und Werturteile enthalten. {cite}`c-Drucker_2021`
73+
Dass eine Auswahl aus Merkmalen getroffen wird, impliziert auch, dass Modelle und damit Datenmodelle, wie schon im Abschnitt zu [Metadaten](/recherche/metadaten) ausgeführt, bestimmte Weltanschauungen, Werte und Werturteile enthalten {cite}`c-Drucker_2021`.
5774

5875
## Analyse des Modells als Ausgangspunkt
5976

6077
Bevor existierende Daten – in dieser Fallstudie die Daten zu den Filmen aus dem OPAC der Filmuniversität – verwendet werden, sollte daher nach Drucker immer das zugrundeliegende Modell analysiert und verstanden werden. Welche Merkmale wurden aufgenommen? Fehlen evtl. bestimmte Merkmale? Wie sind Felder benannt und welche Klassifikationssysteme sind erkennbar?
6178

62-
Eine tiefgreifende Analyse des Datenmodells und der Struktur der OPAC-Daten kann an dieser Stelle nicht erfolgen. Auf Teile dieses Themenbereichs wird im folgenden Abschnitt zur Analyse der [Datenquelle](datenquelle) und im Abschnitt [Datenbereinigung](openRefine/0_datenbereinigung) nochmals eingegangen. Einen ausführlichen Überblick über die Prozesse bei der Erschließung von Metadaten zu Filmen für Kataloge liefert Anna Bohn. {cite}`c-Bohn_2018`
79+
Eine tiefgreifende Analyse des Datenmodells und der Struktur der OPAC-Daten kann an dieser Stelle nicht erfolgen. Auf Teile dieses Themenbereichs wird im folgenden Abschnitt zur Analyse der [Datenquelle](datenquelle) und im Abschnitt [Datenbereinigung](openRefine/0_datenbereinigung) nochmals eingegangen. Einen ausführlichen Überblick über die Prozesse bei der Erschließung von Metadaten zu Filmen für Kataloge liefert Anna Bohn {cite}`c-Bohn_2018`.
6380

6481
Da es sich bei den OPAC-Daten um Daten aus einer existierenden Datenbank handelt, liegen diese in einer strukturierten Form vor. Aus der Vollanzeige des Titels im Bibliothekskatalog wird etwa deutlich, dass der Datensatz Informationen zu beteiligten Personen, Titel, Jahr und Format enthalten sollte. Zudem sind Schlagworte, Stichwörter und eine Inhaltsbeschreibung aufgeführt. Es zeigt sich jedoch auch, dass in einem Feld häufig mehrere Einträge aufgeführt werden. In dem jeweiligen Feld für "sonstige Personen" ist z.B. sowohl der Name der Person als auch deren Funktion(en) eingetragen (z.B. Regie, Drehbuch, Kamera, Darsteller:in etc.). Und das Feld "Umfang/Format" führt neben dem Filmformat (16mm, 35mm etc.) u.a. die Dauer in Minuten auf. ({numref}`opac_ausschnitt_vollanzeige`)
6582

@@ -78,7 +95,7 @@ Felder in der Vollansicht eines Eintrags des Bibliothekskatalogs
7895
````{margin}
7996
```{admonition} Hinweis
8097
:class: hinweis
81-
Weitere Hinweise darauf, was eine effiziente Datenstruktur auszeichnet, finden sich bei <a href="https://quadriga-dk.github.io/Tabelle-Fallstudie-1/Markdown/20_Datenstruktur.html#" target="_blank">Fallstudie I - Tabelle</a>.
98+
Weitere Hinweise darauf, was eine effiziente Datenstruktur auszeichnet, finden sich bei <a href="https://quadriga-dk.github.io/Tabelle-Fallstudie-1/Markdown/6_1_Datenstruktur.html" target="_blank">Fallstudie I - Tabelle</a>.
8299
```
83100
````
84101

@@ -92,7 +109,7 @@ Bereitet man die Daten zu den Filmen in Form einer Tabelle auf, enthält eine Ze
92109
```
93110

94111

95-
[^1]: Auf die genaue Funktionsweise von "Web Scraping" und die damit verbundenen rechtlichen und ethischen Fragen einzugehen, würde hier zu weit führen. Einen ersten Überblick liefert der <a href="https://de.wikipedia.org/wiki/Screen_Scraping" target="_blank">Wikipedia-Artikel</a> zum Thema.
96-
[^2]: Die genauen Unterschiede zwischen verschiedenen Dateitypen, in denen Datensätze vorliegen (z.B. csv oder tsv), werden hier nicht weiter behandelt. Im Abschnitt zur [Datenbereinigung](openRefine/0_datenbereinigung) werden diese noch genauer dargestellt.
112+
[^1]: Auf die genaue Funktionsweise von "Web Scraping" einzugehen, würde hier zu weit führen. Einen ersten Überblick liefert der <a href="https://de.wikipedia.org/wiki/Screen_Scraping" class="external-link" target="_blank">Wikipedia-Artikel</a> zum Thema.
113+
[^2]: Die genauen Unterschiede zwischen verschiedenen Dateitypen, in denen Datensätze vorliegen (z.B. csv oder tsv), werden hier nicht weiter behandelt. Im Abschnitt zur [Datenbereinigung](../bereinigung/openRefine/2_import.md/) werden diese noch genauer dargestellt.
97114

98115

bereinigung/openRefine/2_import.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -219,7 +219,7 @@ Da der Datensatz keine leeren Zeilen und Spalten enthält, macht diese Option f
219219
**Store blank cells as nulls**
220220

221221
Bei *blank cells* handelt es sich um leere Text- oder Zahlen-Einträge. *Null* ist ein eigener Datentyp der anzeigt, dass eine Zelle keinen Eintrag enthält. Wo genau liegt nun der Unterschied?
222-
Nehmen wir an, dass Sie einen Eintrag `12345`in `1_2_3_4_5`umwandeln wollen. Sie würden jede Leerstelle durch einen Unterstrich ersetzen, allerdings würde dies auch alle *blanks cells* in einen Eintrag verwandeln, der einen Unterstrich `_` enthält. Indem die leeren Einträge als *null* gespeichert werden, lassen sich solche Fehler vermeiden – die Option sollte daher ausgewählt werden.
222+
In vielen Situationen müssen alle Text- oder Zahlen-Einträge auf einmal bearbeitet werden, etwa um Nachkommastellen hinzuzufügen. In solchen Fällen sollten leere Einträge i.d.R. übersprungen werden, weshalb der Import von leeren Einträgen als *Nulls* in den meisten Fällen sinnvoll ist – so auch hier.
223223

224224
**Store file source & Store archive file**
225225
Diese Optionen dienen der Archivierung des originalen unbereinigten Datensatzes innerhalb des *OpenRefine* Projekts. Die erste Option **Store file source** speichert den Ursprung des Datensatzes, etwa die *URL*. Die Option **Store archive file** speichert den ursprünglichen Datensatz selbst als Archivdatei. Sie können beide Optionen in diesem Fall deaktivieren.

bereinigung/toc.md

Lines changed: 21 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -7,3 +7,24 @@ In diesem Kapitel stehen folgende Lernziele im Mittelpunkt:
77
2. Die Fähigkeit zur Beschreibung und Analyse einer Datenquelle wird erworben.
88
3. Ein Datensatz kann mithilfe des Tools *OpenRefine* bereinigt werden.
99
```
10+
11+
Wir befinden uns damit beim 2. Schritt unserer Fallstudie, bei dem die Rolle von Datenmodellen und einer guten Datenstruktur genauer beleuchtet wird. Die Datenquelle für die Metadaten des zu untersuchenden Filmkorpus wird analysiert und die Bereinigung eines Datensatzes mit dem Open Source Tool zur Datenbereinigung <a href="https://openrefine.org/" class="external-link" target="_blank">OpenRefine</a> anhand exemplarischer Schritte dargelegt.
12+
```{figure} ../assets/bereinigung/Grafik_Schritte_2.png
13+
---
14+
align: center
15+
width: 100%
16+
name: grafik_schritte_2
17+
alt: Grafik mit Darstellung der Schritte der OER. Der 2. Schritt ist farblich hervorgehoben.
18+
---
19+
Schritt 2: Datenerhebung und Datenbereinigung
20+
```
21+
22+
23+
```{admonition} Bearbeitungszeit
24+
:class: zeitinfo
25+
Die geschätzte Bearbeitungszeit dieser Lerneinheit beträgt ca. 90 Minuten. Dies schließt die gekennzeichneten Übungsaufgaben, deren Bearbeitungsdauer individuell variiert, aus.
26+
27+
Die geschätzte Bearbeitungsdauer **inklusive** der einzelnen Übungsaufgaben beträgt ca. 120 Minuten.
28+
29+
Bitte beachten Sie: Die tatsächliche Bearbeitungsdauer kann je nach Ihren Vorkenntnissen unterschiedlich ausfallen. Die angegebene Zeitangabe dient lediglich als Orientierungshilfe.
30+
```

einleitung/assessment.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -17,7 +17,7 @@ kernelspec:
1717
1818
Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
1919
20-
Sie können die Fragen in beliebiger Reihenfolge beantworten und es auch mehrfach versuchen.
20+
Sie können die Fragen in beliebiger Reihenfolge beantworten und die Beantwortung auch mehrfach versuchen.
2121
2222
**So funktioniert es:**
2323
- Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
@@ -41,7 +41,7 @@ sys.path.append("..")
4141
from quadriga import colors
4242
4343
multiple_choice9 = [{
44-
"question": """Welche der folgenden Aussagen zu Digital Humanities sind korrekt? (Mehrere Antworten möglich)""",
44+
"question": """Welche der folgenden Aussagen zu Digital Humanities sind korrekt?""",
4545
"type": "multiple_choice",
4646
"answers": [
4747
{

einleitung/filmgeschichtsschreibung.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
# Filmgeschichtsschreibung
2-
Neben Repositorien stellen Datenbanken mit digitalisierten Materialien, wie Text- und Bildmaterial, zu Filmen und zur Filmgeschichte wichtige Quellen für die computergestützte filmwissenschaftliche Forschung dar. Solche Datenbanken sind über Web-Portale meist frei zugänglich und bieten verschiedene Recherchemöglichkeiten. Ein wichtiges Beispiel und Vorbild für Projekte ähnlicher Art ist die <a href="https://mediahist.org/" class="external-link" target="_blank">Media History Digital Library (MHDL)</a>, die mittlerweile fast drei Millionen gescannte Seiten umfasst. Die MHDL enthält dabei vor allem US-amerikanische Zeitschriften und Bücher, der Bestand reicht bis in die 1960er Jahre. Nach US-amerikanischem Recht sind viele Publikationen, die bis zu diesem Zeitraum erschienen sind, nicht mehr durch das Copyright geschützt und können öffentlich zugänglich gemacht werden. {cite}`ac-Hagener_Kammerer_2020`
2+
Neben Repositorien stellen Datenbanken mit digitalisierten Materialien, wie Text- und Bildmaterial, zu Filmen und zur Filmgeschichte wichtige Quellen für die computergestützte filmwissenschaftliche Forschung dar. Solche Datenbanken sind über Web-Portale meist frei zugänglich und bieten verschiedene Recherchemöglichkeiten. Ein wichtiges Beispiel und Vorbild für Projekte ähnlicher Art ist die <a href="https://mediahist.org/" class="external-link" target="_blank">Media History Digital Library (MHDL)</a>, die mittlerweile fast drei Millionen gescannte Seiten umfasst. Die MHDL enthält dabei vor allem US-amerikanische Zeitschriften und Bücher, der Bestand reicht bis in die 1960er Jahre. Nach US-amerikanischem Recht sind viele Publikationen, die bis zu diesem Zeitraum erschienen sind, nicht mehr durch das Copyright geschützt und können öffentlich zugänglich gemacht werden {cite}`ac-Hagener_Kammerer_2020`.
33

44
```{figure} ../assets/einleitung/Lantern_Recherche_Caligari.JPG
55
---

0 commit comments

Comments
 (0)