Skip to content

Commit f3929db

Browse files
committed
Changes
1 parent 3c2abf4 commit f3929db

File tree

1 file changed

+21
-11
lines changed

1 file changed

+21
-11
lines changed

inst/tutorials/3b_skalen/skalenniveaus.Rmd

Lines changed: 21 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -343,7 +343,7 @@ R bietet hauseigene Datenformate an, um Daten in unterschiedlichen Skalenniveaus
343343

344344
Nehmen wir folgenden Beispieldatensatz (`einkaufen`):
345345

346-
Diese Daten wurden von Studierenden im Rahmen dieser Vorlesung im WiSe 2022-23 erhoben. Dabei fokussieren wir uns auf verschiedene Fälle:
346+
Diese Daten wurden von Studierenden im Rahmen dieser Vorlesung im WiSe 2022-23 erhoben. Dabei fokussieren wir uns auf vier Variablen:
347347

348348
- Das *lieblingsessen* von Bioladenbesucher\*innen (*nominal*)
349349
- Das *verkehrsmittel*, mit dem sie zum Laden gekommen sind (*nominal*)
@@ -388,7 +388,7 @@ quiz(caption = "Wofür könnten die Abkürzungen stehen?",
388388
)
389389
```
390390

391-
| Abkürzung | Datenformat | geeignet für |
391+
| Abkürzung | Klasse | geeignet für |
392392
|-----------|----------------------------------------|--------------------|
393393
| \<chr\> | character | Text |
394394
| \<fctr\> | factor | nominale Daten |
@@ -398,16 +398,18 @@ quiz(caption = "Wofür könnten die Abkürzungen stehen?",
398398
*Bei `character`-Variablen werden die Inhalte als reiner Text gespeichert.
399399

400400
::: blau-nb
401-
Merke: für *nominale* und *ordinale*, also *kategoriale* Variablen, bietet sich das Datenformat `factor` bzw. ein `ordered Factor` an.
401+
Merke: für *nominale* und *ordinale*, also *kategoriale* Variablen, bietet sich die Klasse `factor` bzw. ein `ordered Factor` an.
402402

403403
Bei *metrischen* Variablen können wir mit den gewohnten *doubles* rechnen.
404404
:::
405405
</br>
406406

407-
Schauen wir uns also an, welche Datenformate für die Variablen in dem Beispieldatensatz genutzt wurden:
407+
Schauen wir uns also an, welche Klasse für die Variablen in dem Beispieldatensatz genutzt wurden:
408408

409409
::: aufgabe
410-
Untersuche mit der Funktion `class()` welche Datenformate für die verschiedenen Variablen genutzt wurden:
410+
Untersuche mit der Funktion `class()` welche Klasse für die verschiedenen Variablen genutzt wurden:
411+
412+
Der Datensatz heißt `einkaufen`, die Variablen heißen:
411413

412414
1) `essen` (Lieblingsessen)
413415
2) `verkehrsmittel` (Welches Verkehrsmittel wird zum Einkauf verwendet)
@@ -422,9 +424,6 @@ einkaufen <- data.frame(rtutorials::einkaufen)
422424

423425
```{r class, exercise = TRUE, exercise.setup = "einkaufen"}
424426
class()
425-
class()
426-
class()
427-
class()
428427
```
429428

430429
```{r class-solution}
@@ -451,9 +450,20 @@ learnr::question_checkbox("Was kannst du erkennen??",
451450
```
452451

453452

454-
Was es genau mit dem Datenformat `factor` auf sich hat erfährst du im nächsten Kapitel.
453+
Was es genau mit der Klasse `factor` auf sich hat erfährst du im nächsten Kapitel.
454+
455+
## Kategoriale Variablen in R
456+
457+
Denken wir uns einen numerischen Vektor `1 2 3 2 3 3`. R weiß zunächst erst mal nicht, welches Skalenniveau dahinter steht und was mit den Zahlen sinnvoll zu rechnen ist, und was keinen Sinn macht.
458+
459+
Beispielsweise, wenn die Zahlen Codierungen für verschiedene Kategorien wären, also Nominalskala oder Ordinalskala vorliegen würde, dann wäre es falsch hier einen Mittelwert auszurechnen. R würde das dennoch klaglos für euch tun.
460+
461+
Wenn die 1 z.B. bedeutet "Brillenträger, die 2 bedeutet "Kontaktlinsen" und die 3 bedeutet "keine Sehhilfen". Dann könnte man zwar den Mittelwert ausrechnen mit `mean()` (2.3333). Aber das würde rein gar keine Information bringen. Da die Abstände und Reihenfolge der Zahlen hier keine Rollen spielen würden, lediglich dass ob sie unterschiedlich oder gleich sind ist die Relation, die ausgewertet wird.
462+
463+
Das ist wichtig,
464+
455465

456-
## Kategoriale Variablen
466+
**Codierung und Codebook**
457467

458468
In der Forschung werden kategoriale Variablen meist in sogenannte *Codes* übersetzt. So werden die Kategorien nicht mehr als Text, sondern als Zahlen repräsentiert. Dies ist v.a. beim händischen Erfassen oder Digitalisieren der Daten unablässlich, denn niemand möchte "zu Fuß" mehr als 25 Mal aufschreiben oder abtippen müssen. Stattdessen wird ein sog. *Codebook* erstellt, in dem die jeweiligen Codes aufgeschlüsselt werden.
459469

@@ -482,7 +492,7 @@ Da diese Verwendung von Codes gängige Praxis sind, gibt es in R einen Befehl, d
482492

483493
Warum brauchen wir die `factor()`-Funktion?
484494

485-
1. **Interpretation von Kategorien:** Kategoriale Variablen können eine begrenzte Anzahl von Kategorien haben, z. B. Farben, Geschlecht oder Verkehrsmitteltypen. Der Befehl `factor()` weist diesen Kategorien Beschriftungen zu, um die Daten in einer für uns leicht verständlichen Form darzustellen.
495+
1. **Interpretation von Kategorien:** Kategoriale Variablen können eine begrenzte Anzahl von Kategorien haben, z. B. Farben, Geschlechter, Messzeitpunkte, Verkehrsmitteltypen... Der Befehl `factor()` weist diesen Kategorien Beschriftungen zu, um die Daten in einer für uns leicht verständlichen Form darzustellen.
486496

487497
2. **Ordinalität beachten:** Bei ordinalen kategorialen Variablen, bei denen die Reihenfolge der Kategorien wichtig ist (z. B. Bildungsniveau - Grundschule, Mittelschule, Hochschule), ermöglicht `factor()` die korrekte Berücksichtigung dieser Ordnung.
488498

0 commit comments

Comments
 (0)