Kody statu misto nazvu jako indexy dataframe

ZelenyMartin · ZelenyMartin · commit 8b9c49e9eeb9 · 2023-04-22T15:06:15.000+02:00
diff --git a/bonusy/bonusove-pandas/indexy.md b/bonusy/bonusove-pandas/indexy.md
@@ -1,10 +1,10 @@
-V této části si zkusíme napas nějaké základní dotazy na naše data. `pandas` umožňují napsat dotazy podobně jako jazyk SQL, k práci ale jeho znalost vůbec ne potřebujeme.
+V této části si zkusíme napsat nějaké základní dotazy na naše data. `pandas` umožňují napsat dotazy podobně jako jazyk SQL, k práci ale jeho znalost vůbec ne potřebujeme.
 
 Tentokrát si vyzkoušíme načíst data ze souboru ve formátu JSON. Konkrétně budeme pracovat s daty o státech světa, která jsou stažená ze služby [restcountries](https://restcountries.com/). Data si můžeš [stáhnout zde](assets/staty.json). Opět platí, že si je musíš stáhnout do adresáře, kde máš právě otevřený terminál!
 
 ## Indexy
 
-Vytvoř si nový Python skript. Soubor načteme pomocí funkce `read_json`, kde jako první parametr zadáme název souboru. Data jsou opět vrácena jako `DataFrame` a my si je uložíme do proměnné `staty`. U dat o státech světa však můžeme přidat jedno zlepšení. Víme, že každý stát na světě má svůj název a ten název je **unikátní** a **identifikuje ho**. Můžeme tedy tento název použít jako **index**.
+Vytvoř si nový Python skript. Soubor načteme pomocí funkce `read_json`, kde jako první parametr zadáme název souboru. Data jsou opět vrácena jako `DataFrame` a my si je uložíme do proměnné `staty`. U dat o státech světa však můžeme přidat jedno zlepšení. V našem datasetu má každý stát svůj kód, který je **unikátní** a **identifikuje ho**. Můžeme tedy tento kód použít jako **index**.
 
 **K zamyšlení:** Jaký index bychom použili pro tabulku zaměstnanců ve firmě, tabulku obcí České republice a tabulku aut v autopůjčovně? Pamatuj, že index by měl být unikátní.
 
@@ -15,7 +15,7 @@ To, jaký sloupec má být použit jako index, řeší funkce `set_index()`. Ta
 ```py
 import pandas
 staty = pandas.read_json("staty.json")
-staty.set_index("name", inplace=True)
+staty.set_index("alpha2Code", inplace=True)
 ```
 
 Úspěch našeho počínání si můžeme zkontrolovat pomocí příkazu `staty.index`, který nám zobrazí informace o indexu.
@@ -25,13 +25,10 @@ print(staty.index)
 ```
 
 ```shell
-Index(['Afghanistan', 'Åland Islands', 'Albania', 'Algeria', 'American Samoa',
-       'Andorra', 'Angola', 'Anguilla', 'Antarctica', 'Antigua and Barbuda',
+Index(['AF', 'AX', 'AL', 'DZ', 'AS', 'AD', 'AO', 'AI', 'AQ', 'AG',
        ...
-       'Uruguay', 'Uzbekistan', 'Vanuatu',
-       'Venezuela (Bolivarian Republic of)', 'Viet Nam', 'Wallis and Futuna',
-       'Western Sahara', 'Yemen', 'Zambia', 'Zimbabwe'],
-      dtype='object', name='name', length=250)
+       'UY', 'UZ', 'VU', 'VE', 'VN', 'WF', 'EH', 'YE', 'ZM', 'ZW'],
+      dtype='object', name='alpha2Code', length=250)
 ```
 
 Podívejme se nejprve, jaké informace jsou v naší tabulce obsažené.
@@ -42,11 +39,11 @@ staty.info()
 
 ```shell
 <class 'pandas.core.frame.DataFrame'>
-Index: 250 entries, Afghanistan to Zimbabwe
+Index: 250 entries, AF to ZW
 Data columns (total 8 columns):
  #   Column      Non-Null Count  Dtype
 ---  ------      --------------  -----
- 0   alpha2Code  250 non-null    object
+ 0   name        250 non-null    object
  1   alpha3Code  250 non-null    object
  2   capital     250 non-null    object
  3   region      250 non-null    object
@@ -62,81 +59,82 @@ memory usage: 17.6+ KB
 
 Z názvů sloupců bychom mohli odvodit, jaké informace se v našem `DataFrame` nacházejí, ale možná se zorientujeme lépe, když se podíváme na nějaký konkrétní řádek.
 
-K nalezení řádku pomocí indexu použijeme `loc`, která funguje obdobně jako funkce `iloc`. Oproti ní však primárně používá námi zvolené indexy, zatímco funkce `iloc` pracuje s čísly řádků. Opět platí, že používáme hranaté závorky, protože `loc` není běžná funkce.
+K nalezení řádku pomocí indexu použijeme `loc`, který funguje obdobně jako `iloc`. Oproti němu však primárně používá námi zvolené indexy, zatímco `iloc` pracuje s čísly řádků. Opět platí, že používáme hranaté závorky, protože `loc` není běžná funkce.
 
 ```py
-print(staty.loc["Czech Republic"])
+print(staty.loc["CZ"])
 ```
 
 ```shell
-alpha2Code                CZ
+name          Czech Republic
 alpha3Code               CZE
 capital               Prague
 region                Europe
 subregion     Eastern Europe
 population          10558524
-area                   78865
-gini                      26
-Name: Czech Republic, dtype: object
+area                 78865.0
+gini                    26.0
+Name: CZ, dtype: object
 ```
 
-Opět jsme vybrali jeden řádek, získáme tedy výsledek jako sérii. Můžeme však jít ještě dále a získat jednu konkrétní hodnotu. Funkci `loc` dodáme druhý parametr, který bude obsahovat jméno sloupce, ze kterého chceme hodnotu vybrat. Vyberme si třeba rozlohu, kterou uložíme do proměnné `rozloha`.
+Opět jsme vybrali jeden řádek, získáme tedy výsledek jako sérii. Můžeme však jít ještě dále a získat jednu konkrétní hodnotu. `loc` dodáme druhý parametr, který bude obsahovat jméno sloupce, ze kterého chceme hodnotu vybrat. Vyberme si třeba rozlohu, kterou uložíme do proměnné `rozloha`.
 
 ```py
-rozloha = staty.loc["Czech Republic","area"]
+rozloha = staty.loc["CZ", "area"]
 ```
 
 ### Výběr několika řádků
 
-Funkce `loc()` si podobně jako `iloc()` dobře rozumí s dvojtečkou. Náš soubor je seřazený dle abecedy. Pokud tedy chceme vypsat všechny státy, jejich názvy v abecedě patří mezi Českou republikou a Dominikánskou republikou, vložíme tato jméno do uvozovek a dáme mezi ně dvojtečku.
+`loc` si podobně jako `iloc` dobře rozumí s dvojtečkou. Náš soubor je seřazený dle abecedy podle názvu státu. Pokud tedy chceme vypsat všechny státy, jejich názvy v abecedě patří mezi Českou republikou a Dominikánskou republikou, vložíme tato jméno do uvozovek a dáme mezi ně dvojtečku.
 
 ```py
-print(staty.loc["Czech Republic":"Dominican Republic"])
+print(staty.loc["CZ":"DO"])
 ```
 
 ```shell
-                   alpha2Code alpha3Code        capital    region        subregion  population     area  gini
-name
-Czech Republic             CZ        CZE         Prague    Europe   Eastern Europe    10558524  78865.0  26.0
-Denmark                    DK        DNK     Copenhagen    Europe  Northern Europe     5717014  43094.0  24.0
-Djibouti                   DJ        DJI       Djibouti    Africa   Eastern Africa      900000  23200.0  40.0
-Dominica                   DM        DMA         Roseau  Americas        Caribbean       71293    751.0   NaN
-Dominican Republic         DO        DOM  Santo Domingo  Americas        Caribbean    10075045  48671.0  47.2
+                          name alpha3Code        capital    region        subregion  population     area  gini
+alpha2Code
+CZ              Czech Republic        CZE         Prague    Europe   Eastern Europe    10558524  78865.0  26.0
+DK                     Denmark        DNK     Copenhagen    Europe  Northern Europe     5717014  43094.0  24.0
+DJ                    Djibouti        DJI       Djibouti    Africa   Eastern Africa      900000  23200.0  40.0
+DM                    Dominica        DMA         Roseau  Americas        Caribbean       71293    751.0   NaN
+DO          Dominican Republic        DOM  Santo Domingo  Americas        Caribbean    10075045  48671.0  47.2
+
 ```
 
-Podobně se funkce chová, i když zadáme jen jednu hranici. Můžeme si třeba zkusit vypsat hodnoty od začátku po Andorru nebo od Uzbekistánu do konce.
+Podobně funguje, i když zadáme jen jednu hranici. Můžeme si třeba zkusit vypsat hodnoty od začátku po Andorru nebo od Uzbekistánu do konce.
 
 ```py
-print(staty.loc[:"Andorra"])
-print(staty.loc["Uzbekistan":])
+print(staty.loc[:"AD"])
+print(staty.loc["UZ":])
 ```
 
 Pokud by nás zajímaly informace o více řádcích, které spolu nesousedí, můžeme opět použít seznam. Index řádků, které nás zajímají, vložíme do seznamu a ten předáme jako první parametr funkci `loc`.
 
 ```py
-print(staty.loc[["Czech Republic","Slovakia"]])
+print(staty.loc[["CZ", "SK"]])
 ```
 
 ```shell
-               alpha2Code alpha3Code     capital  region       subregion  population     area  gini
-name
-Czech Republic         CZ        CZE      Prague  Europe  Eastern Europe    10558524  78865.0  26.0
-Slovakia               SK        SVK  Bratislava  Europe  Eastern Europe     5426252  49037.0  26.0
+                      name alpha3Code     capital  region       subregion  population     area  gini
+alpha2Code
+CZ          Czech Republic        CZE      Prague  Europe  Eastern Europe    10558524  78865.0  26.0
+SK                Slovakia        SVK  Bratislava  Europe  Eastern Europe     5426252  49037.0  26.0
 ```
 
 Pomocí seznamu se můžeme zeptat i na informace z více sloupců. Zkusme si třeba porovnat rozlohu a počet obyvatel sousedních států České republiky.
 
 ```py
-print(staty.loc[["Slovakia","Poland","Germany","Austria"], ["area","population"]])
+print(staty.loc[["SK", "PL", "DE", "AT"], ["area", "population"]])
 ```
 
 ```shell
-              area  population
-name
-Slovakia   49037.0     5426252
-Poland    312679.0    38437239
-Germany   357114.0    81770900
-Austria    83871.0     8725931
+                area  population
+alpha2Code
+SK           49037.0     5426252
+PL          312679.0    38437239
+DE          357114.0    81770900
+AT           83871.0     8725931
 ```
 
 ## Cvičení