Czechitas-Python
diff --git a/‎python-pro-data-1/entry.yml‎
Lines changed: 2 additions & 2 deletions b/‎python-pro-data-1/entry.yml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎python-pro-data-1/nacteni-dat/cisla-radku.md‎
Lines changed: 127 additions & 0 deletions b/‎python-pro-data-1/nacteni-dat/cisla-radku.md‎
Lines changed: 127 additions & 0 deletions
diff --git a/‎python-pro-data-1/nacteni-dat/entry.yml‎
Lines changed: 3 additions & 0 deletions b/‎python-pro-data-1/nacteni-dat/entry.yml‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎…tazy/excs/ceska-jmena-2/assets/jmena.csv‎ ‎…ni-dat/excs/ceska-jmena/assets/jmena.csv‎python-pro-data-1/zakladni-dotazy/excs/ceska-jmena-2/assets/jmena.csv renamed to python-pro-data-1/nacteni-dat/excs/ceska-jmena/assets/jmena.csv b/‎…tazy/excs/ceska-jmena-2/assets/jmena.csv‎ ‎…ni-dat/excs/ceska-jmena/assets/jmena.csv‎python-pro-data-1/zakladni-dotazy/excs/ceska-jmena-2/assets/jmena.csv renamed to python-pro-data-1/nacteni-dat/excs/ceska-jmena/assets/jmena.csv
diff --git a/‎…adni-dotazy/excs/ceska-jmena/exercise.md‎ ‎…nacteni-dat/excs/ceska-jmena/exercise.md‎python-pro-data-1/zakladni-dotazy/excs/ceska-jmena/exercise.md renamed to python-pro-data-1/nacteni-dat/excs/ceska-jmena/exercise.md b/‎…adni-dotazy/excs/ceska-jmena/exercise.md‎ ‎…nacteni-dat/excs/ceska-jmena/exercise.md‎python-pro-data-1/zakladni-dotazy/excs/ceska-jmena/exercise.md renamed to python-pro-data-1/nacteni-dat/excs/ceska-jmena/exercise.md
diff --git a/‎…ata-1/zakladni-dotazy/zakladni-dotazy.md‎ ‎python-pro-data-1/nacteni-dat/indexy.md‎python-pro-data-1/zakladni-dotazy/zakladni-dotazy.md renamed to python-pro-data-1/nacteni-dat/indexy.md
Lines changed: 0 additions & 2 deletions b/‎…ata-1/zakladni-dotazy/zakladni-dotazy.md‎ ‎python-pro-data-1/nacteni-dat/indexy.md‎python-pro-data-1/zakladni-dotazy/zakladni-dotazy.md renamed to python-pro-data-1/nacteni-dat/indexy.md
Lines changed: 0 additions & 2 deletions
diff --git a/‎python-pro-data-1/nacteni-dat/nacteni-dat.md‎
Lines changed: 5 additions & 208 deletions b/‎python-pro-data-1/nacteni-dat/nacteni-dat.md‎
Lines changed: 5 additions & 208 deletions
@@ -4,6 +4,6 @@ lessons:
   - instalace
   - datova-analyza
   - nacteni-dat
-  - zakladni-dotazy
+  - podmineny-vyber
   - agregace-a-spojovani
-  - vizualizace
+  - vizualizace
@@ -0,0 +1,127 @@
+## Výběr řádků pomocí čísla řádku
+
+Jak už víme, v `pandas` má každý řádek přiřazený index. Jako index můžeme zvolit některý ze sloupců. Pokud však tabulku načteme bez toho, abychom specifikovali index, `pandas` nám vytvoří **číselný index** automaticky. Je to něco podobného jako číslování řádků v Excelu.
+
+K vybrání jednoho konkrétního řádku můžeme použít `iloc[]`. `iloc` nám umožní ptát se na konkrétní záznam podobně jako u sekvencí, jsou zde přítomné i hranaté závorky. `iloc` tedy ve skutečnosti není funkce, ale kromě jiného typu závorek s ní pracujeme jako s funkcí.
+
+Zkusme si zobrazit třeba **čtvrtý** nákup. Číslujeme tradičně od nuly, jistě tě tedy nepřekvapí, že napíšeme `nakupy.iloc[3]`.
+
+```py
+print(nakupy.iloc[3])
+```
+
+```shell
+jmeno         Libor
+datum    2020-03-05
+vec            Pivo
+cena            124
+Name: 3, dtype: object
+```
+
+Všimni si, že když jsme chtěli pouze jeden řádek, vypsal se nám výsledek jinak orientovaný. Výběr jednoho řádku nám vrátí Sérii stejně jako v případě výběru jediného sloupce. Pohled na tento řádek pak máme orientovaný na výšku.
+
+Metoda `iloc[]` umožňuje pro výběr řádků použít rozsah ve formátu `od:do`. K tomu používáme **dvojtečku**. Před dvojtečku píšeme první řádek, který chceme vypsat a za dvojtečku první řádek, který již vy výpisu nebude. Pokud tedy například napíšeme `nakupy.iloc[3:5]`, získáme řádky s indexy 3 a 4, ale už ne řádek s indexem 5.
+
+```py
+print(nakupy.iloc[3:5])
+```
+
+```shell
+   jmeno       datum               vec  cena
+3  Libor  2020-03-05              Pivo   124
+4   Petr  2020-03-18  Pytel na odpadky    75
+```
+
+Pokud se chceme podívat třeba na první tři řádky, nemusíme před dvojtečku psát 0, stačí napsat `iloc[:3]`.
+
+```py
+print(nakupy.iloc[:3])
+```
+
+```shell
+   jmeno       datum             vec  cena
+0   Petr  2020-02-05    Prací prášek   399
+1  Ondra  2020-02-08            Savo    80
+2   Petr  2020-02-24  Toaletní papír    65
+```
+
+Podobně si můžeme nechat vypsat poslední tři řádky. Pokud víme, že řádků je 10, chceme vypsat řádky od osmého dále. Nyní se nabízí napsat číslo před dvojtečku. Píšeme tam ale 8, protože řádek, jehož číslo je před dvojtečkou, je vždy součástí výpisu.
+
+```py
+print(nakupy.iloc[8:])
+```
+
+```shell
+    jmeno       datum    vec  cena
+8   Zuzka  2020-06-05   Savo    80
+9   Pavla  2020-06-13  Máslo    50
+10  Ondra  2020-07-25   Káva   300
+```
+
+Nevýhodou postupu je, že si musíme předem zjistit, jak kolik řádků máme. U seznamů už ale existoval trik použití záporného čísla. Ten můžeš použít i v `pandas`. Pokud napíšeš `iloc[-3:]`, získáš též poslední tři řádky.
+
+```py
+print(nakupy.iloc[-3:])
+```
+
+```shell
+    jmeno       datum    vec  cena
+8   Zuzka  2020-06-05   Savo    80
+9   Pavla  2020-06-13  Máslo    50
+10  Ondra  2020-07-25   Káva   300
+```
+
+### Výběr řádků a sloupců podle čísla
+
+Kromě řádků si často chceme vybrat jen některé sloupce, protože mnoho tabulek obsahuje spoustu různých informací a ne všechny nás musejí zajímat. Čísla sloupců zadáváme jako druhý parametr funkce `iloc`.
+
+Pokud chceš například vypsat jména u prvních pět nákupů, jako první parametr napiš `:5` a jako druhý `0`.
+
+```py
+print(nakupy.iloc[:5,0])
+```
+
+```shell
+0     Petr
+1    Ondra
+2     Petr
+3    Libor
+4     Petr
+Name: jmeno, dtype: object
+```
+
+U sloupců ale často narazíme na to, že jich chceme několik, ale ony nutně nemusí být vedle sebe. nás u nákupů asi bude nejvíce zajímat jméno a částka. Abychom dali dohromady dvě čísla, která neleží vedle sebe, můžeme použít seznam. Pro prvních pět nákupů tedy jako druhý parametr napíšeme `[0,3]`.
+
+```py
+print(nakupy.iloc[:5,[0,3]])
+```
+
+```shell
+   jmeno  cena
+0   Petr   399
+1  Ondra    80
+2   Petr    65
+3  Libor   124
+4   Petr    75
+```
+
+Pokud bys chtěla vidět všechny řádky, jako první parametr napiš pouze dvojtečku.
+
+```py
+print(nakupy.iloc[:,[0,3]])
+```
+
+```shell
+    jmeno  cena
+0    Petr   399
+1   Ondra    80
+2    Petr    65
+3   Libor   124
+4    Petr    75
+5    Míša   130
+6   Ondra   120
+7    Míša    30
+8   Zuzka    80
+9   Pavla    50
+10  Ondra   300
+```
@@ -2,4 +2,7 @@ title: Načtení dat
 lead: Pojďme načíst data do pandas a podívat se na ně
 sections:
   - nacteni-dat
+  - vyber-sloupcu
+  - cisla-radku
   - excs
+  - indexy
@@ -1,5 +1,3 @@
-## Základní dotazy
-
 V této části si zkusíme napas nějaké základní dotazy na naše data. `pandas` umožňují napsat dotazy podobně jako jazyk SQL, k práci ale jeho znalost vůbec ne potřebujeme.
 
 Tentokrát si vyzkoušíme načíst data ze souboru ve formátu JSON. Konkrétně budeme pracovat s daty o státech světa, která jsou stažená ze služby [restcountries](https://restcountries.com/). Data si můžeš [stáhnout zde](assets/staty.json). Opět platí, že si je musíš stáhnout do adresáře, kde máš právě otevřený terminál!
 
@@ -1,8 +1,4 @@
-## Načtení dat
-
-Než s daty začneme pracovat, musíme si je nejprve načíst.
-
-### Základní práce s DataFrame
+## Základní práce s DataFrame
 
 V Pandas většinou pracujeme s datovou strukturou zvanou `DataFrame`. Je to tabulková datová struktura a funguje podobně jako tabulka v Excelu nebo v databázi. Můžeme jej považovat za další datový typ vedle slovníků a seznamů. `DataFrame` obsahuje data ve sloupcích, kde každý sloupec může mít různý datový typ, tedy například číslo, desetinné číslo, řetězec, pravdivostní hodnota a jiné.
 
@@ -24,7 +20,7 @@ Abychom si práci s DataFrame vyzkoušeli, vrátíme se k naší tabulce se sezn
 | Pavla   | 2020-06-13 | Máslo            |   50 |
 | Ondra   | 2020-07-25 | Káva             |  300 |
 
-#### Načítání dat
+### Načítání dat
 
 Tabulku výše si můžete stáhnout ve [formátu CSV](assets/nakupy.csv). Důležité je, že si soubor musíš uložit nebo zkopírovat do **stejného adresáře**, v jakém právě pracuješ ve Visual Studiu! To si ověříš pomocí příkazu `dir` ve Windows nebo `ls` v MacOS nebo Linuxu. Tento příkaz ti vypíše obsah aktuální adresáře. V přehledu souborů bys měla vidět soubor `nakupy.csv`.
 
@@ -61,7 +57,7 @@ Všimni si, že `pandas` nám přidal nový sloupec s číslem řádku. Jedná s
 
 Pandas nabízí kromě funkce `read_csv()` také funkci pro čtení formátu JSON `read_json()` nebo dokonce funkci pro čtení přímo Excelových tabulek `read_excel()`.
 
-#### Základní informace o tabulce
+### Základní informace o tabulce
 
 Jakmile máme tabulku načtenou, budeme o ní chtít vědět nějaké úplně základní údaje. K tomu nám pomůže metoda `info()`, která vrací souhrnné informace o celé tabulce: názvy sloupců, datové typy, počet neprázdných hodnot atd.
 
@@ -119,153 +115,9 @@ print(nakupy.columns)
 Index(['jmeno', 'datum', 'vec', 'cena'], dtype='object')
 ```
 
+### Začátek a konec
 
-### Výběr sloupců
-
-V některých případech nás jako první při práci s daty napadne nějak si data zjednodušit. Například budeme chtít v DataFrame vybrat pouze některé sloupce, a to co nás nezajímá, můžeme zahodit.
-
-K tomu použijeme výběr sloupců pomocí hranatých závorek. Zápis připomíná práci se seznamy - hranatou závorku napíšeme přímo za název proměnné, kde máme uložený `DataFrame`, a do ní vepíšeme název sloupce, který nás zajímá.
-
-```py
-print(nakupy['vec'])
-```
-
-```shell
-0         Prací prášek
-1                 Savo
-2       Toaletní papír
-3                 Pivo
-4     Pytel na odpadky
-5     Utěrky na nádobí
-6       Toaletní papír
-7         Pečící papír
-8                 Savo
-9                Máslo
-10                Káva
-Name: vec, dtype: object
-```
-
-Zde je důležité říct, že pokud vybíráme pouze jeden sloupec, vrátí se nám takzvaná **Série** (`Series`), což je jiný datový typ než DataFrame. Sérii si představme jako jednorozměrnou tabulku.
-
-Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy sloupců.
-
-```py
-print(nakupy[['jmeno', 'cena']])
-```
-
-```shell
-    jmeno  cena
-0    Petr   399
-1   Ondra    80
-2    Petr    65
-3   Libor   124
-4    Petr    75
-5    Míša   130
-6   Ondra   120
-7    Míša    30
-8   Zuzka    80
-9   Pavla    50
-10  Ondra   300
-```
-
-Tady se nám již vrátil datový typ DataFrame. Tohoto triku můžeme využít, když chceme získat pouze jeden sloupec, ale nechceme ho v datovém typu Série, ale jako DataFrame.
-
-```py
-print(nakupy[['vec']])
-```
-
-```shell
-                 vec
-0       Prací prášek
-1               Savo
-2     Toaletní papír
-3               Pivo
-4   Pytel na odpadky
-5   Utěrky na nádobí
-6     Toaletní papír
-7       Pečící papír
-8               Savo
-9              Máslo
-10              Káva
-```
-
-### Výběr řádků pomocí čísla řádku
-
-Jak už víme, v `pandas` má každý řádek přiřazený index. Jako index můžeme zvolit některý ze sloupců. Pokud však tabulku načteme bez toho, abychom specifikovali index, `pandas` nám vytvoří **číselný index** automaticky. Je to něco podobného jako číslování řádků v Excelu.
-
-K vybrání jednoho konkrétního řádku můžeme použít `iloc[]`. `iloc` nám umožní ptát se na konkrétní záznam podobně jako u sekvencí, jsou zde přítomné i hranaté závorky. `iloc` tedy ve skutečnosti není funkce, ale kromě jiného typu závorek s ní pracujeme jako s funkcí.
-
-Zkusme si zobrazit třeba **čtvrtý** nákup. Číslujeme tradičně od nuly, jistě tě tedy nepřekvapí, že napíšeme `nakupy.iloc[3]`.
-
-```py
-print(nakupy.iloc[3])
-```
-
-```shell
-jmeno         Libor
-datum    2020-03-05
-vec            Pivo
-cena            124
-Name: 3, dtype: object
-```
-
-Všimni si, že když jsme chtěli pouze jeden řádek, vypsal se nám výsledek jinak orientovaný. Výběr jednoho řádku nám vrátí Sérii stejně jako v případě výběru jediného sloupce. Pohled na tento řádek pak máme orientovaný na výšku.
-
-Metoda `iloc[]` umožňuje pro výběr řádků použít rozsah ve formátu `od:do`. K tomu používáme **dvojtečku**. Před dvojtečku píšeme první řádek, který chceme vypsat a za dvojtečku první řádek, který již vy výpisu nebude. Pokud tedy například napíšeme `nakupy.iloc[3:5]`, získáme řádky s indexy 3 a 4, ale už ne řádek s indexem 5.
-
-```py
-print(nakupy.iloc[3:5])
-```
-
-```shell
-   jmeno       datum               vec  cena
-3  Libor  2020-03-05              Pivo   124
-4   Petr  2020-03-18  Pytel na odpadky    75
-```
-
-Pokud se chceme podívat třeba na první tři řádky, nemusíme před dvojtečku psát 0, stačí napsat `iloc[:3]`.
-
-```py
-print(nakupy.iloc[:3])
-```
-
-```shell
-   jmeno       datum             vec  cena
-0   Petr  2020-02-05    Prací prášek   399
-1  Ondra  2020-02-08            Savo    80
-2   Petr  2020-02-24  Toaletní papír    65
-```
-
-Podobně si můžeme nechat vypsat poslední tři řádky. Pokud víme, že řádků je 10, chceme vypsat řádky od osmého dále. Nyní se nabízí napsat číslo před dvojtečku. Píšeme tam ale 8, protože řádek, jehož číslo je před dvojtečkou, je vždy součástí výpisu.
-
-```py
-print(nakupy.iloc[8:])
-```
-
-```shell
-    jmeno       datum    vec  cena
-8   Zuzka  2020-06-05   Savo    80
-9   Pavla  2020-06-13  Máslo    50
-10  Ondra  2020-07-25   Káva   300
-```
-
-Nevýhodou postupu je, že si musíme předem zjistit, jak kolik řádků máme. U seznamů už ale existoval trik použití záporného čísla. Ten můžeš použít i v `pandas`. Pokud napíšeš `iloc[-3:]`, získáš též poslední tři řádky.
-
-```py
-print(nakupy.iloc[-3:])
-```
-
-```shell
-    jmeno       datum    vec  cena
-8   Zuzka  2020-06-05   Savo    80
-9   Pavla  2020-06-13  Máslo    50
-10  Ondra  2020-07-25   Káva   300
-```
-
-
-#### Začátek a konec jinak
-
-Na prvních a posledních několik řádků se chceme podívat často, hlavně v případě, když moc dobře neznáme strukturu dat. Kromě funkce `iloc`, z níž se ti možná už začala točit hlava, k tomu ještě můžeme použít funkce `head` a `tail`.
+Na prvních a posledních několik řádků se chceme podívat často, hlavně v případě, když moc dobře neznáme strukturu dat. Můžeme k tomu použít metody `head` a `tail`.
 
 ```py
 print(nakupy.head())
@@ -294,58 +146,3 @@ print(nakupy.tail())
 9   Pavla  2020-06-13           Máslo    50
 10  Ondra  2020-07-25            Káva   300
 ```
-
-#### Výběr řádků a sloupců podle čísla
-
-Kromě řádků si často chceme vybrat jen některé sloupce, protože mnoho tabulek obsahuje spoustu různých informací a ne všechny nás musejí zajímat. Čísla sloupců zadáváme jako druhý parametr funkce `iloc`.
-
-Pokud chceš například vypsat jména u prvních pět nákupů, jako první parametr napiš `:5` a jako druhý `0`.
-
-```py
-print(nakupy.iloc[:5,0])
-```
-
-```shell
-0     Petr
-1    Ondra
-2     Petr
-3    Libor
-4     Petr
-Name: jmeno, dtype: object
-```
-
-U sloupců ale často narazíme na to, že jich chceme několik, ale ony nutně nemusí být vedle sebe. nás u nákupů asi bude nejvíce zajímat jméno a částka. Abychom dali dohromady dvě čísla, která neleží vedle sebe, můžeme použít seznam. Pro prvních pět nákupů tedy jako druhý parametr napíšeme `[0,3]`.
-
-```py
-print(nakupy.iloc[:5,[0,3]])
-```
-
-```shell
-   jmeno  cena
-0   Petr   399
-1  Ondra    80
-2   Petr    65
-3  Libor   124
-4   Petr    75
-```
-
-Pokud bys chtěla vidět všechny řádky, jako první parametr napiš pouze dvojtečku.
-
-```py
-print(nakupy.iloc[:,[0,3]])
-```
-
-```shell
-    jmeno  cena
-0    Petr   399
-1   Ondra    80
-2    Petr    65
-3   Libor   124
-4    Petr    75
-5    Míša   130
-6   Ondra   120
-7    Míša    30
-8   Zuzka    80
-9   Pavla    50
-10  Ondra   300
-```
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,3 @@`
`1`		`-## Základní dotazy`
`2`		`-`
`3`	`1`	V této části si zkusíme napas nějaké základní dotazy na naše data. `pandas` umožňují napsat dotazy podobně jako jazyk SQL, k práci ale jeho znalost vůbec ne potřebujeme.
`4`	`2`
`5`	`3`	`Tentokrát si vyzkoušíme načíst data ze souboru ve formátu JSON. Konkrétně budeme pracovat s daty o státech světa, která jsou stažená ze služby [restcountries](https://restcountries.com/). Data si můžeš [stáhnout zde](assets/staty.json). Opět platí, že si je musíš stáhnout do adresáře, kde máš právě otevřený terminál!`