Ruzne fixy kurzu Python Data 1

ZelenyMartin · ZelenyMartin · commit bfc82b738947 · 2022-10-13T20:35:43.000+02:00
diff --git a/python-pro-data-1/datova-analyza/datova-analyza.md b/python-pro-data-1/datova-analyza/datova-analyza.md
@@ -85,7 +85,7 @@ Kromě CVS používáme další dva důležité formáty: JSON (JavaScript Objec
 
 Formát JSON ti bude povědomý, pokud už jsi v Pythonu pracoval(a) se slovníky (`dict`). Na první pohled vypadají téměř stejně. Python ti navíc jednoduše umožní data ve formátu JSON převést na slovníky a seznamy. K tomu slouží modul příhodně pojmenovaný `json`. S tímto formátem si ale hravě poradí i `pandas`.
 
-```
+```json
 [
   {
     "Jméno": "Petr",
@@ -147,7 +147,7 @@ Formát JSON ti bude povědomý, pokud už jsi v Pythonu pracoval(a) se slovník
 
 Dalším používaným formátem je XML. XML je velmi podobné HTML, tedy jazyku, kterým určujeme, jak má vypadat webová stránka.
 
-```
+```xml
 <?xml version="1.0" encoding="UTF-8"?>
 <nákupy>
    <nákup jméno="Petr" věc="Prací prášek">399</nákup>
@@ -178,7 +178,7 @@ U obou formátů musíme dodržovat základní pravidla, jinak bude soubor pro p
 
 Nejnovějším z formátů je YAML (YAML Ain't Markup Language), který vznikl v roce 2011. Byl vyvinut s ohledem pro snadnou čtenost člověkem.
 
-```
+```yaml
 - Jméno: Petr
   Věc: Prací prášek
   Částka v korunách: 399
diff --git a/python-pro-data-1/nacteni-dat/nacteni-dat.md b/python-pro-data-1/nacteni-dat/nacteni-dat.md
@@ -6,7 +6,7 @@ Než s daty začneme pracovat, musíme si je nejprve načíst.
 
 V Pandas většinou pracujeme s datovou strukturou zvanou `DataFrame`. Je to tabulková datová struktura a funguje podobně jako tabulka v Excelu nebo v databázi. Můžeme jej považovat za další datový typ vedle slovníků a seznamů. `DataFrame` obsahuje data ve sloupcích, kde každý sloupec může mít různý datový typ, tedy například číslo, desetinné číslo, řetězec, pravdivostní hodnota a jiné.
 
-**Poznámka:** Pokud znáš základy objektově orientovaného programování, pak věz, že `DataFrame` je ve skutečnosti třída a my na jejím základě budeme vytvářet objekty. 
+**Poznámka:** Pokud znáš základy objektově orientovaného programování, pak věz, že `DataFrame` je ve skutečnosti třída a my na jejím základě budeme vytvářet objekty.
 
 Abychom si práci s DataFrame vyzkoušeli, vrátíme se k naší tabulce se seznamem nákupů.
 
@@ -70,12 +70,12 @@ Jakmile máme tabulku načtenou, budeme o ní chtít vědět nějaké úplně z
 <class 'pandas.core.frame.DataFrame'>
 RangeIndex: 11 entries, 0 to 10
 Data columns (total 4 columns):
- #   Column             Non-Null Count  Dtype 
----  ------             --------------  ----- 
+ #   Column             Non-Null Count  Dtype
+---  ------             --------------  -----
  0   Jméno              11 non-null     object
  1   Datum              11 non-null     object
  2   Věc                11 non-null     object
- 3   Částka v korunách  11 non-null     int64 
+ 3   Částka v korunách  11 non-null     int64
 dtypes: int64(1), object(3)
 memory usage: 480.0+ bytes
 ```
@@ -110,7 +110,7 @@ V některých případech nás jako první při práci s daty napadne nějak si
 
 K tomu použijeme výběr sloupců pomocí hranatých závorek. Zápis připomíná práci se seznamy - hranatou závorku napíšeme přímo za název proměnné, kde máme uložený `DataFrame`, a do ní vepíšeme název sloupce, který nás zajímá.
 
-```
+```pycon
 >>> nakupy['Věc']
 0         Prací prášek
 1                 Savo
@@ -130,7 +130,7 @@ Zde je důležité říct, že pokud vybíráme pouze jeden sloupec, vrátí se
 
 Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy sloupců.
 
-```
+```pycon
 >>> nakupy[['Jméno', 'Částka v korunách']]
     Jméno  Částka v korunách
 0    Petr                399
@@ -148,7 +148,7 @@ Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy
 
 Tady se nám již vrátil datový typ DataFrame. Tohoto triku můžeme využít, když chceme získat pouze jeden sloupec, ale nechceme ho v datovém typu Série, ale jako DataFrame.
 
-```
+```pycon
 >>> nakupy[['Věc']]
                  Věc
 0       Prací prášek
@@ -172,8 +172,8 @@ K vybrání jednoho konkrétního řádku můžeme použít `iloc[]`. `iloc` ná
 
 Zkusme si zobrazit třeba **čtvrtý** nákup. Číslujeme tradičně od nuly, jistě tě tedy nepřekvapí, že napíšeme `nakupy.iloc[3]`.
 
-```
->>> nakupy.iloc[3] 
+```pycon
+>>> nakupy.iloc[3]
 Jméno                     Libor
 Datum                2020-03-05
 Věc                        Pivo
@@ -186,16 +186,16 @@ Všimni si, že když jsme chtěli pouze jeden řádek, vypsal se nám výsledek
 Metoda `iloc[]` umožňuje pro výběr řádků použít rozsah ve formátu `od:do`. K tomu používáme **dvojtečku**. Před dvojtečku píšeme první řádek, který chceme vypsat a za dvojtečku první řádek, který již vy výpisu nebude. Pokud tedy například napíšeme `nakupy.iloc[3:5]`, získáme řádky s indexy 3 a 4, ale už ne řádek s indexem 5.
 
 ```pycon
->>> nakupy.iloc[3:5] 
+>>> nakupy.iloc[3:5]
    Jméno       Datum               Věc  Částka v korunách
 3  Libor  2020-03-05              Pivo                124
-4   Petr  2020-03-18  Pytel na odpadky    
+4   Petr  2020-03-18  Pytel na odpadky
 ```
 
 Pokud se chceme podívat třeba na první tři řádky, nemusíme před dvojtečku psát 0, stačí napsat `iloc[:3]`.
 
 ```pycon
->>> nakupy.iloc[:3] 
+>>> nakupy.iloc[:3]
    Jméno       Datum             Věc  Částka v korunách
 0   Petr  2020-02-05    Prací prášek                399
 1  Ondra  2020-02-08            Savo                 80
@@ -205,7 +205,7 @@ Pokud se chceme podívat třeba na první tři řádky, nemusíme před dvojteč
 Podobně si můžeme nechat vypsat poslední tři řádky. Pokud víme, že řádků je 10, chceme vypsat řádky od osmého dále. Nyní se nabízí napsat číslo před dvojtečku. Píšeme tam ale 8, protože řádek, jehož číslo je před dvojtečkou, je vždy součástí výpisu.
 
 ```pycon
->>> nakupy.iloc[8:] 
+>>> nakupy.iloc[8:]
     Jméno       Datum    Věc  Částka v korunách
 8   Zuzka  2020-06-05   Savo                 80
 9   Pavla  2020-06-13  Máslo                 50
@@ -215,7 +215,7 @@ Podobně si můžeme nechat vypsat poslední tři řádky. Pokud víme, že řá
 Nevýhodou postupu je, že si musíme předem zjistit, jak kolik řádků máme. U seznamů už ale existoval trik použití záporného čísla. Ten můžeš použít i v `pandas`. Pokud napíšeš `iloc[-3:]`, získáš též poslední tři řádky.
 
 ```pycon
->>> nakupy.iloc[-3:] 
+>>> nakupy.iloc[-3:]
     Jméno       Datum    Věc  Částka v korunách
 8   Zuzka  2020-06-05   Savo                 80
 9   Pavla  2020-06-13  Máslo                 50
@@ -268,7 +268,7 @@ Name: Jméno, dtype: object
 U sloupců ale často narazíme na to, že jich chceme několik, ale ony nutně nemusí být vedle sebe. nás u nákupů asi bude nejvíce zajímat jméno a částka. Abychom dali dohromady dvě čísla, která neleží vedle sebe, můžeme použít seznam. Pro prvních pět nákupů tedy jako druhý parametr napíšeme `[0,3]`.
 
 ```pycon
->>> nakupy.iloc[:5,[0,3]] 
+>>> nakupy.iloc[:5,[0,3]]
    Jméno  Částka v korunách
 0   Petr                399
 1  Ondra                 80
@@ -280,7 +280,7 @@ U sloupců ale často narazíme na to, že jich chceme několik, ale ony nutně
 Pokud bys chtěla vidět všechny řádky, jako první parametr napiš pouze dvojtečku.
 
 ```pycon
->>> nakupy.iloc[:,[0,3]]  
+>>> nakupy.iloc[:,[0,3]]
     Jméno  Částka v korunách
 0    Petr                399
 1   Ondra                 80
diff --git a/python-pro-data-1/vizualizace/excs/hura-na-hory.md b/python-pro-data-1/vizualizace/excs/hura-na-hory.md
@@ -7,56 +7,56 @@ Následující data obsahují úhrnné množství sněhu (v cm) napadlé za kaž
 
 ```pycon
 snih = [
-  [1968, 480, 351],
-  [1969, 462, 663],
-  [1970, 443, 490],
-  [1971, 518, 444],
-  [1972, 537, 420],
-  [1973, 446, 941],
-  [1974, 446, 691],
-  [1975, 450, 477],
-  [1976, 356, 395],
-  [1977, 381, 652],
-  [1978, 345, 525],
-  [1979, 430, 762],
-  [1980, 266, 316],
-  [1981, 533, 781],
-  [1982, 471, 769],
-  [1983, 407, 801],
-  [1984, 526, 633],
-  [1985, 391, 488],
-  [1986, 361, 624],
-  [1987, 470, 471],
-  [1988, 506, 514],
-  [1989, 333, 208],
-  [1990, 462, 909],
-  [1991, 438, 443],
-  [1992, 364, 488],
-  [1993, 452, 579],
-  [1994, 484, 519],
-  [1995, 460, 809],
-  [1996, 465, 682],
-  [1997, 431, 814],
-  [1998, 463, 595],
-  [1999, 460, 512],
-  [2000, 503, 750],
-  [2001, 462, 951],
-  [2002, 429, 413],
-  [2003, 405, 738],
-  [2004, 477, 777],
-  [2005, 385, 316],
-  [2006, 368, 417],
-  [2007, 513, 635],
-  [2008, 448, 689],
-  [2009, 525, 443],
-  [2010, 427, 225],
-  [2011, 460, 618],
-  [2012, 417, 742],
-  [2013, 517, 247],
-  [2014, 466, 552],
-  [2015, 523, 441],
-  [2016, 422, 690],
-  [2017, 420, 699]
+    [1968, 480, 351],
+    [1969, 462, 663],
+    [1970, 443, 490],
+    [1971, 518, 444],
+    [1972, 537, 420],
+    [1973, 446, 941],
+    [1974, 446, 691],
+    [1975, 450, 477],
+    [1976, 356, 395],
+    [1977, 381, 652],
+    [1978, 345, 525],
+    [1979, 430, 762],
+    [1980, 266, 316],
+    [1981, 533, 781],
+    [1982, 471, 769],
+    [1983, 407, 801],
+    [1984, 526, 633],
+    [1985, 391, 488],
+    [1986, 361, 624],
+    [1987, 470, 471],
+    [1988, 506, 514],
+    [1989, 333, 208],
+    [1990, 462, 909],
+    [1991, 438, 443],
+    [1992, 364, 488],
+    [1993, 452, 579],
+    [1994, 484, 519],
+    [1995, 460, 809],
+    [1996, 465, 682],
+    [1997, 431, 814],
+    [1998, 463, 595],
+    [1999, 460, 512],
+    [2000, 503, 750],
+    [2001, 462, 951],
+    [2002, 429, 413],
+    [2003, 405, 738],
+    [2004, 477, 777],
+    [2005, 385, 316],
+    [2006, 368, 417],
+    [2007, 513, 635],
+    [2008, 448, 689],
+    [2009, 525, 443],
+    [2010, 427, 225],
+    [2011, 460, 618],
+    [2012, 417, 742],
+    [2013, 517, 247],
+    [2014, 466, 552],
+    [2015, 523, 441],
+    [2016, 422, 690],
+    [2017, 420, 699]
 ]
 snihdf = pandas.DataFrame(snih, columns=['rok', 'hora', 'udoli'])
 snihdf = snihdf.set_index('rok')
diff --git a/python-pro-data-1/vizualizace/vizualizace.md b/python-pro-data-1/vizualizace/vizualizace.md
@@ -75,14 +75,14 @@ Histogram je důležitý typ grafu, který nám umožňuje zobrazit četnost hod
 
 ```pycon
 muzi = pandas.Series([
-  179.3, 183.7, 181.4, 176.0, 183.6, 184.7, 163.4, 180.3,
-  167.5, 166.8, 173.5, 172.5, 173.0, 177.6, 176.0, 179.5,
-  182.6, 172.0, 183.2, 177.0, 176.2, 175.7, 174.3, 180.3,
-  184.9, 171.1, 182.3, 169.7, 181.3, 188.8, 176.8, 159.0,
-  180.3, 198.5, 185.8, 191.0, 170.9, 196.0, 183.3, 183.0,
-  189.9, 184.8, 184.0, 183.1, 184.0, 190.7, 191.7, 187.8,
-  177.5, 177.5, 189.2, 188.4, 195.0, 204.2, 180.2, 181.3,
-  178.2, 182.6, 172.1, 175.7, 180.7, 181.2, 165.0, 188.6
+    179.3, 183.7, 181.4, 176.0, 183.6, 184.7, 163.4, 180.3,
+    167.5, 166.8, 173.5, 172.5, 173.0, 177.6, 176.0, 179.5,
+    182.6, 172.0, 183.2, 177.0, 176.2, 175.7, 174.3, 180.3,
+    184.9, 171.1, 182.3, 169.7, 181.3, 188.8, 176.8, 159.0,
+    180.3, 198.5, 185.8, 191.0, 170.9, 196.0, 183.3, 183.0,
+    189.9, 184.8, 184.0, 183.1, 184.0, 190.7, 191.7, 187.8,
+    177.5, 177.5, 189.2, 188.4, 195.0, 204.2, 180.2, 181.3,
+    178.2, 182.6, 172.1, 175.7, 180.7, 181.2, 165.0, 188.6
 ])
 ```
 
@@ -99,7 +99,7 @@ Histogram si pro přehlednost můžeme rozdělit do <term cs="přihrádek" en="b
 
 ```pycon
 muzi.hist(bins=[
-  150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 205, 210
+    150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 205, 210
 ])
 plt.show()
 ```
@@ -121,14 +121,14 @@ Krabicové grafy jsou užitečné především pro porovnání dvou různých m
 
 ```pycon
 zeny = pandas.Series([
-  172.0, 169.0, 166.8, 164.6, 172.7, 171.5, 167.0, 167.0,
-  168.3, 184.7, 166.0, 160.0, 168.8, 165.8, 173.5, 163.0,
-  168.9, 158.4, 166.4, 169.4, 174.2, 175.6, 167.2, 168.0,
-  171.5, 168.8, 168.9, 174.1, 169.0, 170.7, 156.3, 174.8,
-  169.1, 161.4, 172.5, 166.1, 171.5, 163.9, 164.5, 169.0,
-  168.5, 163.3, 169.5, 167.4, 175.5, 165.0, 166.6, 158.9,
-  164.5, 168.7, 161.6, 175.8, 179.0, 167.9, 161.1, 167.6,
-  165.9, 165.2, 176.0, 179.4, 160.1, 163.8, 177.7, 160.4
+    172.0, 169.0, 166.8, 164.6, 172.7, 171.5, 167.0, 167.0,
+    168.3, 184.7, 166.0, 160.0, 168.8, 165.8, 173.5, 163.0,
+    168.9, 158.4, 166.4, 169.4, 174.2, 175.6, 167.2, 168.0,
+    171.5, 168.8, 168.9, 174.1, 169.0, 170.7, 156.3, 174.8,
+    169.1, 161.4, 172.5, 166.1, 171.5, 163.9, 164.5, 169.0,
+    168.5, 163.3, 169.5, 167.4, 175.5, 165.0, 166.6, 158.9,
+    164.5, 168.7, 161.6, 175.8, 179.0, 167.9, 161.1, 167.6,
+    165.9, 165.2, 176.0, 179.4, 160.1, 163.8, 177.7, 160.4
 ])
 ```
 
diff --git a/python-pro-data-1/zakladni-dotazy/zakladni-dotazy.md b/python-pro-data-1/zakladni-dotazy/zakladni-dotazy.md
@@ -6,7 +6,7 @@ Tentokrát si vyzkoušíme načíst data ze souboru ve formátu JSON. Konkrétn
 
 ### Indexy
 
-Pokud ještě nemáš otevřený Python terminál, otevři si ho. Soubor načteme pomocí funkce `read_json`, kde jako první parametr zadáme název souboru. Data jsou opět vrácena jako `DataFrame` a my si je uložíme do proměnné `staty`. U dat o státech světa však můžeme přidat jedno zlepšení. Víme, že každý stát na světě má svůj název a ten název je **unikátní** a **identifikuje ho**. Můžeme tedy tento název použít jako **index**. 
+Pokud ještě nemáš otevřený Python terminál, otevři si ho. Soubor načteme pomocí funkce `read_json`, kde jako první parametr zadáme název souboru. Data jsou opět vrácena jako `DataFrame` a my si je uložíme do proměnné `staty`. U dat o státech světa však můžeme přidat jedno zlepšení. Víme, že každý stát na světě má svůj název a ten název je **unikátní** a **identifikuje ho**. Můžeme tedy tento název použít jako **index**.
 
 **K zamyšlení:** Jaký index bychom použili pro tabulku zaměstnanců ve firmě, tabulku obcí České republice a tabulku aut v autopůjčovně? Pamatuj, že index by měl být unikátní.
 
@@ -61,7 +61,7 @@ Z názvů sloupců bychom mohli odvodit, jaké informace se v našem `DataFrame`
 K nalezení řádku pomocí indexu použijeme `loc`, která funguje obdobně jako funkce `iloc`. Oproti ní však primárně používá námi zvolené indexy, zatímco funkce `iloc` pracuje s čísly řádků. Opět platí, že používáme hranaté závorky, protože `loc` není běžná funkce.
 
 ```pycon
->>> staty.loc["Czech Republic"] 
+>>> staty.loc["Czech Republic"]
 alpha2Code                CZ
 alpha3Code               CZE
 capital               Prague
@@ -169,11 +169,11 @@ V datové analýze podmínkám rozhodně neutečeš. Podmínky jsou velmi užite
 V jazyce SQL píšeme podmínky za klíčové slovo `WHERE`, v Excelu můžeme použít funkce Filtr atd. V `pandas` používáme funkci `query`. Název této funkce si ale pamatovat nemusíš, protože namísto ní opět můžeme použít hranaté závorky.
 
  Začněme s tím, že se podíváme na nejmenší státy, které na světě jsou. Nechme si například vypsat státy, které mají méně než 1000 obyvatel. Postup si vysvětlíme ve dvou krocích.
- 
+
  Nejprve potřebujeme formulovat podmínku. Ta bude vypadat takto `staty["population"] < 1000`. V podmínce máme sloupec, na který se ptáme, a porovnání s číselnou hodnotou. Používáme nám již známý operátor menší než (`<`). Zkusme si zadat samotnou podmínku do terminálu a podívejme se na výsledek.
 
 ```pycon
->>> staty["population"] < 1000     
+>>> staty["population"] < 1000
 name
 Afghanistan          False
 Åland Islands        False
@@ -195,7 +195,7 @@ My v naší tabulce ale máme 250 států s různými počty obyvatel, proto ná
 
 ```pycon
 >>> pidistaty = staty[staty["population"] < 1000]
->>> pidistaty[["population", "area"]]  
+>>> pidistaty[["population", "area"]]
                                               population     area
 name
 Bouvet Island                                          0    49.00
diff --git a/ziskavani-dat/webscraping/entry.yml b/ziskavani-dat/webscraping/entry.yml
@@ -1,4 +1,5 @@
 title: Web scraping
 lead: Naučíte se jak ve vašich Python programech vytáhnout data z webových stránek.
 sections:
+  - html
   - webscraping
diff --git a/ziskavani-dat/webscraping/html.md b/ziskavani-dat/webscraping/html.md
diff --git a/ziskavani-dat/webscraping/webscraping.md b/ziskavani-dat/webscraping/webscraping.md