Skip to content

Commit a769110

Browse files
authored
Přidání kapitoly webscraping (#7)
Resolves: Czechitas-Python/python-data#64
1 parent eaede1d commit a769110

File tree

12 files changed

+250
-0
lines changed

12 files changed

+250
-0
lines changed

entry.yml

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -3,4 +3,5 @@ lead: Úvod do zpracování dat v Pythonu
33
image: python-data.svg
44
chapters:
55
- python-pro-data-1
6+
- ziskavani-dat
67
- bonusy

ziskavani-dat/entry.yml

Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
title: Získávání dat
2+
lead: Kde a jak získat zajímavá data k analýze
3+
lessons:
4+
- webscraping
16.3 KB
Loading
21.3 KB
Loading
60.8 KB
Loading
Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
title: Web scraping
2+
lead: Naučíte se jak ve vašich Python programech vytáhnout data z webových stránek.
3+
sections:
4+
- webscraping
Lines changed: 9 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,9 @@
1+
---
2+
title: Káva na Mall.cz
3+
demand: 2
4+
---
5+
6+
Jedna ze stránek, která má pěknou strukturu pro scrapování, je například [Mall.cz](https://www.mall.cz). Můžete si zde v bezpečí potrénovat své scrapovací schopnosti dříve, než budete zkoušet vytáhnout data z nějaké webovky, která je napsaná trošku víc prasácky.
7+
8+
Vaším úkolem v tomto cvičení je napsat program, který stáhne všechny nabízené instantní kávy ze stránky [www.mall.cz/instantni-kava](https://www.mall.cz/instantni-kava). Výstupem vašeho programu bude CSV soubor, který bude obsahovat tři sloupečky: název produktu, cena a zda je produkt skladem.
9+
252 KB
Binary file not shown.
Lines changed: 21 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,21 @@
1+
---
2+
title: Porozumění HTML
3+
demand: 3
4+
---
5+
6+
Cílem tohoto cvičení je pokusit se vyznat ve zdrojovém kódu jednoduché webové stránky a získat tak povědomí o tom jak funguje jazyk HTML. Postupujte dle následujících kroků.
7+
8+
1. Stáhněte si následující [ZIP soubor](assets/dhmo.zip), který rozbalte někam na váš počítač. V rozbalené složce `dhmo` rozklikněte soubor `index.html`. V prohlížeči by se vám měla otevřít jednoduchá webová stránka pojednávající o škodlivosti jedné velmi zajímavé chemikálie. Stránka nevypadá příliš vábně, protože není napojena na žádné CSS styly, a vidíme tedy jen čistý obsah.
9+
1. Složku `dhmo` si otevřete ve Visual Studiu a podívejte se na obsah souboru `index.html`. Uvidíte spoustu HTML značek. Některé z nich znáte, některé jste v životě neviděli. Nenechte se vylekat tím, že některým částem tohoto souboru vůbec nerozumíte. Zkuste v souboru najít nějaký kousek textu, který vidíte na vaší otevřené webové stránce a tím se trochu zorientovat.
10+
1. V úvodním odstavci stránky jsou tři překlepy. Opravte je přímo v souboru `index.html`. Nezapomeňte jej uložit. Obnovte stránku ve vašem prohlížeči (zkratka Ctrl+R nebo CMD+R) a měli byste vidět změny, které jste provedli.
11+
1. Najděte v souboru `index.html` část, která obsahuje výčet faktů o DHMO. Tyto seznamy jsou číslované, což naznačuje HTML značka `<ol>`. Změňte u obou seznamů tuto značku na `<ul>`, což znamená nečíslovaný seznam. Nezapomeňte změnit i uzavírací značku seznamu (ta s lomítkem). Otevírací a uzavírací značky musí vždy souhlasit!
12+
1. Najděte poblíž začátku souboru `index.html` značku `<img>`, která do stránky vkládá úvodní obrázek. Atribut `src` udává cestu k souboru s obrázkem. Všimněte si, že blízko ke konci souboru těsně před seznamem odkazů je ještě jedna značka `<img>`, které ale atribut `src` chybí a proto na stránce žádný obrázek nevidíme. Nastavte atribut `src` na hodnotu `img/dhmo-ban.png` a podívejte se, jak se stránka změnila.
13+
1. Podobně jako náš obrázek, poslední odkaz v seznamu odkazů nemá atribut `href`, což způsobuje, že se odkaz na stránce nezobrazuje jako odkaz. Atribut `href` říká, na kterou adresu má odkaz vést. Nastavte proto v posledním odkazu hodnotu atributu `href` na `http://www.snopes.com/science/dhmo.asp`.
14+
1. Téměř na začátku souboru `index.html` najdete značku `<title>`. Ta udává název stránky, který se zobrazuje v záložce prohlížeče. Změňte tento název prostě na "DHMO šíří hrůzu".
15+
1. Pokud chcete vidět, jak by tato stránka vypadala nastylovaná, vložte na nový řádek před značkou `<title>` tento kód
16+
17+
```html
18+
<link rel="stylesheet" href="style.css" />
19+
```
20+
21+
Uložte soubor, obnovte stránku v prohlížeči a kochejte se.
Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,10 @@
1+
---
2+
title: Scraping DHMO
3+
demand: 3
4+
---
5+
6+
Napište program, který bude pracovat se stránkou o DHMO na adrese `https://apps.kodim.cz/python-data/dhmo`.
7+
8+
1. Nechť program vypíše na výstup nadpisy všech sekcí (značka `h2`).
9+
1. Nechť program vypíše na výstup cesty všech odkazů na stránce (značka `a`, atribut `href`).
10+
1. Nechť program vypíše na výstup cesty ke všem obrázkům na stránce (značka `img`, atribut `src`).

0 commit comments

Comments
 (0)