# Cvičení 01: Úvod a vizualizace

## Import základních balíčků

### NumPy 
  * Balíček pro rychlé „vědecké“ výpočty (zejména lineární algebra a náhodná čísla).
  * Většinou se jedná jen o interface k vysoce optimalizovaným C/C++/Fortran knihovnám.
  * http://www.numpy.org/

### pandas
  * Oblíbený nástroj pro datovou analýzu.
  * Pomáhá usnadnit práci s tabulkovými daty.
  * http://pandas.pydata.org/

### scikit-learn (sklearn)
  * Soubor nástrojů datové vědy psaný v Pythonu.
  * Staví na NumPy, [SciPy](https://www.scipy.org/) a matplotlib
  * http://scikit-learn.org/stable/
  
### matplotlib
  * Základní knihovna pro vykreslování grafů.
  * https://matplotlib.org/

### seaborn
  * Nástroj pro vizualizaci dat, založený na matplotlib.
  * https://seaborn.pydata.org/

## Explorace a validace dat, čištění

Let's show data exploration methods on [titanic dataset](https://www.kaggle.com/c/titanic/data) from [Kaggle](https://www.kaggle.com/). The dataset is devoted to predict survival (binary classification task).

## Základy práce s kinhovnou Pandas

![img/dataframe.png](img/dataframe.png)
*zdroj obrázku: [https://www.geeksforgeeks.org/creating-a-pandas-dataframe/](https://www.geeksforgeeks.org/creating-a-pandas-dataframe/)*

### Načítání dat
- Načítání dat z csv souborů do pandas typu DataFrame.
- Zkratka CSV znamená **comma** separated values.
    - Co asi může znamenat TSV/SSV? Jak je otevřít? 

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Načtěte data z CSV souboru data1.csv
df = ...

In [None]:
# Zkusíme si načást i data z CSV souboru data2.csv
df2 = ...

### Základní informace o datasetu

In [None]:
# Základní informace o dataframu (typy sloupců, počty hodnot)


In [None]:
# Zobrazit prvních/posledních k hodnot


In [None]:
# Získat základní statistiky o datech (count, mean, std, min, max,..)


### Jak detekovat chybějící hodnoty v datasetu?
Data občas mohou v datasetu chybět. Co s tím?

By-default považuje Pandas za chybející hodnoty `None` nebo `numpy.NaN`. Ne tedy prázdný string `''` nebo `np.inf`.

In [None]:
# Vybereme pouze řádky (ne)obsahující missing values


### Základy přístupu k datům 
Základní objekt v Pandas je `pd.Series`. `pd.DataFrame` je v podstatě kontejner na několik `pd.Series`.
- Všechny pandas objekty jsou 'value-mutable' ale ne vždy 'size-mutable'
    - length of a Series cannot be changed
    - but columns can be inserted into a DataFrame
- DataFrame obsahuje popsané osy (index řádku / název sloupce)

In [None]:
# Názvy sloupců v DataFrame


In [None]:
# Názvy řádků v DataFrame


#### Přístup ke sloupcům v DataFrame
- Přístup možný 2 způsoby:
    - `df["Age"]`
    - `df.Age`
- Po výběru jednoho sloupce již pracujeme s `pd.Series`!
- Pro tvorbu nového sloupce je nutné použít hranaté závorky
- Attribute access občas nejde použít (speciální název sloupce, mezery,..)

### Základy přístupu k datům 

In [None]:
# Vybereme sloupec Age (výsledkem je Series). Na ní vybereme prvních 10 hodnot.


In [None]:
# Vybereme sloupce "Age" a "Sex". Výsledekem je DataFrame!


In [None]:
# Jak vybrat 3 a 4 řádek dataframe?


### Filtrování dat
- Data filtrujeme aplikací listu booleans na Series/DataFrame
- Na sloupce můžeme využívat booleovské operátory

In [None]:
# Kolik lidí bylo starších 30 let?


In [None]:
# Kdo bydlel v kabině D33?


In [None]:
# Jak nalézt všechny jejichž jméno začíná na Goodwin?


## Úloha 01: Zřetězení dat

  - Připojte data2.csv za data1.csv následujícím způsobem:
      - Data (sloupce), která nejsou v data1.csv jsou v data2.csv vynechána.
      - Spočítejte věk pomocí sloupce BirthYear (rok narození) v data2.csv a uložte jej do sloupce Age.
      - PasangerId musí být unikátní. Nastavíme ho jako nový index.

In [None]:
# Načteme soubor data2.csv a zkontrolujeme, že sedí názvy sloupců a zbytečné odstraníme
df2 = ...

In [None]:
# V nově načteném df spočítáme věk cestujících


In [None]:
# Odstraníme zbytečné sloupce


In [None]:
# Spojíme soubory data1.csv a data2.csv (existuje více způsobů). Všimněte si, že index nyní neodpovídá!


In [None]:
# Dává smysl, abychom použili PassengerID jako nový index. Ovšem obsahuje neunikátní hodnoty! Let's fix that.


In [None]:
# Nastavíme sloupec PassengerID jako nový index


## Vizualizace pomocí pandas a seaborn
* Importujeme knihovny

In [None]:
import matplotlib
import matplotlib.pyplot as plt

# Matplotlib umožňuje změnit styl na jiný, než defaultní
matplotlib.style.use('ggplot')

# Bez násl. řádku někdy nefunguje vykreslování grafů v Jupyter noteboocích
%matplotlib inline 

### Základní chování grafů

In [None]:
# Co se stane když pustíme graf bez žádných parametrů?


### Běžně používané typy grafů
* Ukážeme si běžně používané typy grafů na věku pasažérů

In [None]:
# Line chart


In [None]:
# Histogram. Správný graf pro tento usecase.


In [None]:
# Boxplot je taktéž vynikající graf


### Vizualizace závislosti na přežití

* Nejprve rozdělíme na dvě části - `survived` a `not_survived`

In [None]:
# Rozdělíme na survived a not_survived


* Podíváme se na závislost věku a třídy na přežití
    * Vzhledem k tomu, že se jedná o dvě proměné je potřeba dvourozměrný graf
    * Ideální bude scatter plot (ještě lepší by byl boxplot!)

In [None]:
# df.boxplot nevyžaduje ani groupby


In [None]:
# Vykreslíme do dvou scatter grafů


In [None]:
# Lze vykreslit i do jednoho grafu (nutné předat axis objekt)


### Zobrazování subgrafů

* Co když chceme mí více grafů vedle sebe nebo i pod sebou?
* Dvě hlavní možnosti
    1. Metoda `plt.subplot`
    2. Metoda `plt.subplots`

In [None]:
# Nastavíme velikost grafu (příliš malý graf je nečitelný)
plt.figure(figsize=(9,12)) # velikost figsize se určuje v palcích (angl. inches)

# První použijeme metodu plt.subplot
plt.subplot(321) # tři řádky a dva sloupce, přiřaď následující graf do prvního slotu
survived['Age'].plot.hist(color='Green')
plt.subplot(322)
not_survived['Age'].plot.hist(color='Black')
plt.subplot(323)
survived['Pclass'].plot.hist(color='Green')
plt.subplot(324)
not_survived['Pclass'].plot.hist(color='Black')
plt.subplot(325)
survived['Sex'].apply(lambda x: 1 if x == 'female' else 0).plot.hist(color='Green')
plt.subplot(326)
not_survived['Sex'].apply(lambda x: 1 if x == 'female' else 0).plot.hist(color='Black')

plt.show()

In [None]:
# Druhá možnost je metoda plt.subplots
fig, ax = plt.subplots(3, 2, figsize=(9,12))

survived['Age'].plot.hist(color='Green', ax=ax[0,0])
not_survived['Age'].plot.hist(color='Black', ax=ax[0,1])

survived['Pclass'].plot.hist(color='Green', ax=ax[1,0])
not_survived['Pclass'].plot.hist(color='Black', ax=ax[1,1])

survived['Sex'].apply(lambda x: 1 if x == 'female' else 0).plot.hist(color='Green', ax=ax[2,0])
not_survived['Sex'].apply(lambda x: 1 if x == 'female' else 0).plot.hist(color='Black', ax=ax[2,1])

plt.show()

## Seaborne
* Využívá matplotlib
* Lze v ní snadno vytvořit grafy, které není snadné v matplotlibu napsat rychle
### Jak zjistit jaké mají příznaky vztahy mezi sebou?
* Chceme zjistit jak moc navzájem korelují jednotlivé příznaky
* Ideální graf na toto je heatmapa korelační matice

In [None]:
# Heatmapa umí pracovat jen s číselnými hodnotami, je tedy nutné převést text na číselnou hodnotu


In [None]:
# Vytvoříme korelační matici


In [None]:
import seaborn as sns

# Zobrazení heatmapy


In [None]:
# Stripplot podle x=Pclass a y=Age, hue=Survived, data=df


## Úloha 02: vytvořte bodový graf (scatter plot) pro všechny dvojice příznaků

  - K vykreslení všech (smysluplných) dvojic příznaků použijte metodu sns.pairplot, podobným způsobem jako metodu níže.

In [None]:
# Použije Seaborn pairplot s tím, že nás zajímá přežití a chceme vidět histogramy na diagonále


## Stahování dat z webu pomocí Pythonu a pandas (1. úkol)
          
### Tipy pro scrapping s Pythonem:
   - K získání HTML zdrojáku stránky s `url` použijte `import requests`: 
      - `r = requests.get(url)`
      - `html = r.text`
   - Metoda `pandas.read_html(r.text)` uloží všechny tabulky `<table>` jako seznam pandas DataFrames:
      - `list_of_data_frames = pd.read_html(html,flavor='html5lib')`
   - Pro HTML parsování lze použít `from bs4 import BeautifulSoup`.

In [None]:
import requests

In [None]:
# příklad pro statutární město Kladno, výsledky voleb pro rok 2010
url = 'https://www.volby.cz/pls/kv2010/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=2103&xobec=532053&xstat=0&xvyber=0'
dfs = pd.read_html(url,flavor='html5lib')

### Pro zajímavost (z předloňského roku): Příklad jednoduchého stažení dat z webu pomocí POST formuláře.

Úkolem je stáhnout všechna data z http://kap.ujak.cz/index.php a uložit je ve formátu pandas DataFrame.
#### První ukážeme variantu s pd.read_html

In [None]:
# url s formulářem
url = 'https://kap.ujak.cz/index.php'
# nastavení POST proměnných simulující odeslání formuláře
data = {
    'prace' : 'BP', # DP = diplomka, DR = disertace, RI = rigorozní
    'nazev' : '%%%', # alespoň tři písmena z názvu hledané práce
    'pocet' : '0',
    'klic' : '', # alespoň tři písmena z klíčových slov
    'kl' : 'c', # c = částečně odpovídá, n = plně odpovídá
    'hledat' : 'Vyhledat'
}

data_all = pd.DataFrame()
for prace in ['BP', 'DP']:
    data['prace'] = prace
    r = requests.post(url, data=data)
    r.encoding='cp1250'
    ldf = pd.read_html(r.text,flavor='html5lib', header=0)
    df_ujak = ldf[0]
    strana = 30
    if data_all.shape[0] == 0:
        data_all = df.copy()
    else:
        data_all = pd.concat([data_all,df], ignore_index=True)
    while df.shape[0] > 0:
        if data_all.shape[0] > 200: # just to prevent from downloading all data
            break
        r = requests.post(url.format(strana), data)
        r.encoding='cp1250'
        ldf = pd.read_html(r.text,flavor='html5lib', header=0)
        df_ujak = ldf[0]
        strana = strana + 30
        data_all = pd.concat([data_all,df_ujak], ignore_index=True)

In [None]:
data_all

#### Lze použít i requests a bs4
* Pokud se podíváme na původní stránku, můžeme si všimnout že název práce zároveň slouží jako odkaz na práci samotnou.
* Tento odkaz ale `pandas.read_html` nedokázalo extrahovat. 
* Zkusíme jej tedy extrahovat pomocí Beautiful Soup z bs4.

In [None]:
from bs4 import BeautifulSoup

In [None]:
# url s formulářem
url = 'https://kap.ujak.cz/index.php'
# nastavení POST proměnných simulující odeslání formuláře
data = {
    'prace' : 'BP', # DP = diplomka, DR = disertace, RI = rigorozní
    'nazev' : '%%%', # alespoň tři písmena z názvu hledané práce
    'pocet' : '0',
    'klic' : '', # alespoň tři písmena z klíčových slov
    'kl' : 'c', # c = částečně odpovídá, n = plně odpovídá
    'hledat' : 'Vyhledat'
}

links = {'BP': [],
         'DP': []}

for prace in ['BP', 'DP']:
    data['prace'] = prace
    r = requests.post(url, data=data)
    r.encoding='cp1250'

    soup = BeautifulSoup(r.text, 'html.parser')  # Použije html parser na rozparsování stránky
    for line in soup.table.find_all('tr'):  # Z tabulky dostaneme všechny řádky
        links[prace].append(line.find('a').get('href'))  # Z každé řádky dostaneme odkaz na práci
    
    while len(links[prace]) > 0:  # Zpracování následujících stránek
        if len(links[prace]) > 200: # just to prevent from downloading all data
            break
        r = requests.post(url.format(strana), data)
        r.encoding='cp1250'
        soup = BeautifulSoup(r.text, 'html.parser')
        for line in soup.table.find_all('tr'):
            links[prace].append(line.find('a').get('href'))

In [None]:
links_to_thesis = pd.DataFrame(links)
links_to_thesis

#### Další možností je použít přímo knihovnu pro scrapování
* Ukážeme si knihovnu `scrapy`
* Ve složce je soubor s názvem `ujak_crawler.py`
    * Tento script stáhne data o pracích i s linky na ně
    * Bohužel se špatně pouští v Jupyter Notebooku a tak jí pustíme přes shell

In [None]:
!scrapy runspider crawler/ujak_crawler.py -o crawler/crawled_data.csv

### Pro zajímavost se můžeme podívat kolik prací se stejným názvem bylo na UJAK od roku 2000
* Tohoto se dá snadno docílit přes `groupby`

In [None]:
# Načteme data z crawler/ujak.csv


In [None]:
# Zjistíme počty prací se stejným názvem starších než v roce 2000 (filter, groupby, agregační operace)
