Lekce 1: Důležitost dat a jejich typy
Jaké typy dat existují aneb data nemusí být pouze čísla
Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami a nevýhodami a také vlastní sadou využitelných statistických metod. Pro statistické zpracování se měřítka dat v základu dělí na kvalitativní a kvantitativní.
- Kvalitativní data – nečíselná data pomocí kterých popisujeme slovně kvalitu věcí a jevů. Někdy se pro ně používá pojem „měkká data“.
- Kvantitativní data – číselná data pomocí kterých definujeme nebo měříme věci nebo jevy. Někdy se pro ně používá pojem „tvrdá data“.
A. Binární data – proměnná1, která může nabývat pouze dvou hodnot.
- Pravda x nepravda
- Ano x ne
- 0 x 1 (dvojková soustava)
- Žena x muž
- ...
B. Nominální data – jedná se o kategoriální data, která mohou nabývat počtu hodnot, pro které neexistuje přirozené pořadí. Hodnoty nominálních dat umožňují pouze třídění, jsou unikátní, a tudíž nejsou vzájemně porovnatelné. Nelze s nimi provádět matematické operace (sčítání, odčítání, násobení, dělení). Používají se pro klasifikaci dat.
- Barvy (červená x zelená x modrá)
- Studijní obory středních či vysokých škol
- ...
Ze statistického hlediska lze u těchto dat počítat četnost, modus (nejčastější hodnota) nebo jejich procentuální zastoupení v celku (např. ze vzorku respondentů).
C. Ordinální data – nominální proměnná, pro kterou ale existuje jasné pořadí kategorií. Lze je uspořádat a určit, která hodnota je lepší, horší, větší, menší. Nelze s nimi provádět matematické operace a neposkytují informaci o vzdálenostech mezi hodnotami neboli rozdílech mezi nimi. Užívají se při stanovení pořadí podle určitého kritéria.
- Subjektivní hodnocení (např. jako ve škole, kde 1 = nejlepší a 5 = nejhorší)
- Časová četnost (např. 1 = nikdy, 2 = někdy, 3 = vždy)
- Stupně vzdělání (bez vzdělání, neúplné základní vzdělání, základní vzdělání, nižší střední vzdělání atd.)
- Pořadí žadatelů o dotaci (první, druhý, třetí atd.)
- …
Ze statistického hlediska lze u těchto dat počítat medián (hodnota, jež dělí řadu vzestupně seřazených výsledků na dvě stejně početné poloviny), aritmetický průměr či směrodatnou odchylku (rozptyl od průměru hodnot).
1Proměnná = znak, který může nabývat různých hodnot
A. Intervalová data – jedná se o spojitou proměnnou, u které můžeme určit rozdíl mezi kategoriemi (o kolik je jedna hodnota větší/menší než druhá). Vzdálenosti mezi jednotlivými hodnotami v intervalech jsou stejné. Nemá pevně danou nulovou hodnotu (absolutní nula u těchto dat nedává smysl). Lze s nimi provádět matematické operace (pouze sčítaní a odčítání, násobení a dělení nikoliv).
- Věk
- Počet dětí v rodině
- Měsíční/roční příjem osoby/domácnosti
- Cena
- IQ
- Přirozený přírůstek/úbytek
- Migrační přírůstek/úbytek
- …
Ze statistického hlediska je pro tato data nejčastěji počítán průměr.
B. Poměrová data – jedná se o intervalovou proměnnou, u které má smysl určovat podíly jednotlivých kategorií. Lze u nich měřit, kolikrát je jedna hodnota větší/menší než druhá. U této stupnice je nulový bod již pevně zadán a vyjadřuje naprostou nepřítomnost dané hodnoty. Poměrová data nemohou nabývat záporných hodnot (výjimkou je teplota, protože nulovým bodem u teploty je absolutní nula, tzn. -273,15 °C). Lze s nimi provádět všechny statistické i matematické operace.
- Všechny fyzikální veličiny definované v souladu se soustavou SI
- Fertilita (porodnost), mortalita (úmrtnost)
- …
Hierarchie úrovní měření dat:Při získávání dat často provádíme klasifikaci (zařazení prvku do jedné ze dvou nebo více podskupin podle hodnoty zvoleného znaku), uspořádání (vyjádření hodnoty znaku ve stupnici vytvořené podle předem dohodnutých pravidel) či měření (hodnotě znaku se přiřadí odpovídající hodnota na číselné ose). Znalost úrovně měření vám pomůže rozhodnout, jak interpretovat data z proměnné, kterou se zabýváte. Čím je úroveň měření dat vyšší, tím více statistických i matematických operací lze s daty provádět. |
|
Další možnosti dělení dat:
- Statická (neměnná) vs dynamická (měnící se v čase) – ukázkovým příkladem mohou být data o počtech turistů vztažená k jednomu konkrétnímu roku (statická data) a data o počtu turistů sbíraná v reálném čase pomocí moderních metod sběru dat, např. sčítačů (dynamická data)
- Statistická vs relační data (vzájemně propojená data) – za statistická data považujeme hodnotu nějakého jevu, za relační data můžeme považovat např. data o počtu pohybů z jednoho obce do jiné obce
- Prostorová vs neprostorová data – prostorová data lze vztáhnout a vizualizovat do určitého prostoru, prostorová data mohou být statická, dynamická, statistická i relační
Speciálním typem dat jsou prostorová data (tzv. GIS data), tj. data, která můžeme lokalizovat do prostoru, ať už bodově, liniově či plošně. U prostorových dat je nutné rozlišovat část polohovou, tj. zprostředkovávající informaci o poloze a část popisnou, tj. sdělující informace o vlastnostech určitého prvku. Polohu prvku můžeme popsat pomocí čísel (souřadnic). Pro tyto účely využíváme zeměpisnou délku a zeměpisnou šířku. Díky souřadnicovému systému tak lze každý bod přesně umístit na kterékoliv místo na povrchu Země. GPS souřadnice v českém prostředí zapisujeme nejčastěji pomocí WGS-84 (např. zápisem ve formátu 50.0000, 15.0000, kde prvně jmenovaný značí zeměpisnou šířku a druhý zeměpisnou délku) nebo S-JTSK (Systém jednotné trigonometrické sítě katastrální) a to ve formátu (ukázka dle aplikace mapy.cz):
- jtsk: 801310.09, 1077249.26
- -801310.09, -1077249.26
- Y: 801310.09, X: 1077249.26
Pro zápis souřadnic lze využít OLC (Open Location Code). OLC je systém identifikace polohy jakéhokoliv místa na zemi navržený Googlem. Byl navržen především proto, aby bylo možné identifikovat lépe i místa, kde není žádný zavedený systém, například zde chybí názvy ulic, popisná, orientační či evidenční čísla nebo PSČ. OLC lze ukázkově zapsat ve formátu 9F2Q6R5H+7X.
GIS nástroje a aplikace, které jsou využívány pro práci s prostorovými daty, jako ArcGIS či QGIS jsou užitečné pro podporu rozhodovacích procesů. Jejich detailnější popis bude následovat ve třetí lekci.