Lekce 5.1: Čemu se vyvarovat aneb nejčastější chyby při interpretaci STATISTICKÝCH dat

Čemu se vyvarovat aneb nejčastější chyby při interpretaci STATISTICKÝCH dat

Tato poslední lekce čerpá z výborné publikace Jak dát číslům smysl, kterou z anglického originálu vydaného v roce 2009 Evropskou hospodářskou komisí Organizace spojených národů přeložil Český statistický úřad.

Máte k dispozici řadu technických nástrojů, které Vám umožní znázornit číselné informace. Dbejte na to, abyste se soustředili na podstatu sdělení, nikoliv na formu, design nebo technologii grafické prezentace. Základní tabulkové programy zahrnují desítky standardních typů grafů, z nichž lze vybírat. Navíc je možné si i vytvářet vlastní typy grafů. Tento velký rozsah možností často inspiruje autory, aby využili různé způsoby znázornění dat jen proto, že to program umožňuje (např. MS Excel). Výsledkem však často bývá přílišná složitost nebo zkreslení statistické informace. Stále širší nabídka rozmanitých a atraktivních nástrojů toto nebezpečí zvyšuje. Když tyto nástroje používáte, měli byste mít na paměti, že technika je pouze prostředkem k dosažení cíle. Informace obsažené ve statistických datech jsou daleko důležitější než předvádění toho, jaké atraktivní nástroje umíte používat.

Doporučení pro lepší čitelnost a porozumění dat v tabulkách a grafech:
  • Vyhněte se zbytečným textům.
  • Zobrazujte data buď chronologicky, pokud se jedná o časové řady, nebo dle standardní klasifikace. U delších časových řad (např. u měsíčního ukazatele nezaměstnanosti) může být vhodnější použití obráceného chronologického pořadí (tj. od nejnovějšího období zpět do minulosti).
  • Používejte minimum desetinných míst.
  • Užívejte oddělovače řádů (tisíců). Použitím mezery místo symbolu (obvykle tečka či čárka) předejdete problémům s překladem do jiného jazyka. Vyhněte se tvrdým mezerám v číslech, vždy pracujte s formátem dat (číslo).
  • Zarovnejte čísla k desetinné čárce (nebo doprava, pokud nejsou na desetinná místa) tak, aby byla jasná jejich relativní hodnota. Nezarovnávejte čísla na střed, pokud nejsou všechna stejného řádu.
  • Nenechávejte žádné buňky s údaji prázdné. Chybějící hodnoty by měly být označeny jako „nedostupné“, „neuvedené“ nebo „údaj nemá smysl“.
  • Nezapomeňte uvádět zdroj dat a časovou jednotku (období).
  • Nebojte se vysvětlujících poznámek pod tabulkou či grafem.

 

Pokud chceme porovnávat hodnoty, potřebujeme znát dva druhy četností. Četnost udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru. Pozor na záměnu absolutních a relativních hodnot, výsledná interpretace pak bude nevypovídající!

  • Absolutní četnost – udává, jak často se ve statistickém souboru vyskytuje určitá hodnota daného znaku. Součet absolutních četností dává celkový počet hodnot.
  • Relativní četnost – v daném statistickém souboru vypočítáme jako podíl počtu jednotek s danou hodnotou znaku počtem všech jednotek statistického souboru. Udává se obvykle jako desetinné číslo od 0 do 1 nebo v %. Součet relativních četností je tedy roven jedné nebo 100 %. Relativní hodnoty jsou vhodné i k porovnávání výběrů o nestejných velikostech – díky tomu můžeme srovnávat různě velké administrativní jednotky, např. správní obvody ORP se správními obvody POÚ, nebo menší obec s větším městem apod. K tomuto účelu využíváme přepočty na obyvatele, rozlohu apod.

Statistická data mohou být často lépe pochopena, pokud jsou prezentována nikoliv v tabulce, ale prostřednictvím grafu. Jedná se o velmi účinný vizuální nástroj, protože zobrazuje údaje rychle a snadno, usnadňuje srovnávání a může odhalit trendy a vztahy prostřednictvím dat. Nejčastěji se používají pruhové, sloupcové, liniové (čárové, spojnicové) či koláčové grafy. Ačkoliv existují trojrozměrné grafy, kde je na každé ze tří os zobrazována jiná veličina, jsou obvykle považovány za příliš složité, než aby se daly snadno pochopit.

Kdy používat grafy:
  • Porovnání: Kolik? Která položka je větší nebo menší?
  • Změny v čase: Jak se daná proměnná vyvíjela?
  • Rozdělení četnosti: Jak jsou položky distribuovány? Jaké jsou rozdíly?
  • Korelace: Jsou na sobě některé údaje navzájem závislé?
  • Relativní podíl na celku: Jak velkou část představuje jedna položka z celku?
Měli byste zvážit použití grafů, pokud Vaše data:
  • Jsou velmi rozptýlená
  • Mají příliš málo hodnot
  • Mají příliš mnoho hodnot
  • Vykazují malou nebo žádnou změnu
Výběr vhodného typu grafu

Rozpoznat, který druh grafu použít a s jakým druhem informace, je klíčové. Zaměříme se na ty nejzákladnější, tedy na pruhové/sloupcové, liniové a koláčové grafy.

Obsah obrázku text, snímek obrazovky, diagram, Plán

Obsah generovaný pomocí AI může být nesprávný.

Infografika – jaký graf použít (převzato z apandre.wordpress.com)

Pruhový/sloupcový graf

Pruhový graf je ze všech grafů nejjednodušší, jak z hlediska tvorby, tak i porozumění. Používá se pro porovnání četností nebo hodnot různých kategorií či skupin. Sloupce mohou být orientovány buď vodorovně (pruhový graf), nebo svisle (sloupcový graf). Jsou-li sloupce uspořádány podle velikosti (doporučujeme), je snazší hodnoty porovnat, než když jsou sloupce uspořádány libovolně. Text se čte lépe při vodorovné orientaci grafu. Pokud potřebujeme jednu z hodnot vizuálně odlišit, třeba naši obec, tak ji přiřadíme jinou barvu. Sloupce by měly být širší než mezery mezi nim. Pro zobrazení a porovnání částí celků použijeme skládaný pruhový/sloupcový graf.

Liniový graf

Liniový graf je účinným nástrojem ke znázornění vývojových trendů v čase. Je proto nejvhodnějším typem grafu pro zobrazování časových řad. Nejčastějším prohřeškem u liniových grafů je použití velkého počtu prvků (např. územních jednotek), které chci porovnat. Graf se následně stává nepřehledným. Liniový graf nelze používat u hodnot, kde chybí zachycení vývoje v čase.

Koláčový graf

Koláčový graf (též výsečový graf nebo kruhový diagram) lze použít k zobrazení procentuálního rozdělení jedné proměnné. Kategorií, kterých může proměnná nabývat, by však nemělo být příliš mnoho, většinou ne více než šest. Mnozí statistici využití tohoto druhu grafu nedoporučují, neboť velikost jednotlivých výsečí se obtížně porovnává. Zvlášť obtížné je porovnání velikosti výsečí z různých koláčových grafů. Tento problém lze odstranit zobrazením číselné hodnoty v jednotlivých podílech. Někdy lze do grafu vepsat názvy jednotlivých kategorií, čímž odpadá nutnost připojovat ke grafu legendu. Výseče se obvykle řadí od nejmenší po největší nebo naopak. Zbytková kategorie „ostatní“ se uvádí jako poslední. Zcela nevhodné je střídat malé a velké výseče.

Dashboard

Dashboard neboli řídicí panel je typ grafického uživatelského rozhraní, který je považován za formu vizualizace dat. Dashboard je přístupný přes webový prohlížeč a je obvykle propojen s pravidelně aktualizovanými zdroji dat. Dashboardy se notně používají v podnikatelském sektoru.

Nebojte se dashboardy používat. Vytvářet je můžete v programu Power BI či aplikaci Infogram. Můžete se inspirovat např. dashboardem Nezaměstnanost v Královéhradeckém kraji.

 Obsah obrázku text, snímek obrazovky, diagram, mapa

Obsah generovaný pomocí AI může být nesprávný.

Sdílejte na sociálních sítích