Lekce 4: Zpracování dat
S jakými formáty souborů se můžete nejčastěji setkat a jak je můžeme zpracovávat?
Pro ukládání, zpracování a výměnu dat existuje velké množství formátů souborů. Formát souboru (neboli typ souboru) označuje standard, na základě kterého jsou elektronická data uložena do počítačového souboru. Formáty mají své názvy a obvykle jim odpovídá přípona souboru. Formáty souborů lze rozdělit do třech kategorií:
- Běžně používané formáty
- Strojově čitelné formáty (vhodné pro otevřená data)
- Formáty pro distribuci geodat
Metadata
Metadata jsou „data“ poskytující informace o datech. Metadata obohacují primární data o informace, které usnadňují jejich vyhledávání, používání a správu. Metadata se vztahují nejen na datové soubory, ale i na webové stránky, dokumenty, obrázky či fotografie. Metadata se obvykle vkládají přímo do zdroje a měla by být strojově čitelná.
Metadata lze rozdělit na:
- Popisná metadata – pomáhají k identifikaci zdrojů dat, odlišují verze dat, usnadňují jejich vyhledávání a výběr
- Administrativní metadata – poskytují časové informace o vzniku a úpravách dat
- Strukturální metadata – informují o vnitřní organizaci či struktuře dat
Metadata například obsahuje každá vygenerovaná tabulka, např. ve formátu XLSX, z Veřejné databáze Českého statistického úřadu. Ve stažené tabulce naleznete odkaz na zdroj, podmínky užívání dat, a tzv. metainformace, tj. informace a definice k použitým výrazům v objektu Veřejné databáze (VDB).
Výhodou těchto informací je, že je tato tabulka relativně snadno čitelná i pro další uživatele, kterým byla poskytnuta.
Další informace o metadatech naleznete zde nebo zde.
Číselníky
Číselník je seznam unikátních kódů, pomocí kterých lze každý záznam přiřadit pouze k určité entitě. Jedním z nejčastěji používaným číselníkem u statistických dat je hierarchizace územních celků České republiky dle Nomenklatury územních statistických jednotek (NUTS) vytvořené pro statistické účely Eurostatu (statistický úřad Evropské unie) pro porovnání a analýzu ekonomických ukazatelů, statistické monitorování, přípravu, realizaci a hodnocení regionální politiky členských zemí EU, viz tabulka níže s členěním pro Královéhradecký kraj včetně ORP a POÚ, které nejsou v NUTS zahrnuty, ale vykonávají přenesenou působnost, a také ZSJ a KÚ:
|
Územní jednotka |
Kód |
Kódy pro území Královéhradeckého kraje |
|
NUTS 2 – Region soudržnosti |
CZ0x |
CZ05 (Severovýchod) |
|
NUTS 3 – Kraj |
CZ0xx |
CZ052 (Královéhradecký kraj) |
|
LAU 1 – Okres |
CZ0xxx |
CZ0521–CZ0525 (5 okresů) |
|
Obec s rozšířenou působností (ORP) |
5xxx |
5201–5215 (15 ORP) |
|
Obec s pověřeným obecním úřadem (POÚ) |
5xxxx |
52xxx (35 POÚ) |
|
LAU 2 – Obec |
5xxxxx |
5xxxxx (448 obcí) |
|
Základní sídelní jednotka (ZSJ) |
xxxxxx, více o schématu kódu ZSJ zde |
xxxxxx (961 ZSJ) |
|
Katastrální území (KÚ) |
xxxxxx, více o schématu kódu KÚ zde |
xxxxxx (1529 KÚ) |
Pozn.: x značí číselnou hodnotu
Proč je důležité se v tomto číselníku orientovat a tyto kódy ve svých datech používat? Pokud potřebujeme přiřadit konkrétní hodnoty k daným obcím, ale nemáme k nim přiřazen žádný kód, tak můžeme mít problém u obcí, které mají totožný název. V Královéhradeckém kraji se jedná o 4 případy (Borovnice, Lužany, Olešnice, Vrbice). Jen název Borovnice sdílí v ČR 5 obcí ve čtyřech různých krajích.
Základní sídelní jednotka (ZSJ) – je skladebnou součástí sídelní struktury a je určena pro prostorovou identifikaci a sledování sociálně ekonomických a územně technických jevů, přímo vázaných na osídlení, zejména výsledků sčítání lidu, domů a bytů. Otevřenou datovou sadu ZSJ naleznete ke stažení zde.
Český statistický úřad využívá tzv. statistický číselník, který představuje vzestupně či sestupně uspořádanou řadu číselných znaků, písmen či jejich kombinací. Tyto znaky jsou přiřazeny k určitému verbálnímu popisu jevů či procesů se základní společnou charakteristikou. Mezi jednotlivými prvky číselníku neexistuje (ve většině případů, např. výše zmíněné NUTS) jejich nadřazenost či podřízenost. Jejich kompletní přehled naleznete zde.
U některých, zejména otevřených dat se lze setkat s pojmem „implicitní číselník“ a to v případě, že datová sada obsahuje v některých sloupcích hodnoty z nějakého číselníku. Příkladem mohou být sloupce, kde možné hodnoty jsou dány nějakým výčtem. Jedná se tedy o implicitní číselník – nikde není publikován samostatně a existuje jen jako množina hodnot použitých uvnitř jiné datové sady. V tomto případě je vhodné publikovat číselník jako samostatnou datovou sadu s řádnou dokumentací a metadaty. V dokumentaci původní sady by měl být na tuto novou číselníkovou datovou sadu odkaz.
Jaké aplikace se hodí pro práci s daty?
V současné době existuje velké množství aplikací, ve kterých lze zpracovávat data. Některé z nich jsou poskytovány zdarma (Freeware) nebo částečně zdarma (Shareware, Freemium), jiné za pravidelný měsíční/roční poplatek (předplacená licence) či za jednorázový poplatek (doživotní licence). Pokud pro práci potřebujeme intuitivní, bezpečný a pravidelně aktualizovaný software, tak se bohužel placeným aplikacím nevyhneme.
Důležité je rovněž rozlišovat, zda jde o webovou nebo desktopovou aplikaci. Webová aplikace funguje v prostředí internetu, data v ní jsou uložena na tzv. cloudu. Výhodou těchto aplikací je, že není potřeba nic instalovat a přístup k aplikaci je umožněn odkudkoliv, a to ze všech podporovaných zařízení. Data jsou navíc neustále zálohována. Nevýhodou webových aplikací je jejich závislost na připojení k internetu. Naopak desktopovou aplikaci je nutné nainstalovat na harddisk počítače a zpravidla není k jejímu používání potřeba internetové připojení. Nevýhodou desktopových aplikací je ukládání dat z těchto aplikací pouze na lokální disk jednoho konkrétního počítače, a tak je zde velké riziko ztráty dat nebo snížení jejich použitelnosti dalšími uživateli. Ideální postup je takový, kdy kombinujeme více aplikací tak, abychom posílili jejich přednosti a co nejvíce eliminovali jejich slabé stránky. A které aplikace to vlastně jsou nebo by mohly být, si povíme dále.
Microsoft Excel
MS Excel zná každý, kdo někdy pracoval s počítačem. Jedná se o celosvětově nejpoužívanější tabulkový procesor od firmy Microsoft, který je součástí kancelářského balíku Microsoft Office. Lze jej pořídit ve formě trvalé licence (Office 2021) nebo v předplacené variantě Microsoft 365. Výhodou trvalé licence je její přenosnost na jiný počítač nebo uživatele a časová neomezenost. Hlavní nevýhodou je, že ji nelze aktualizovat na novou verzi a je určena pouze pro jednoho uživatele. Výhodou předplacené licence je její neustálá aktuálnost a OneDrive cloudové úložiště. Hlavní nevýhodou je nutnost licenci pravidelně obnovovat za stanovený poplatek na měsíční nebo roční bázi. Navíc není vaším majetkem, jako je tomu u trvalé licence. Alternativou MS Excel je opensourcový LibreOffice Calc z balíku LibreOffice.
|
|
|
Možností, jak pracovat s daty v MS excel a vizualizovat je pomocí grafů, je na první pohled nespočet. Přesto má však jistá specifika a omezení, na které je potřeba si dát pozor. Zejména jde o omezení týkající se celkového počtu řádků a sloupců na listu – 16 384 sloupů na 1 048 576 řádků. Ve starších verzích MS Excel to bylo pouhých 65 536 řádků. Dobrou zprávou je, že na tyto limity běžný uživatel málokdy narazí.
Na internetu lze narazit na velké množství různých návodů. Pro tvorbu grafů se hodí několik základních pouček, čemu bychom se měli vyvarovat. K tomu slouží poslední kapitola tohoto kurzu.
Tip: Přehled užitečných vzorců, které vám usnadní práci s daty, naleznete zde.
Microsoft Power BI
MS Power BI je kolekce softwarových služeb, aplikací a konektorů, které společně dokážou přeměnit nesouvisející zdroje dat na ucelené, vizuálně poutavé a interaktivní přehledy. Základem je Power BI Desktop, což je bezplatná aplikace, kterou můžete nainstalovat na místní počítač a která vám umožňuje připojit se k datům, transformovat je a vizualizovat je. Pomocí ní se můžete připojit k mnoha různým zdrojům dat a zkombinovat je do datového modelu. Tento datový model vám umožní vytvářet vizuály a kolekce vizuálů, které můžete sdílet jako sestavy s dalšími lidmi ve vaší organizaci. Většina uživatelů, kteří pracují na projektech business intelligence, používá Power BI Desktop k vytváření sestav. Ty pak s ostatními uživateli sdílejí pomocí služby Power BI.
Tip: Podrobný návod pro práci s aplikací Power BI Desktop naleznete zde.
Ukázka pracovního prostředí v aplikaci Power BI
Disk Google
Disk Google (anglicky Google Drive) je cloudové úložiště společnosti Google. Zdarma poskytuje až 15 GB úložného prostoru. Prostřednictvím Google Disku můžete vytvářet nejen dotazníkové formuláře (Formuláře Google, angl. Google Forms), ale hlavně online tabulky (Tabulky Google, angl. Google Sheets) Tyto tabulky můžete sdílet s dalšími uživateli. Hodí se např. pro správu pravidelně aktualizovaných dat, které jsou dostupné odkudkoliv ze všech zařízení. K využívání Tabulek Google si stačí zaregistrovat Google účet.
Tip: Podrobný návod pro práci s Tabulkami Google naleznete zde.
Google Data Studio
Google Data Studio (GDS) je bezplatný online nástroj Googlu pro vizualizaci dat ve formě dashboardů. Můžete jej napojit na Tabulky Google či Google Analytics. Ovládání GDS je velmi intuitivní. Pomocí tohoto návodu byl autorem modulu za pár hodin vytvořen dashboard návštěvnosti datového portálu Data KHK, který čerpá z dat Google Analytics.
ArcGIS Desktop
Desktopový GIS je nástrojem pro tvorbu a správu dat a geodatabází umožňující jejich prostorovou analýzu. Celosvětovým lídrem v oblasti desktopového GIS je americká společnost ESRI a její produkty ArcMap a novější ArcGIS Pro využívá většina samospráv a organizací státní správy v ČR. Rozdíl mezi těmito dvěma produkty je markantní, doporučujeme vám využívat zejména ArcGIS Pro. Mezi jeho výhody patří rychlejší běh celého programu včetně geoprocessingu, editace prvků a atributových tabulek za pochodu (není nutné spouště a vypínat editaci jako u ArcMap), možnost nastavit úlohy (tasks) a také uživatelsky přívětivější rozhraní. Jak v ArcGIS Desktop tak v programu QGIS, který je zmíněný níže, můžeme vytvářet jednoduché mapové výstupy, kartogramy i kartodiagramy.
Tip: Na YouTubovém kanále společnosti ARCDATA PRAHA, s.r.o., která je oficiálním distributorem produktů ESRI v ČR, naleznete množství záznamů z webových seminářů, konferencí a workshopů včetně tipů a triků.
Ukázka pracovního prostředí v aplikaci ArcGIS Pro
ArcGIS Online
Aplikace ArcGIS Pro má ještě jednu zajímavou výhodu a tou je možnost její synchronizace s ArcGIS Online, což je nástroj pro publikaci, prohlížení a sdílení dat, interaktivních map a aplikací v prostředí internetu. Jedná se o softwarové řešení formou služby v cloudu, a proto není potřeba nic instalovat. Jeho součástí jsou intuitivní nástroje pro tvorbu a sdílení map a aplikací.
Pokud má vaše organizace platnou maintenance (systémovou podporou), tak automaticky získáváte i ArcGIS Online Subscription a ArcGIS Pro. Pokud však nechcete za ArcGIS Online platit, tak můžete využít Veřejný účet ArcGIS (Public Account). Ten je určený pro nekomerční využití a lze s ním využívat pouze některé funkce ArcGIS Online. Stačí navštívit tuto adresu, kde vyplníte pouze několik údajů.
Ukázka práce s mapou v ArcGIS Online, konkrétně v aplikaci map Viewer
QGIS
QGIS, donedávna znám pod názvem Quantum GIS, je open source multiplatformní GIS. Jedná se o bezplatnou alternativu k ArcGIS Desktop. Jeho výhodou je široká komunita uživatelů a množství zásuvných modulů. Má minimální požadavky na hardware a hodí se jak pro občasné použití, tak pro nejnáročnější aplikace. V aplikaci QGIS lze pracovat s různými formáty vektorových dat. Vektorová data se standardně dělí dle typu geometrie na bodová (sloupy veřejného osvětlení, odpadkové koše, stromy…), liniová (silnice, vodní toky, kanalizace…) a plošná (zastavěné území, lesy, vodní plochy, pole…).
Tip: Velké množství školících materiálů poskytuje zdarma nezávislé sdružení školitelů v oblasti GIS a open source GISMentors.
Ukázka mapového výstupu vytvořeného v aplikaci QGIS, zdroj: GISMentors.cz
Draw.io
Draw.io je open source webová i desktopová aplikace vhodná pro vytváření čitelných vývojových diagramů, schémat či myšlenkových map. Může sloužit jako náhrada SmartArtu v MS Word, MS Excel či MS PowerPoint při hierarchizaci (vize, strategické cíle, specifické cíle, opatření, podopatření, aktivity…) ve strategických plánech či koncepcích rozvoje. Hodí se i pro zpracování tzv. strategických map.
Ukázka tvorby diagramu v aplikaci Draw.io
Online platformy pro vizualizaci dat
Na trhu existuje řada online platforem, pomocí kterých můžete svá data vizualizovat a pomocí tzv. embeddingu vkládat zpracované výstupy a infografiky na své weby se zachováním jejich interaktivity. Většina společností nabízí své produkty formou tzv. Freemium modelu, při němž je základní produkt nebo služba poskytována zdarma, ale za další funkce je nutné platit pravidelný poplatek (měsíčně, čtvrtletně, ročně…). Z online Freemium aplikací lze zmínit:
Zajímavou alternativou k výše uvedeným produktům je open source platforma RAWGraphs. Vytvořené grafy lze exportovat do formátu SVG.
