
DOI: 10.11118/978-80-7509-898-6-0020
Daty podložené omyly
- Ondřej Vencálek
V březnu roku 2021, stejně jako o rok dříve – v březnu 2020, prožívali občané České republiky tzv. lockdown, jehož zavedení se v obou případech opíralo o analýzu dat. Těžko si představit přesvědčivější doklad prostého tvrzení, že analýza dat významně ovlivňuje náš každodenní život. Jak moc je analýza dat součástí našeho každodenního života snad běžně ani nevnímáme. A přece, spamové filtry v našem emailovém prohlížeči, záhadní permoníci – tzv. recommender systems (https://en.wikipedia.org/wiki/ Recommender_system) – kteří odkudsi vykutají a zobrazí nám nabídku produktů (třeba knih), která jako by nám byla na míru ušitá, či jen „obyčejná“ předpověď počasí, to jsou jen namátkově vybrané příklady výsledků analýzy dat, se kterými se setkáváme takřka denně. Čtenáři, který by si chtěl o pestrosti použití analýzy dat v běžném životě udělat lepší představu lze doporučit populárně-naučné publikace Jeffreyho S. Rosenthala či Natea Silvera. Prostřednictvím analýzy dat hledáme odpovědi na otázky, které nás zajímají. Jaké jsou to otázky ve výše uvedených příkladech využití analýzy dat? Poskytovatele emailových služeb zajímá, jestli příchozí email je obtěžující spam, který by měl být smazán, nebo důležitá zpráva, která naopak smazána být nesmí. Obdchodníka s knihami zajímá, kterou knihu má zákazníkovi nabídnout, aby jej nabídka zaujala. A konečně velké množství lidí zajímá, jaké bude v nejbližší době počasí, aby podle této předpovědi vhodně upravili svůj oděv (aby se tzv. přioblékli, bude-li chladněji) či dokonce program. Ačkoliv analýza dat hraje v dnešní době důležitou roli, je třeba si neustále připomínat, že proces získávání znalostí na základě analýzy dat má svá úskalí. Je třeba být neustále ve střehu – omylům a chybám se často bohužel nevyhnou ani profesionální datoví analytici, natož poučení laici, kteří dnes mají k dispozici celou řadu softwarových nástrojů pro nejrůznější analýzy.
stránky: 20-29, online: 2022
Reference
- Bazalová, A. Jenom lockdowny virus nezastaví. Reflex, č. 12, roč. 2021, str. 9-11.
- Holub, P. Hamáčkova předpověď o 20 tisících nakažených nevyšla. Proč? [online]. 11.3.2021 [cit. 2.11.2021]. Dostupné z:8 . (https://www.seznamzpravy.cz/clanek/hamackova-predpoved-o-20-tisicich-nakazenych-nevysla-proc-146362)
- Kahneman, D. Myšlení: rychlé a pomalé. Brno: Jan Melvil, 2012. Pod povrchem. ISBN 978-80-87270-42-4.
- Kubal, M., Gibiš, V. Pandemie. Praha: Kniha Zlín, 2020. ISBN 978-80-7662-047-6.
- Rosenthal, J. S. Zasažen bleskem: podivuhodný svět pravděpodobností. Praha: Academia, 2008. Galileo. ISBN 978-80-200-1645-4.
- Silver, N. Signál a šum: mnoho předpovědí selže, některé ne. Praha: Paseka, 2014. ISBN 978-80-7432-440-6.
- Šmíd, M. et al. SEIR Filter: A Stochastic Model of Epidemics. medRxiv, 2021. Dostupné z doi: 10.1101/2021.02.16.21251834
Přejít k původnímu zdroji...
- Šmíd, M. Ještě o Hamáčkově předpovědi... [online]. 12.3.2021 [cit. 2.11.2021]. Dostupné z: https://www.bisop.eu/jeste-o-hamackove-predpovedi/
- Wickham, H., François, R., Henry, L., Müller, K. (2021). dplyr: A Grammar of Data Manipulation. R package version 1.0.7. https://CRAN.R-project.org/package=dplyr
Přejít k původnímu zdroji...
- Wickham, H. (2021). tidyr: Tidy Messy Data. R package version 1.1.4. https://CRAN.R-project.org/package=tidyr
- Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016. ISBN 978-3-319-24277-4.
Přejít k původnímu zdroji...