Jak se v médiích referuje o koronaviru: wordcloudy nejčastěji se vyskytujících slov ve zpravodajství a publicistice o onemocnění COVID-19

14. 12. 2020

V projektu COVID-19 infodemie chceme za pomoci strojového učení a umělé inteligence vytvořit platformu, která by měla pomoci snížit míru infodemie, tedy nadměrného šíření zavádějících informací, které činí pandemie a epidemie nepřehlednými a znesnadňují dosažení správného řešení. Pro začátek jsme se rozhodli s pomocí nástrojů strojového učení zmapovat výskyt slov ve zpravodajství o onemocnění COVID-19, obecněji pak o novém typu koronaviru, s rozlišením různých typů českých médií, a to jak technologicky, tak obsahově. Právě identifikace odlišných použitých výrazů a pojmů, které mohou přispívat k potenciálu zprávy více se šířit a případně i podněcovat paniku, je klíčová pro další kroky našeho výzkumu směřujícího k vytvoření platformy zaměřené na rozpoznávání dezinformací souvisejících s jakoukoliv epidemií.

Korpus mediálního monitoringu společnosti NEWTON Media týkající se problematiky COVID-19 obsahuje k 31. 10. 2020 1 153 999 zpráv. Dotazem na označení mediálních zdrojů lze určit, že zprávy pocházejí z 3392 různých mediálních zdrojů. Analyzovali jsme jak celek, tak jsme ze všech zdrojů vybrali 358 a vytvořili z nich 7 shluků se specifickou charakteristikou mediálního typu:

celostátní a regionální deníky včetně jejich webů (bez bulvárních deníků)
hlavní bulvární tištěná média a hlavní bulvární weby
komerční televize a jejich weby
hlavní ekonomická média a weby
komerční rádia a jejich weby
zpravodajské časopisy a jejich weby
veřejnoprávní média a jejich weby

Rozdělení jsme provedli na základě předvýzkumu a generování wordcloudů pro jednotlivá média z korpusu mediálního monitoringu NEWTON Media, kdy se ukázalo, že tituly obsažené v jednotlivých skupinách představených výše, vykazují velmi podobné použití slovníku, a pro zjednodušení je tedy prezentujeme společně. Z wordcloudů jsme vyřadili všechny tvary slova koronavirus, které přirozeně cloudům vzhledem k tématu zpráv dominovaly a ubíraly prostor slovům s tímto zpravodajstvím souvisejícím, která nás zajímala především (více o metodě viz druhá část textu).

Jak je zřejmé z obrázku 1, zpravodajství o onemocnění COVID-19 v celkovém analyzovaném zpravodajském vzorku dominovala v období od ledna do října 2020 slova opatření, nakažených, případů, zdravotnictví, počet, vláda, nákazy, tisíc. Slova se v čase měnila podle vývoje pandemie i typu médií. Vzhledem k tomu, že nejzásadnější z hlediska běžného života obyvatel byla medializace různých typů opatření (s nimiž přicházela vláda, zejména ministři zdravotnictví, zároveň zdravotnictví a kapacita nemocnic byly dalším často zmiňovaným tématem), která se neustále připravovala i dynamicky proměňovala, takže byla dlouhodobě středem pozornosti, stejně jako počty nakažených. Významné místo zaujímá zejména na jaře, kdy byly symbolem solidarity, slovo roušky. Diskuze o dopadu na ekonomiku ilustrují číslovky a slovo korun.

Otevřít kompletní analýzu

Související odkazy:

Otevřít kompletní analýzu

Obrázek 1. Wordcloud ze slov použitých ve zpravodajství všech monitorovaných médií o onemocnění COVID-19 v období 1. 12. 2019 – 31. 10. 2020

14. 12. 2020 | Autoři: Alice Němcová Tejkalová, Radek Mařík, Václav Moravec, Veronika Macková, Victoria Nainová