V době, kdy píší tento článek, zbývá do zahájení voleb několik hodin. V této situaci mi nezbývá příliš mnoho času na líčení příběhu vedoucího ke vzniku tohoto, tak trochu soukromého „truc projektu“. A to je možná dobrě, za datové analytiky by měla spíše hovořit zajímavá data, grafy a statistiky. Pojďme se rychle podívat, co nám přináší předvolební sociální sítě…

Poznámka: následující analýza není průzkumem volebních preferencí. Vznikala jako osobní projekt a nebyla nikým placena. Nebudu také tvrdit, že následující přehled je naprosto objektivní a jediný možný – analýze jsem věnovali pouze omezené prostředky – na celou analýzu jsem si vyhradil pouze 30 pracovních hodin.

Zdroje dat a zvolená metodika

Jako výchozí zdroj údajů pro analýzu jsem zvolil export dat ze systému SentiOne. Tento mezinárodní systém již několik let monitoruje evropský internet a nabízí aplikační platformu založenou na nejkomplexnější databází dat ze sociálních sítí  (Facebook, Twitter, Google+) a navíc monitoruje ještě: diskuzní fóra, články i diskuze pod články, produktové recenze, YouTube a Instagram.

Za výchozí období jsem zvolil osm kompletních předvolebních týdnů (Po-Ne) v období od 21.8. do 15.10.2017. V tomto časovém  úseku jsem v systému nalezl 1 750 106 zmínek týkajících se široce definovaných voleb a politických stran. Vybral jsem tisíc náhodných zmínek, roztřídil je a sestavil k nim logické podmínky tak, abych zachytil alespoň 95% relevantních zmínek – tak vznikly komplexní třídicí dotazy zachycující zmínky přiřaditelné k deseti politickým stranám. Spuštěním dotazů jsem dospěl k následujícímu souboru dat:

Téma je evidentně velmi frekventované, do databáze jsem načetl cca 890 000 zmínek (zmínka /mention je diskuzní příspěvek). Pro analýzu převládající nálady (odborný termín: sentimentu) bylo ještě třeba označit zmínky, které se týkají pouze jedné strany (vyloučení rekombinací) – důvodem je zvýšení přesnosti automatické detekce sentimentu (pozitivní-neutrální-negativní) ve vztahu ke zkoumaným politickým stranám. Dále jsem mezi autory ručně označil vlastní profily stran a hnutí.

První data – průzkum terénu

Pozitivní a neutrální zmínky – průběh v čase

Zvlnění u tohoto grafu je typické – zmínky běžně reagují na každou událost (debaty, článek v mediích, aféra, odhalení, u sportu np. zápas – jako analytik pak mohu každý vrchol otevřít a zjistit, co se tehdy řešilo). Přesto mě předchozí graf poměrně překvapil – strmě rostoucí trend zmínek týkajících se hnutí SPD Tomio Okamury jsem nečekal. Jedná se při tom o neutrální a pozitivní zmínky!

Negativní zmínky

Graf negativních zmínek vedou v součtu následující strany: ANO, SPD a ČSSD. To se tak trochu dalo čekat. Překvapivý je pouze trend klesající popularity ČSSD (čísla jsou absolutní).

Volby? Určitě tam bude spousta placených diskutujících…

S původními daty bychom mohli pokračovat ještě dlouho, ale rozhodli jsme se do nich ještě „říznout“ a podívat se, jak je to s dnes tak běžným „bombardováním a tapetováním sociálních sítí„. Za bombardování považujeme neúměrné zasypávaní sociálních sítí příspěvky, tapetování je podobná činnost doprovázená kopírováním zmínek systémem Ctrl-C / Ctrl-V.

Nehodlám a nechci spekulovat kdo je v následující části analýzy „fanda“, kdo „troll“ a co jsou domnělé posty placených diskutujících (zejména v emočně vypjatém předvolebním období). Bez náročné časové a frekvenční analýzy jsou indicie pro kvalitní roztřídění poměrně slabé. Tak snad příští volby – rád bych na to vytrénoval neuronovou síť a pokusil se o hlubší pohled na stále častější trend ovlivňování diskuzí na sociálních sítích.

Profil autora: strana ODS vs náhodně vybraný „bomber / tapetovač“

Níže uvedu příklad dvoů profilů – musím podotknout, že analýza se týkala výhradně volebního období, další dotazy do celkové databáze zmínek by přinesly vyšší čísla:

Sloupec mood indikuje náladu, mentions jsou počty zmínek. LV_index (interní LOVE index) a HT_index (HATE index) je: převládající nálada násobená počtem zmínek. Technická poznámka: tato tabulka nevypovídá nic konkrétního ani o ODS ani o ANO, jen ilustruje, jak systém citlivě indikuje směr a charakter vedení debaty.

V tabulce vidíte, že profil ODS má pochopitelnou pozitivní afinitu k ODS, a pouze mírný „hate“ směřuje ke KSČM. Profil s id 234272653 (důsledně anonymizováno – účelem výzkumu jsou pouze statistická data) je nejspíše příznivcem ANO (zde mood -6% je v reálu „mírná chvála“) a zároveň výrazným kritikem ČSSD a TOP 09 (mood -22%, -23%). Počet zmínek tohoto konkrétního profilu je ve zkoumaném období 1130, přičemž 511 postů zmiňuje hnutí ANO.

V souhrnném souboru autorů zmínek to vypadá následovně:

Bombardérů / tapetovačů má každý subjekt různý počet – někdy je to více (SPD, ANO), jindy zase méně (SZ). Zevrubná analýza by byla časově náročná – profily tohoto typu se špatně řadí ke konkrétním stranám – zejména kritičtí, negativní bombeři. V této souvislosti neopomenu poznámku: ne každý názor, který čtete na sociálních sítích je autentický. Občas čtete obsah generovaný zkušeným „kobercovým bombardérem“ 😀

Podíl hromadných posterů na celkovém množstvi zmínek

Zkusil jsem změřit, jaký podíl obsahu v našem vzorku tvoří „bombeři“, a kolik obsahu je generováno menšími profily. Limit jsem v tomto případě nastavil na maximum 12 příspěvků ve zkoumaném období dvou týdnů:

LOVE – neutrální a pozitivní zmínky

Ve výsledném grafu je vidět výrazná korekce u pozitivních a neutrálních zmínek u některých stran. Ve všech případech více dat generují oficiální kanály a hromadní posteři 🙂

HATE – negativní zmínky

Ano – jak je vidět, sociální sítě se evidentně tapetují jak pozitivně, tak i negativně. Poznámka: všimněte si, že měřítko tohoto grafu se od předchozího liší.

Další zpřesnění – nastavme limit na autory s pouze jedinou zmínkou

V tomto okamžiku začínáme vlastně od začátku – nový model jeden autor/jedná zmínka vyzdvihuje drobné hlasy. Výhodou ale je, že se takto nepatrné profily prakticky nevyplácí „fejkovat“ ani manipulovat. Pravda, odfiltrování autorů s více zmínkami je radikální tah (přišli jsme o značnou část dat) – stále však máme k dispozici desetitisíce relevantních zmínek!

Unikáti – změna témat a nálady v čase

Předchozí graf ukazuje nárůsty zmínek v období září-říjen. Barvy reprezentují sentiment, sloupce zase počet zmínek. Je evidentní, že výrazný náskok ANO poněkud polevuje. Níže uvádíme obdobný graf  reprezentující stejnou změnu diskurzu (časová lupa je v tomto případě nastavená na 14 dní):

Stačilo několik týdnů a situace vypadá v diskuzích zcela jinak! Jako datový analytik jsem rád, že sociální sítě tak rychle reaguji na nálady ve společnosti. Všimněte si následného nástupů Pirátů. SPD byla už tehdy na internetu slyšet, zatímco za černého koně byla medii označována až v říjnu…

Kombinovaný graf – nálada vůči stranám a hnutím

Jelikož volby vyvolávají pozitivní i negativní pocity, sestavil jsem graf, kde proti neutrálním a kladně tónovaným zmínkám (NEUTRAL + POSITIVE) stavím negativní (sentiment NEGATIVE). Následný graf reflektuje náladu a frekvenci zmínek na sociálních sítích:

Pohledem na graf si nejspíše odvodíte, že přesně tímto způsobem současné volby nejspíše nedopadnou (na Internetu chybí 1/3 voličů) – sloupce proto záměrně nechávám bez procentuálních hodnot. Internet však bývá dobrým indikátorem procesů pomalu bublajících pod povrchem:

Věcné poznámky:

  1. překvapuje vysoký potenciál SPD: i po aplikovaném „anti-tapetovacím“ filtru, kdy se počítají zmínky autorů s jedinou zmínkou v období 14 dní,
  2. projeví se u SPD efekt sněhové koule – efekt velkého objemu ale slabé síly, který je častěji k vidění v průběhu mediálních krizí (viz. palmový olej v potravinách)?
  3. u ANO je ve zmínkách vidět naděje a očekávání, a to nezávisle na vznášených obviněních (doufám, že pan Babiš…),
  4. u ČSSD se počet negativních zmínek blíží součtu zmínek neutrálních a negativních (indikuje nízký podíl pozitivních zmínek vážný problém?),
  5. ČSSD a TOP09 potáhne dolů negativní nálada plná emocí, u ANO je negativní sentiment „slabší“ – je spíše rozumového a argumentačního typu.

Popularita stran a hnutí – poměr jednotlivých sentimentů

I zde je vidět evidentní problém ČSSD (v 44% zmínek je negativní sentiment):

Nelíbí se Vám prezentované analýzy? Běžte prosím volit!

Možná budete čekat, že v posledním odstavci odhalím obrovské spiknutí. Že vyvodím radikální závěry. Nic takového se ale nestane. Moje přání a osobní preference zde nahrají žádnou roli, navíc v této záležitosti jsem pouhým poslem. A i když si přeji, aby mé analýzy v maximální míře „vycházely“ – tentokrát se naznačeného trendu poněkud obávám…

P.S. Nakonec bych chtěl poděkovat společnosti SentiOne za poskytnutá data.