@sejm_watch – o czym ćwierkają wróbelki w Sejmie
Polityka to obszar pełen emocji i nieporozumień. Zatem dlaczego by nie spojrzeć na nią poprzez dane, przetłumaczyć pracę Sejmu i emocje zawarte w politycznym dyskursie na liczby i wykresy? Podzielę się z Wami moim najnowszym projektem – @sejm_watch – to bot, który pobiera dane z witryny Sejmu i tweet’uje infografiki.
Dane
Obszar wykonywanych przez posłów zadań w Sejmie jest bardzo szeroki, musiałem jednak wybrać dane reprezentujące te zadania, które będą kluczowe w analizie.
- przynależność partyjna, wiek, itp.
- przemowy podczas posiedzeń sejmowych – aby zobaczyć jak i o czym mówią,
- głosowania – jak głosują,
- interpelacje i zapytania poselskie – co jest ważne dla posłów.
Dane pochodzą ze strony Sejmu, przemowy i głosowania ze stenogramów sejmowych, a treść interpelacji z sekcji im właśnie poświęconej. Bot codziennie się aktualizuje, pobierając nowe dane ze wspomnianej strony.
Kolejnym ważnym obszarem są social media. Wybrałem Twittera, głównie z powodu dużej ilości posłanek i posłów tam obecnych. Ale również z powodu dostępnego i bardzo przyjaznego API. Ponownie, bot zbiera dane tweet’ów, wzmianek i inne statystyki każdego dnia.
Infografiki
Skoro mamy dane – czas na analizę i prezentację, mam nadzieję, że miłą dla oczu. @sejm_watch produkuje 5 różnych infografik (1 każdego dnia, 1 w każdy poniedziałek i 3 zależne od wydarzenia).
Urodziny posłanek/posłów
2 lub 3 tablice generują się jako prezent na urodziny posłanki lub posła. Pierwsza z nich opisuje aktywność sejmową:
- wiek i jego porównianie do rozkładu wieku wśród wszystkich posłów i posłanek, przynależność partyjną, a także listę komisji w których pracuje solenizant,
- % udział w głosowaniach, jak również % zgodność w głosowaniach w stosunku do głosowania większości macierzystej partii,
- sumę słów wypowiedzianych w Sejmie, w widoku miesięcznym.

W tekście tweeta, który towarzyszy tablicy znajduje się również ilość interpelacji i zapytań poselskich złożonych w ostatnich 12 miesiącach. Reasumując, tweet i tablica uwidaczniają jak ciężko poseł pracował w Sejmie.
Kolejna tablica obrazuje treść wypowiedzi sejmowych i interpelacji/zapytań poselskich. Oba obszary zaprezentowane jako chmura najbardziej popularnych bi-gramów. Twitterowe chmury pokazują najczęściej używane hashtagi i wzmianki w postach własnych i retweetach, a także najpopularniejsze hashtagi użyte w postach innych użytkowników wzmiankujących solenizanta. W rezultacie, możemy poznać na czym zależy posłom i posłankom, z kim się komunikują, a także co inni piszą o nich.

Trzecia i ostatnia urodzinowa infografika jest generowana tylko dla parlamentarzystów, którzy posiadają konto na Twitterze. Pokazuje kilka ciekawych faktów takich jak prędkość wypowiedzi w Sejmie (w słowach na minutę), ile razy byli oklaskiwani, a także średni czas który spędzają na Twitterze każdego dnia. Co ważniejsze, tablica pokazuje również czy przekaz posłanki/posła jest pozytywny czy negatywny, a także czy dąży do konfrontacji podczas posiedzeń sejmowych.

Do oszacowania wydźwięku wypowiedzi wykorzystałem tę listę czasowników konotujących pozytywnie lub negatywnie. Słowa są najpierw poddane lematyzacji poprzez bibliotekę Morfeusz, później analizowane w następujący sposób:
- Pozytywna konotacja jest przypisywana czasownikowi tylko jeśli ten w oryginalnej formie jest w pierwszej osobie liczby pojedynczej lub mnogiej (my lubimy, ja kocham, itd.)
- Negatywna konotacja jest przypisywana czasownikowi tylko jeśli ten w oryginalnej formie jest w drugiej lub trzeciej osobie liczby pojedynczej lub mnogiej (wy niszczycie, on irytuje, itd.)
Dzienna i tygodniowa aktywność na Twitterze
Poza podsumowaniami przygotowywanymi dla parlamentarzystów w dniu ich urodzin, chciałem również zobaczyć zestawienie na temat całej grupy posłanek i posłów. O czym ćwierkają każdego dnia? Kto zyskuje na popularności? Czy można zauważyć spójną, partyjną agendę, którą przekazują poprzez to medium społecznościowe?
Poniższe podsumowanie jest zamieszczane każdego dnia. Pokazuje najpopularniejsze trendy z dnia poprzedniego. W Sejmie mamy 2 główne partie, które razem zajmują ponad 83% miejsc, stąd przekaz mniejszych partii jest mniej widoczny. Mimo to zdarzają się przypadki posłów/posłanek mniejszych partii, trafiających do top 3 lubianych lub retweetowanych. Grafika obrazuje co jest obecnie na topie wśród parlamentarzystów.

Ostatnia tablica jest zamieszczana co tydzień, w każdy poniedziałek. Pokazuje czy i jaka jest agenda wdrażana przez posłów i posłanki. Widać tematy dnia i tygodnia, a także jak dobrze jest utrzymywana dyscyplina medialna w ramach partii. Pozostała część grafiki zawiera największe wzrosty i spadki w liczbie followersów.

@sejm_watch – co dalej?
@sejm_watch w dalszym ciągu będzie pobierał dane z witryny Sejmu i Twittera, a także każdego dnia tweetował. W międzyczasie, prawdopodobnie podzielę się dodatkowymi analizami opartymi na danych, które zebrał.
Jeśli masz pomysł na dodatkową analizę, podsumowanie lub wiesz jakie dane uzupełniłyby te wspomniane tutaj – daj proszę znać. Bardzo chętnię dodam funkcjonalności które rozszerzą lub podniosą jakość przekazywanych informacji!
Materiały i inspiracje
- @sejm_watch – profil na Twitterze
- SmarterPoland.pl and MamPrawoWiedziec.pl – znalazłem u nich podobną analizę – zainsparowało mnie to do dodania do @sejm_watch wypowiedzi z mównicy vs. wypowiedzi z sali (wtrącenia)
- AnalitykaSuwerena – bardzo ciekawe analizy, zainspirowały mnie do analizy sentymentu czasowników,
- The Linguistic Category Model in Polish (LCM-PL) – lista polskich czasowników z przypisanym pozytywnym/negatywnym wydźwiękiem,
- Morfeusz – bardzo użyteczny do zastosowania w NLP, lematyzacji, text miningu w języku polskim