Kto wygra wybory? Google prognozuje [aktualizacja 2]

[Aktualizacja 6.10.2011: Kto wygra wybory parlamentarne 2011? ]
Google zna ludzkie intencje, bo wie czego szukamy. Wie zatem, który kandydat budzi większe zainteresowanie internautów (mierzone liczbą zapytań o jego nazwisko). Kaczyński, Komorowski, a może jeszcze ktoś inny? Czy na podstawie natężenia zapytań o nazwiska kandydatów można miarodajnie przewidzieć wyniki wyborów? Spróbujmy przewidzieć wyniki wyborów prezydenckich 2010 (na razie napiszę tylko, że sondaże się mylą!), a przy okazji nauczmy się wykorzystywać statystyki wyszukiwarki Google.
Dociekania opierać będziemy przede wszystkim na danych dostarczanych przez Google za pośrednictwem narzędzia Google Insights for Search (Google Statystyki Wyszukiwarki). Narzędzie powie ci m.in. jak często internauci pytali Google o wskazane przez ciebie frazy (zapytania). Pokaże natężenie wskazanych przez ciebie zapytań na przestrzeni czasu i umożliwi porównanie takich trendów dla kilku fraz. Poniżej wyjaśniam to na przykładach.
Jak używać Statystyk Wyszukiwarki
Zapytaliśmy Google o to, jak często internauci wpisywali do wyszukiwarki nazwiska kandydatów w wyborach prezydenckich (między 19 maja a 15 czerwca). Google odpowiedział wykresem:
(kliknij w wykres aby powiększyć)
Co ten wykres właściwie pokazuje, a czego nie pokazuje? Mała sesja pytań i odpowiedzi:
Pytanie: O kogo internauci pytali częściej? O Kaczyńskiego, czy Komorowskiego?
Odpowiedź: O Komorowskiego.
Pytanie: Taaak? To ile było zapytań o Komorowskiego, a ile o Kaczyńskiego?
Odpowiedź: Nie wiadomo.
Pytanie:To co wiadomo?
Odpowiedź:Wiadomo tylko o ile częściej pytano o jednego niż o drugiego.
Pytanie:W takim razie o ile częściej pytano o Komorowskiego?
Odpowiedź: Zależy kiedy: np. 14 czerwca na każde 100 pytań o Komorowskiego przypadało 79 pytań o Kaczyńskiego.
Pytanie: Zainteresowanie Komorowskim rośnie, czy maleje?
Odpowiedź: Rośnie. Np. na każde 58 zapytań o Komorowskiego 7 czerwca, tydzień później przypadało już 100 zapytań (to wyjaśnienie jest nieco nieścisłe, ale do naszych celów zupełnie wystarczające).
Pytanie: To co w takim razie oznaczają te wszystkie cyfry na wykresie?
Odpowiedź: Wszystkie punkty tego wykresu mają przypisaną wartość, w zakresie od 0 do 100. Najwyższemu punktowi (największej liczbie zapytań) przypisuje się wartość 100, a pozostałym punktom przelicza się wartości proporcjonalnie. Wyobraźmy sobie, że interesują nas zbiory owoców. Szczyt zapytań o owoce przypada w święto sadownika, np. 15 sierpnia. Tego dnia
internauci pytali 500 razy o jabłka i 400 razy o gruszki. Zatem linia oznaczająca pytania o jabłka osiąga 15 sierpnia wartość=100, a linia oznaczająca gruszki wartość=80. Następnego dnia zainteresowanie jabłkami było już niższe, tylko 300 zapytań. Linia oznaczająca jabłka będzie więc linią opadającą – do wartości=60.
Wróćmy do naszego wykresu. Jak uzyskać go samemu? Wejść na witrynę Statystyk Wyszukiwarki i zapytać o trendy dla wydanych na terenie Polski zapytań o „kaczyński + kaczynski -lech” (zliczamy zapytania o „kaczyński” lub „kaczynski”, ale bez zapytań, w których wystąpiło słowo „lech”), „komorowski”, „napieralski”, „jurek”, „pawlak” za okres od 19 maja do 15 czerwca (niestety, nie da się uzyskać danych dla bieżącego i dwóch poprzednich dni).
Komorowski prowadzi
Z wykresu wynika, że zainteresowanie Komorowskim jest w ostatnich dniach o ok. 20% wyższe, niż zainteresowanie Kaczyńskim. Czy to oznacza, że Komorowski będzie prezydentem?
A czy natężenie zapytań o nazwiska kandydatów jest w ogóle miarodajne? Przyjrzyjmy się temu:
Google nie umie prognozować wyników wyborów!
Jest wiele teoretycznych powodów, dla których przekładalność wolumenu zapytań o nazwisko kandydata na jego wyborczy wynik powinna być traktowana z dystansem.
Po pierwsze, Google zbiera intencje wyłącznie internautów, a internauci nie są reprezentatywną próbką polskiego społeczeństwa. Wiadomo, jesteśmy młodsi, lepiej wykształceni i mieszkamy w większych miastach niż statystyczny wyborca. Część internautów może w ogóle nie być uprawniona do głosowania (niepełnoletni, rezydenci bez polskiego obywatelstwa).
Po drugie, zliczanie zapytań kierowanych do wyszukiwarki nie rządzi się prawami analogicznymi do reguł ordynacji wyborczej. Z oczywistych względów wyszukiwarki nie uwzględniają zasady „równości głosowania”, tzn. pozwalają „oddać więcej niż jeden głos”. Co gorsza, pozwalają oddać wiele „głosów” na różnych kandydatów jednocześnie.
Po trzecie, internauta wpisujący w wyszukiwarkę nazwisko kandydata może robić to z każdego ze 100 możliwych powodów. Może słyszał na mieście złośliwą plotkę o nielubianym kandydacie i chce poczytać więcej? A może waha się między poparciem kandydata X i kandydata Y i chce sprawdzić programy obydwu? A może nowy chłopak jego córki nosi nazwisko takie jak jeden z kandydatów: kto zacz? nakazać córce powrót przed dobranocką, czy odpuścić i wyznaczyć powrót na 21:00? A może, a może…
Po czwarte, Google pokazuje trendy zainteresowania kandydatami, ale są to trendy z przeszłości. Nawet nie teraźniejsze (opóźnienie w wyświetlaniu danych wynosi, jak już pisałem, 3 dni. W dniu wyborów (niedziela) najświeższe dostępne dane będą pochodzić z wczoraj (czwartek, niniejszy tekst piszę w piątek). O przewidywaniu przyszłości nie wspominając. W świecie polityki 3 dni opóźnienia to czas, w którym można wyciągnąć co najmniej kilku dziadków z Wehrmachtu, SB-cką teczkę, czy w ostateczności Annę Jarucką. Być może sztabowcy któregoś kandydata organizują właśnie „kontrolowany przeciek”, który wywróci do góry nogami trendy z wyszukiwarki.
Google umie prognozować wyniki wyborów!
Jest jeden empiryczny powód, dla których prognozowanie wyników wyborów na podstawie statystyk Google jest rozsądne. Takie prognozy w przeszłości wielokrotnie się sprawdzały.
Sprawdziły się m.in. w odniesieniu do wyborów parlamentarnych w Polsce 2007, niedawnych wyborach parlamentarnych w Wielkiej Brytanii, wyborach prezydenckich w USA w 2008 roku.
Choć więc wpisanie do wyszukiwarki nazwiska kandydata nie jest równoznaczne z chęcią zagłosowania na niego, korelacja między jednym i drugim może okazać się wystarczająco wysoka.
Kto wygra wybory prezydenckie 2010?
Zastrzegając, że to zabawa, że polityka jest nieprzewidywalna i że dane są zbyt kiepskiej jakości, odważę się napisać, że:
- Google bardzo przeszacowuje wynik Napieralskiego. W rzeczywistości dałbym mu sondażowe 9%,
- sondaże mocno przeszacowują wynik Komorowskiego i niedoszacowują Kaczyńskiego. Ze statystyk wyszukiwarki wynika, że Kaczyński skraca dystans do Komorowskiego, a tendencja ta będzie się wg mnie utrzymywać aż do dnia wyborów. W konsekwencji Komorowski wygra stosunkowo niedużą różnicą głosów i potrzebna będzie II tura.
Mój typ to 43% – 39%.
A jakie są wasze typy? Piszcie!
Aktualizacja – Wybory prezydenckie 2010 – przed drugą turą
Upłynęły dwa tygodnie od przewidywań przed pierwszą turą wyborów prezydenckich. Jak wygląda sytuacja przed turą drugą, decydującą?
Tak wygląda najświeższy wykres pokazujący natężenie zapytań o nazwiska obu kandydatów (3 czerwca – 30 czerwca):

Jak widać, najwyższym punktem wykresu są zapytania o Bronisława Komorowskiego w dniu wyborów. Tak duży wzrost zainteresowania zawdzięcza kandydat przede wszystkim 4 godzinom (między końcem ciszy wyborczej – godziną 20:00 – kiedy ogłoszono pierwsze sondaże, a północą) kiedy cieszył się ze zwycięstwa. Już następnego dnia zainteresowanie oboma kandydatami znacznie zmalało, a już od wtorku zapytania o Jarosława Kaczyńskiego zdarzały się częściej, niż o Komorowskiego. Taki trend utrzymał się aż do niedzieli, kiedy miejsce miała pierwsza z debat prezydenckich. W powszechnej opinii komentatorów, jej zwycięzcą był Bronisław Komorowski, który w niedzielę zrównał się z przeciwnikiem w zakresie zainteresowania internautów. W kolejnych dniach, aż do środy, widać było nieznaczną przewagę zapytań o Komorowskiego, tak jednak nieznaczną, że chyba nieznaczącą. Linie obrazujące zainteresowanie oboma kandydatami są w tym okresie praktycznie równoległe – jak jednemu spadało, to drugiemu podobnie; jak jednemu rosło, to drugiemu też i o tyle samo.
Jak na przebieg kampanii wpłynęły debaty prezydenckie? Czy kandydatom udało się „wrzucić” do kampanijnego dyskursu jakiś nowy wątek, zawładnąć umysłami wyborców wystarczająco mocno by zaangażować ich do samodzielnego rozszerzania tematu przy użyciu wyszukiwarki?
Wynotowałem najbardziej rzucające się w oczy elementy pierwszej debaty, a następnie sprawdziłem w Google Insights for Search jak kształtowało się natężenie zainteresowania odpowiednimi frazami.
in vitro
małżeństwa homoseksualne
przywileje emerytalne
gaz łupkowy
katastrofa smoleńska
polityka wschodnia
białoruś
g20
Miedwiediew
joanna lichocka
monika olejnik
Wyobraźnią i ciekawością telewidzów zawładnęły tylko niektóre z tych haseł. Oto wykres (przypominam, że debata odbyła się 27 czerwca, w niedzielę):

Jak widać, największe zainteresowanie zyskała wspominana przez Jarosława Kaczyńskiego grupa G20, skupiająca (w teorii) 20 najbogatszych państw świata. W górę poszło także zainteresowaniem „gazem łupkowym”, istnienie dużych złóż którego podejrzewa się w Polsce, co ma z nas uczynić „drugą Norwegię”. Wzrost zanotowała też fraza „in vitro”, warto jednak zauważyć, że zainteresowanie tą frazą podlega znacznym fluktuacjom i niedzielny wzrost nie przewyższa znacząco średniego natężenia zapytań. Nieznaczny wzrost zapytań odnotowaliśmy dla słowa „białoruś”, choć, co charakterystyczne, raczej następnego dnia po debacie, niż w jej dniu. Prawdopodobnie zatem internauci nie uznali poglądów Jarosława Kaczyńskiego w sprawie Białorusi za bulwersujące, a sprawą zaczęli interesować się następnego dnia, gdy słowo to padało często z ust komentatorów. Cichym bohaterem tego zestawienia jest jedna z prowadzących debatę, Joanna Lichocka, której nazwisko wyszło w niedzielę „z niebytu” i od tego czasu utrzymuje się na powierzchni. Wzrost zainteresowania Moniką Olejnik był co prawda w niedzielę znacznie większy, jednak jest to rozpoznawalne nazwisko.
Internauci nie wykazali szczególnego zainteresowania pozostałymi hasłami z listy. Tak wygląda np. wykres dla frazy „katastrofa smoleńska”:

Dla pozostałych wymienionych fraz („małżeństwa homoseksualne”, „przywileje emerytalne”, „polityka wschodnia”, „Miedwiediew” Google zgłosił „zbyt mało danych” by pokazać trendy.
Można się zastanawiać dlaczego zainteresowanie wzbudziły tylko niektóre z wymienionych fraz. Przecież „przywileje emerytalne” to temat bezpośrednio dotykający wieluset tysięcy ludzi, a pośrednio ich rodzin. Małżeństwa homoseksualne to z kolei temat bardzo gorący, budzący duże emocje. Wygląda więc na to, że motywacją dużej części internautów było – po prostu - sprawdzenie definicji słabo znanych pojęć („g20″, „in vitro”, „gaz łupkowy”).
Widać wyraźnie, że także druga debata spowodowała znaczny wzrost zainteresowania kandydatami, ale nie będziemy tu już omawiać konkretnych haseł z tej debaty, bo wnioski byłyby podobne.
Czy internauci szukają kandydatów przez ich hasła wyborcze? Kto ma lepsze hasło? Zobaczmy:
Jak widać, hasła wyborcze dość powoli przebijają się do umysłów wyborców, a wyraźnie wzrostową tendencję notuje w ostatnich dniach hasło „zgoda buduje” Bronisława Komorowskiego. Nie mamy niestety danych w liczbach bezwzględnych, więc trudno powiedzieć na ile istotne są te hasła jako element identyfikujący kandydatów.
Teraz najważniejsze: czy na podstawie danych z Insights for Search można pokusić się o przewidzenie wyniku wyborów? Wg mnie – nie. Obaj kandydaci idą w tym wyścigu łeb w łeb i przewidzenie, który wyjdzie na prowadzenie na ostatniej prostej nie wydaje mi się wykonalne; zależy to zresztą w dużej mierze od frekwencji wyborczej, a ta z kolei od takich czynników jak pogoda czy motywacja urlopowiczów do szukania lokalu wyborczego. Strzelam, że w drugiej turze wyborów prezydenckich 2010 – podobnie jak w pierwszej – różnica między kandydatami będzie mniejsza, niż pokazują to sondaże, raczej nie więcej niż 52-48 dla Komorowskiego.
Czy dane o natężeniu zapytań do Google można wykorzystać do przewidywania wyników wyborów parlamentarnych?
Tylko do pewnego stopnia. Z parlamentarnymi jest trudniej, niż z prezydenckimi. Do wszystkich problemów opisanych powyżej (niereprezentatywność „próby” szukających, możliwość wielokrotnego „głosowania”, odzwierciedlanie danych z przeszłości, różnorodność intencji szukających) doszłyby kolejne. Bo jakie zapytania właściwie monitorować?
- Pełne nazwy partii są zbyt długie i rzadko używane w potocznym języku,
- skróty z kolei zbyt wieloznaczne (np. „PO”),
- nazwiska liderów zbyt pospolite (np. Pawlak, Kaczyński), poza tym nazwiska liderów partii wodzowskich będą nadreprezentowane (Palikot), z kolei nazwiska partii z miękkim przywództwem – niedoreprezentowane (np. wielogłosowy PSL, który mógłby bez przeszkód funkcjonować pod przywództwem kogoś innego niż Waldemar Pawlak).
Wziąwszy pod uwagę te zastrzeżenia, a także wnioski ze sprawdzalności naszych prognoz z wyborów prezydenckich 2010, dochodzimy do jedynej chyba rozsądnej metodologii. Różnice w natężeniach zapytań (niezależnie od tego, czy sprawdzamy nazwy partii czy nazwiska liderów) nie odzwierciedlają poparcia dla partii i nie pozwolą przewidzieć wyniku. Warto jednak obserwować trendy, czyli zmiany natężeń wyszukiwań.
Za bazę przewidywań należy uznać wyniki sondaży i prognoz wyborczych podawanych w mediach przez sondażownie. Wyniki te – jak pokazuje doświadczenie – różnią się wyraźnie od ostatecznych wyników wyborów. Przyczyn może być wiele, są jednak 2 najważniejsze:
- sondaże opierają się o deklaracje, a te mogą być zafałszowane; respondenci nie lubią przyznawać się do popierania partii nielubianych przez media (np. PiS, stąd sondaże regularnie niedoszacowują poparcia dla partii Kaczyńskiego), chętnie natomiast mówią o poparciu dla lidera, choć w dniu wyborów nie zawsze chce im się ruszyć do lokalu wyborczego (stąd przeszacowania poparcia dla Platformy),
- sondaże pokazują przeszłość. Nawet sondaże publikowane tuż przed ciszą wyborczą (w piątek wieczorem) pokazują stan ducha wyborców z poniedziałku-wtorku. Do niedzielnych wyborów wyborcy mają jeszcze 4-5 dni, by zmienić decyzje.
Obserwowanie zmian natężenia zapytań o poszczególne partie/liderów rozwiązuje (przynajmniej częściowo) oba te problemy sondaży. Po pierwsze mierzymy bowiem realne zainteresowanie wyborców, a nie ich deklaracje. Po drugie, Google’owych Statystyk wyszukiwarki nie obowiązuje cisza wyborcza, więc w wyborczą niedzielę będziemy mogli obserwować zmiany trendów zachodzących w czwartek-piątek (zamiast w poniedziałek-wtorek, jak w przypadku sondaży).
Zmiany natężenia wyszukiwań mogą więc posłużyć do skorygowania wyników sondaży. Oczywiście nawet dane o trendach obarczone są zbyt wieloma błędami, żeby można było mówić o obliczaniu konkretnego poparcia, ale możemy „doważać” wyniki sondaży „na oko”, np. według modelu:
- jeśli od dnia przeprowadzenia sondażu natężenie zapytań o daną partię/jej lidera mocno spadło, od jej sondażowych wyników należy odjąć 15-20% (procent, nie punktów procentowych!, czyli jeśli partia ma w sondażach 30%, odjęcie 20% daje nie 10%, a 24%),
- jeśli spada łagodnie, od jej sondażowych wyników należy odjąć 5-12%,
- jeśli rośnie mocno, należy dodać jej 15-20%,
- jeśli rośnie łagodnie, należy dodać jej 5-12%.
Zobaczmy zatem, co Statystyki wyszukiwarki mówią w tej chwili (czwartek 6 października, około południa):
…dla zapytań o nazwiska liderów…:

…i dla zapytań o pełne nazwy partii:

Weźmy też robione codziennie sondaże telefoniczne TNS OBOP.
Jakie wnioski?
Przede wszystkim wyszukiwarka uprawdopodabnia przekroczenie progu wyborczego przez Ruch Palikota. Choć buzz wokół Palikota jest olbrzymi, trudno jednak uwierzyć, że googlający go internauci zamierzają w komplecie oddać na niego głos. Ma szanse osiągnąć wynik lepszy, niż pokazują to dziś sondaże (nawet 11-13%). Nie należy jednak przeceniać wagi faktu, że na obu wykresach Palikot wyprzedza nawet PO.
Zgodnie z przyjętą metodologią, nie powinniśmy komentować wyniku SLD i PSL, nie mamy bowiem żadnych danych. Wykres obrazujący natężenie zapytań o obie partie jest bliski poziomemu, a więc skoro nie ma zmian trendów, przyjmujemy, że wynik sondażowy jest tym prawdziwym. Kilka zdań komentarza warto jednak odnieść do SLD: bezprecedensowy spadek notowań tej partii na przestrzeni ostatnich kilku tygodni, obrazowany przez sondaże został potwierdzony przez wyszukiwarkę. Zarówno w sondażach, jak i w wyszukiwarce partia Napieralskiego przestała być łącznikiem między „peletonem” (PSL, Ruch Palikota, PJN) a „ucieczką” (PO i PiS). Wygląda na to, że fatalnie oceniania kampania SLD faktycznie cofnęła tę partię do peletonu. Zainteresowanie frazą „sojusz lewicy demokratycznej” jest na tyle niskie, że Google nie pokazuje wykresu, natomiast zainteresowanie słowem „napieralski” jest 16-krotnie mniejsze, niż zainteresowanie słowem „tusk”, a trend jest stały. SLD dostanie więc pewnie sondażowe 6-8%.
Choć PSL nie wypada dobrze ani w sondażach, ani w wyszukiwarce, utrzymuje swój standardowy poziom poparcia w okolicach 6-8%, może się więc zdarzyć, że prześcignie SLD. Jeszcze kilka tygodni temu było to nie do pomyślenia, proporcje poparcia dla obu partii utrzymywały się bowiem bardzo długo w okolicach 2:1 dla SLD.
Najtrudniejsza jest interpretacja wyników dwóch najmocniejszych partii na polskiej scenie: Platformy i PiS-u. Obie partie notują wzrosty, choć w przypadku PiS są one słabsze, niż w przypadku Platformy. Wzrost zainteresowania liderami obu partii ma za to podobną dynamikę. Wygląda na to, że postępuje polaryzacja sceny, trwa mobilizacja zwolenników obu partii, przy czym mobilizacja wyborców Platformy jest mocniejsza. Uwzględniając standardowe w sondażach przeszacowanie Platformy i niedoszacowanie PiS-u i gdyby wybory odbywały się w miniony poniedziałek (z tego dnia pochodzą dane z wyszukiwarki, a także prawdopodobnie z publikowanych wczoraj i dziś sondaży), Platforma mogłaby dostać ok. 32-33%, a PiS – ok. 22-23%.
Do wyborów może jednak zmienić się jeszcze dużo. Sondaże, które są podstawą naszych szacunków sprawdzają się przy wynikającej z odpowiedzi respondentów frekwencji, na którą wpływ ma wiele czynników (z pogodą włącznie). Inne czynniki to wyciąganie ewentualnych „haków”, wpadki czy motywacja mediów do „trzymania na powierzchni” antyniemieckich wypowiedzi Jarosława Kaczyńskiego.
Nowszy artykuł: Relacja z konferencji ecommerce E-nnovation 2011
Starszy artykuł: Kryzys można wykorzystać dla siebie: Pakiet Antykryzysowy szkoleń z Google AdWords!
Tagi: Google Trends, marketing polityczny, usługi Google, wybory prezydenckie - kto wygra wybory
Podobne posty:
- Marketing polityczny w internecie
- JaroslawKaczynski.pl do kupienia
- Wybory 2007 w wyszukiwarkach – przewidujemy wynik wyborów
- Przed wyborami w wyszukiwarkach było cicho
- Katastrofa w Smoleńsku widziana w Google
Osoby które odwiedziły tą stronę znalazły ją szukając:
- kto wygra wybory
- kto wygrywa wybory
- wybory prognozy
- kto wygrywa w wyborach
- kto wygral wybory w polsce
- prognozy wyborów
- statystyki wyborów
- kto wygra wybory?
- kto wygral wybory
- kto wygra wybory 2011 przepowiednie
