Correlate!

Niedawno Google udostępnił, rozwijaną wcześniej w Google Labs, usługę Google Correlate. Stała się ona częścią narzędzia Google Trends, pozwalającego śledzić trendy w popularności haseł wpisywanych przez użytkowników w wyszukiwarkę. Do niedawna możliwe było wyłącznie sprawdzanie i porównywanie względnej częstości wyszukiwania konkretnych haseł i ich zmian w czasie. Dzięki Google Correlate można znaleźć, hasła których dynamika popularności jest najbardziej zbliżona do trendów zdefiniowanych przez użytkownika.

Z nowego narzędzia możemy skorzystać na dwa sposoby. Można załadować własne dane dotyczące jakiegoś trendu w czasie lub samodzielnie narysować trend na wykresie. W obu przypadkach serwis poda nam jakie hasła wyszukiwane przez użytkowników miały najbardziej zbliżoną dynamikę. Dostaniemy listę haseł, odpowiednie wykresy i możliwość eksportu danych w pliku .csv.

Google Correlate to moim zdaniem bardzo fajne narzędzie. Jeżeli chcemy analizować dynamikę różnych zjawisk zachodzących w czasie, to warto sprawdzić jakie hasła mają podobną dynamikę. Szkoda tylko, że nie można jeszcze, tak jak w narzędziu Insights for Search, zawęzić wyników tylko do konkretnego kraju.

Posted in internet | Tagged , , | Leave a comment

Sfilmowane wykłady keynote z konferencji Sunbelt

Miesiąc temu pisałem o konferencji Sunbelt i ciekawych keynote’ach, które się tam odbyły. Okazuje się, że oba zostały sfilmowane. Co więcej, oba keynote’y na poprzednim Sunbelcie również. Można sobie ściągnąć stąd.

Posted in analizy sieciowe, konferencje | Tagged , , | 1 Comment

Przewidywanie w naukach społecznych

Web of War (c) Nature

Ostatni numer Nature zawiera ciekawy tekst „Web of War” na temat zastosowań analizy sieci społecznych i innych metod obliczeniowych do przewidywania zjawisk społecznych. Artykuł omawia kilka przykładów zastosowań modelowania matematycznego i analiz dużych wolumenów danych do predykcji zdarzeń dla Pentagonu i armii amerykańskiej na potrzeby prowadzenia działań w Iraku i w Afganistanie. Część zastosowań jest udanych, część nie.

Analiza sieci społecznych przyczyniła się do pojmania Saddama Husajna przewidując, że będzie on raczej opierał się na osobach zaufanych, ale niebędących prominentnymi członkami reżimu. Metody obliczeniowe, jak twierdzi autorka, pozwoliły też na zlokalizowanie składów materiałów wybuchowych rebeliantów w Bagdadzie z dokładnością do 1000 metrów.

Lista nieudanych zastosowań jest jednak dużo dłuższa. W artykule autorka wymienia min.: przewidywanie czy dany film z Georgem Clooney’em okaże się sukcesem kasowym, przewidywanie konfliktów międzynarodowych i wojen domowych.

Artykuł przypomniał mi o projekcie FuturICT, który aspiruje do europejskiego grantu flagowego. Projekt ten przewiduje między innymi zbudowanie wielkoskalowej symulacji komputerowej, która w założeniach ma pozwalać na przewidywanie zjawisk społecznych w podobny sposób, jak to jest opisane w artykule w Nature. Przewidywanie zjawisk tak różnych, jak dynamika epidemii, konflikty etniczne, kryzysy finansowe, zanieczyszczenie środowiska, migracje i inne zmiany populacyjne. To wszystko za miliard (1`000`000`000) euro przez 10 lat.

Wątpliwości do dyskusji:

  1. Czy wiemy wystarczająco dużo o zjawiskach społecznych żeby nas było stać na tego rodzaju inwestycję?
  2. Czy zjawiska, które mają być prognozowane w tym projekcie przypominają przewidywanie czy film będzie sukcesem, bo George Clooney grał w nim z brodą, czy też bardziej przypominają poszukiwanie składów amunicji w Bagdadzie?
Posted in analizy sieciowe | Tagged , , | 3 Comments

Drżące słupki

Poprzedni numer Polityki (11/2011) zawiera bardzo dobry i bardzo potrzebny artykuł Michała Jasieńskiego Co widać ze słupka? na temat sondaży oraz tego, w jaki sposób ich wyniki powinny być komunikowane i interpretowane. Publikacja artykułu zbiegła się w czasie (mniej więcej) z publikacją raportu Ocena metodologii i rezultatów badań poprzedzających pierwszą i drugą turę wyborów prezydenckich w 2010 roku przygotowanym przez zespół pod kierunkiem prof. Henryka Domańskiego na zamówienie OFBOR. Raport jest dostępny na stronach OFBOR tu.

Główne przesłanie tekstu Michała Jasieńskiego można by zamknąć w sformułowaniu: „pamiętaj o błędzie”. Mowa tu o błędzie losowym, którym obarczone są wyniki każdego sondażu, do którego respondenci dobierani są w sposób losowy, w tym sondaży preferencji politycznych. O tym, kto powinien pamiętać o błędzie za moment.

Z kolei dla OFBOR głównym pretekstem do zamówienia raportu była

(…) wyjątkowo intensywna krytyka  jakości sondaży prowadzonych przed wyborami prezydenckimi, które odbyły się 21 czerwca i 5 lipca 2010. (…) Kontrowersje wzbudziła trafność prognoz wyborczych formułowanych na podstawie tych badań – w stosunku do faktycznego wyniku – i rozbieżności między poszczególnymi firmami.

Zanim odniosę się do kilku konkretnych wątków z artykułu i raportu krótkie przypomnienie co to jest błąd losowy i skąd się bierze.

Wyniki każdego sondażu obarczone są błędem związanym z losowym doborem osób do badania. Wynik każdej partii, lub kandydata, w takim sondażu nie jest pewny, tak jak pewne jest to, że na szczyt Empire State Building wiedzie 1860 stopni. Wręcz przeciwnie, wynik ten jest tak samo niepewny jak to, że rzucając rzetelną monetą 1000 razy wyrzucimy dokładnie 500 razy orła i 500 reszkę. Za każdym razem, gdybyśmy powtórzyli eksperyment 1000-ca rzutów wynik może być trochę inny. Raz 495:505, innym razem 513:487 itd. Jeżeli otrzymamy jednak np. 211 orłów i 789 reszek to zdrowy rozsądek sugeruje nam wątpić w rzetelność monety: taka dysproporcja orłów i reszek jest mało prawdopodobna przy założeniu, że pojedynczy rzut monetą z równym prawdopodobieństwem daje orła co reszkę.

Z wynikami partii w sondażach jest podobnie. Pokazać to można za pomocą następującego eksperymentu myślowego (gwoli ścisłości, myśl będzie wspomagana przez komputer). Wyobraźmy sobie, że mamy cztery partie A, B, C i D cieszą się następującym poparciem wśród Polaków: A=31%, B=27%, C=16% i D=7.5%. Niestety nie są to wielkości publicznie znane więc stacja TV zleca agencji badawczej przeprowadzenie sondażu aby je poznać. Agencja badawcza losuje 1000 osób i wszystkim zadaje pytanie „na którą z tych czterech partii zagłosowałaby Pan(i), gdyby wybory odbyły się dzisiaj?”. Informacje spływają od ankieterów i agencja dostarcza stacji TV wynik. Głosowanie na partię A deklaruje 28.9% ankietowanych, na partię B 29.1%, C 15.3%, a na partię D 7.4%. Pozostałe odpowiedzi to 19.3%. Na ile taki wynik jest (nie)prawdopodobny?

Poniższy filmik ilustruje potencjalne zróżnicowanie wyników sondaży zakładające, że prawdziwe poparcie dla partii rozkłada się A=31%, B=27%, C=16% i D=7.5%. Każda klatka w tym filmiku to wyniki jednego z 500 symulowanych sondaży. Drżące słupki po prawej to poparcie poszczególnych partii. Poziome kreski wokół każdego słupka pokazują minimalny i maksymalny wynik danej partii. Dwa wykresy po lewej stronie porównują wyniki dwóch partii A i B. Górny pokazuje wielkość różnicy w poparciu A – B (oś pozioma): jeżeli dodatnia, to więcej respondentów deklarowało poparcie dla A. Wysokość słupków (oś pionowa) pokazuje na ile prawdopodobne jest wylosowanie sondażu z daną wielkością różnicy poparcia A-B. Przykładowo wysokość słupka nad 4 to liczba sondaży, w których parta A miała przewagę 4 punktów procentowych nad partią B. Drżący poziomy słupek poniżej (wykres w prawym dolnym rogu) pokazuje różnicę A-B w danym sondażu (klatce filmu).

Obserwacje

  1. Znaczący rozrzut wyników poszczególnych partii (patrz lewy wykres, końcowe klatki filmu).
  2. Porównując poparcie dla partii A i B całkiem prawdopodobne jest, że wg sondażu różnica będzie pomiędzy 2 a 6 punktów procentowych, mimo że rzeczywista różnica to 4 punkty na korzyść A.
  3. Jest możliwe, choć mało prawdopodobne, że sondaż pokaże, sprzecznie z rzeczywistością,  że to partia B ma przewagę nad A. Wg eksperymentu 3 sondaże na 100 pokażą przewagę B nad A.

Co z tego wynika:

  1. Interpretując wyniki sondaży wyborczych należy domagac sie informacji o wielkosci proby i rozmiarze bledu
  2. Przewaznie nie warto ekscytowac sie roznicami 1-2 punktu procentowego. nie mowiac o mniejszych,
  3. Informacja o bledzie powinna być pokazywana wraz ze słupkami. Na przykład za pomocą poziomych linii tak, jak na lewym wykresie w filmiku.

Wątki poboczne:

  1. Eksperyment zakładał, że wszystkie 1000 osób zrekrutowanych do badania chętnie i szczerze deklaruje swoje poglądy. Rzeczywistość jest daleka od tego ideału tak pod względem chęci badanych do brania udziału w sondażach, jak również i szczerości przy udzielaniu odpowiedzi.
  2. Szczególnie problem związany z odmowami wzięcia udziału w badaniu (jak również i innymi powodami nierealizowania badania) ma istotny wpływ na precyzję wyników. Osoby, które odmówiły udziału, bądź których nie przebadano z innych przyczyn, przeważnie mają trochę inne poglądy od tych, które przebadano. Trywialny przykład tego zjawiska to trudność w zastaniu w domu osób, które pracują. Z kolei poglądy polityczne inaczej rozkładają się wśród osób pracujących niż, dajmy na to, wśród emerytów. Jeżeli nie kontrolujemy tego typu efektów, to o precyzyjnych wynikach  sondaży możemy zapomnieć.
  3. Jako że wyniki sondaży obarczone są dodatkowym błędem systematycznym (opisanym powyżej) należy jeszcze bardziej chłodno podchodzić wobec prezentowanych wyników. Tym bardziej, że rozmiar tego błędu jest bardzo trudno oszacować, a poziom realizacji badań sondażowych w Polsce nieprzerwanie spada.
  4. Wątek związany z poziomem realizacji badań nie pojawił się w artykule w Polityce, co jest zrozumiałe ze względu na jego raczej ogólny charakter. Dziwi mnie jednak, że wątek ten nie został dokładnie zbadany w raporcie OFBOR. Być może to właśnie ukryte błędy systematyczne był powodem tak dużych rozbieżności pomiędzy poszczególnymi sondażami przed ostatnimi wyborami prezydenckimi.

Kto powinien pamiętać o błędzie? Omawiana tu sprawa dotyczy trzech typów aktorów społecznych połączonych swoistym łańcuchem pokarmowym: (1) firm badawczych przeprowadzających sondaże, (2) mediów, które te sondaże zamawiają i ich wyniki komunikują społeczeństwu, wreszcie (3) społeczeństwu, które wyniki sondaży prezentowane w mediach przyswaja, interpretuje oraz, w jakiejś za pewne niewielkiej części, na podstawie sondaży podejmuje decyzje wyborcze. Pamiętać o błędzie powinny wszystkie trzy grupy

  1. Firmy badawcze, bo wielkość błędu to najważniejszy wskaźnik jakości wytwarzanego przez nich produktu (sondaży).
  2. Media, bo wielkość błędu to najważniejszy wskaźnik jakości kupowanego przez nich produktu. Elementarna ekonomia uczy nas, że jakość dostarczanego produktu będzie spadać, jeżeli klient tej jakości nie będzie się domagać.
  3. Publiczność, czyli my wszyscy. Po pierwsze, nie dajmy się zwodzić małymi różnicami w wynikach sondażowych poszczególnych partii. Po drugie, wymagajmy od mediów aby zamawiały sondaże wyższej jakości i rzetelnie informowały o ich dokładności. Po trzecie, bierzmy udział w badaniach wyborczych i udzielajmy prawdziwych odpowiedzi, to jest w naszym własnym interesie.

Ciekawe pytanie, które się nasuwa, to kto w tym „łańcuchu pokarmowym” dysponuje największą władzą? Ale to już może temat na inny post…

Posted in ogólne | Tagged , , , | 1 Comment

7th UK Social Networks Conference

W dniach 7-9 lipca odbędzie się w Londynie na University of Greenwich 7ma konferencja UK Social Networks. Jest to zdecydowanie najciekawsza z konferencji dotyczących analizy sieci społecznych w Europie (może poza konferencjami Sunbelt, które jednak w Europie są tylko raz na trzy lata). W tym roku głównymi mówcami będą: Katherine Faust (University of California – Irvine), David Knoke (University of Minnesota) oraz Mario Diani (University of Pompeu Fabra – Barcelona).
Propozycje wystąpień można zgłaszać do 30 kwietnia.

Posted in konferencje | Leave a comment