Culturomics i Google Books Ngram Viewer

Culturomics to projekt na Uniwersytecie Harvarda, który stawia sobie za cel umożliwienie ilościowych badań kultury i jej ewolucji w czasie i w różnych społeczeństwach. Dla realizacji tego celu, wspomniane Obserwatorium kultury zajmuje się trzema zadaniami:

  • Tworzeniem ogromnych zbiorów danych dotyczących kultury
  • Analizą tych danych i tworzeniem nowych rodzajów analiz
  • Rozwijaniem narzędzi pozwalających na przeglądanie danych przez wszystkich zainteresowanych

Kilka dni temu opublikowali oni w Science artykuł Quantitative Analysis of Culture Using Millions of Digitized Books w którym przedstawiają analizy wykonane przy pomocy zasobów Google Books. Wykorzystane dane to szeregi czasowe dotyczące częstości użycia 2 miliardów słów i fraz, w 5,2 miliona książek z lat 1800-2000. Jak twierdzą autorzy te kilka milionów książek w 7 językach, stanowi 4% książek, które zostały kiedykolwiek opublikowane.

Tak olbrzymi materiał stanowi cenne źródło nie tylko badań lingwistycznych, ale również badań kultury. Obserwacje tego jak jedne wyrazy i frazy zyskują na popularności a inne tracą pozwala obserwować chociażby zmiany popularności ideologii i ewolucję kultury.

Google Books Ngram Viewer - socialism vs capitalism

Google Books Ngram Viewer - socialism vs capitalism

Wraz z opublikowaniem artykułu udostępniony został serwis Google Books Ngram Viewer, który pozwala na samodzielne analizowanie danych, a także na ich ściągnięcie do bardziej zaawansowanych własnych analiz. Bardzo polecam pobawienie się serwisem.

Google Books Ngram Viewer - men vs women

Google Books Ngram Viewer - men vs women

Teraz czekam na dodanie informacji o lokalizacji autorów poszczególnych tekstów. Dodanie wymiaru geograficznego mogłoby pozwolić na bardzo ciekawe analizy dyfuzji różnych pojęć (też technologii).

Tagged , , , , | 4 Comments

Nowy podręcznik do sieci

Od niedawna w internecie dostępny jest napisany przez Davida Easleya i Jona Kleinberga podręcznik Networks, Crowds, and Markets. Wkrótce nakładem wydawnictwa Cambridge ukaże się wersja papierowa. Podręcznik ma nieco ekonomiczne skrzywienie (pierwszy z autorów jest ekonomistą, drugi informatykiem) – spora część poświęcona jest teorii gier, sporo jest też teorii racjonalnego wyboru. Cała pozycja liczy jednak 837 stron i o sieciach jest tu bardzo dużo. Warto podkreślić, że podręcznik w większym stopniu skupia się na zagadnieniach teoretycznych i teoriach dotyczących sieci (dotyczących siły więzi, równowagi strukturalnej, ewolucji sieci i dynamiki procesów zachodzących w sieciach, itp.). Mniej jest w nim o samych metodach analizy danych sieciowych.

W internecie dostępne są również materiały z zajęć prowadzonych przez autorów. Polecam.

Posted in ogólne | Tagged , , , | 1 Comment

Deadline zgłaszania wystąpień na SunBelt

W najbliższy poniedziałek jest ostatni dzień zgłaszania wystąpień na SunBelt – najważniejszą konferencję poświęconą sieciom społecznym. Więcej informacji można znaleźć tu. W poprzednich dwóch latach było całkiem sporo zgłoszeń z Polski. Jak będzie tym razem?

Posted in konferencje | Tagged | 1 Comment

Sieci komórkowe i bezpieczeństwo

Trafiłem właśnie na ciekawy przykład zastosowania geolokalizacji do zapewnienia bezpieczeństwa na większą skalę. MSWiA współpracując z operatorami telefonii komórkowej ustaliło wczoraj, że na terenie Gruzji znajduje się 250 numerów telefonów zarejestrowanych przez polskich operatorów. Do abonentów tych sieci przebywających na terenie Gruzji zostały wysłane SMSy alarmowe z informacją o możliwościach ewakuacji.

Tagged , , , | 3 Comments

6 milionów osób w 6 kroków na Gadu-Gadu

W ostatnim czasie powtórzyłem prowadzone już ponad 4 lata temu badania zjawiska „małego świata” na danych o relacjach i komunikacji między użytkownikami komunikatora Gadu-Gadu. Jak się okazuje średnia odległość pomiędzy użytkownikami, mierzona poprzez relacje ze skrzynek kontaktów, wynosi obecnie 5,78. Jest to dokładnie tyle samo co w styczniu 2004. Średnia odległość nie zmieniła się wcale, choć liczba użytkowników wzrosła ponad dwukrotnie. Wzrosła jednak również średnia liczba relacji i to dzięki temu przeciętne odległości między użytkownikami nie zmieniły się.

W najbliższym czasie, problematykę stabilności własności sieci społecznych i komunikacyjnych będziemy szerzej rozwijać. Pierwsze wyniki analiz stabilności były już prezentowaliśmy w styczniu na konferencji Sunbelt.

O badaniach można przeczytać również tu i tu.

Posted in analizy sieciowe | Tagged , , , , , | 1 Comment