Culturomics to projekt na Uniwersytecie Harvarda, który stawia sobie za cel umożliwienie ilościowych badań kultury i jej ewolucji w czasie i w różnych społeczeństwach. Dla realizacji tego celu, wspomniane Obserwatorium kultury zajmuje się trzema zadaniami:
- Tworzeniem ogromnych zbiorów danych dotyczących kultury
- Analizą tych danych i tworzeniem nowych rodzajów analiz
- Rozwijaniem narzędzi pozwalających na przeglądanie danych przez wszystkich zainteresowanych
Kilka dni temu opublikowali oni w Science artykuł Quantitative Analysis of Culture Using Millions of Digitized Books w którym przedstawiają analizy wykonane przy pomocy zasobów Google Books. Wykorzystane dane to szeregi czasowe dotyczące częstości użycia 2 miliardów słów i fraz, w 5,2 miliona książek z lat 1800-2000. Jak twierdzą autorzy te kilka milionów książek w 7 językach, stanowi 4% książek, które zostały kiedykolwiek opublikowane.
Tak olbrzymi materiał stanowi cenne źródło nie tylko badań lingwistycznych, ale również badań kultury. Obserwacje tego jak jedne wyrazy i frazy zyskują na popularności a inne tracą pozwala obserwować chociażby zmiany popularności ideologii i ewolucję kultury.
Wraz z opublikowaniem artykułu udostępniony został serwis Google Books Ngram Viewer, który pozwala na samodzielne analizowanie danych, a także na ich ściągnięcie do bardziej zaawansowanych własnych analiz. Bardzo polecam pobawienie się serwisem.
Teraz czekam na dodanie informacji o lokalizacji autorów poszczególnych tekstów. Dodanie wymiaru geograficznego mogłoby pozwolić na bardzo ciekawe analizy dyfuzji różnych pojęć (też technologii).
Pingback: Humanistyka 2.0 | Ciekawe teksty dziennikarskie
Pingback: Kopalnia tajemnic Google Books : jonak.info jonak.info
Póki co można robić porównania między korpusami „American English” i „British English”. Zakładam, że to jakby porównanie kultury USA a euro-angielskiej. Różnice, jak można się domyślić, są spore.
Ciekawe wystąpienie o danych z Google Books na TED What we learned from 5 million books.