Środek Wikipedii

Stephen Dolan dokonał ciekawej analizy linków naWikipedii. W jej wyniku stwierdził, że Wikipedia posiada 2301486 artykułów,które są połączone za pomocą 55 550 003 linków. 190 006 haseł jestniezlinkowanych. Hasłem, z którego najłatwiej jest się doklikać doinnych jest "2007". Średnio potrzeba wykonać 3,45 kliknięcia abydostać się ze strony o roku ubiegłym do każdej z pozostałych 2 111479. Kolejne takie hasła to: "Deaths in 2004", "2006", "2004","List of accidents and incidents on commercial aircraft", "StarAlliance destinations", "1990s", "List of town tramway systems inNorth America", "2005" i "1967". Jeśli odrzucimy strony z datami ilistami haseł okaże się, że do dowolnego zlinkowanego miejsca wWikipedii najłatwiej można się dostać z hasła "United Kingdom".Można więc powiedzieć, że jest to środek Wikipedii. Kolejne takiemiejsca zajmują "Billie Jean King" i "United States". Dolan wswojej analizie nie sprawdzał do jakiego artykułu najłatwiej siędostać. W analizie został wykorzystany plik zawierający wszystkie artykuływ Wikipedii tworzony co kilka miesięcy przez administratorówWikipedii. Jest to 3,5 GB skompresowanego kodu XML, 150 GB podekompresji. Przed właściwą analizą sparsowano ten plik aby wydobyćtylko niezbędne elementy. Co ciekawe 150 GB to także rozmiarskompresowanego pliku, który zawiera dodatkowo także dyskusje ihistorię edycji artykułów.

Grzegorz Niemirowski

29.05.2008 03:46

Źródło artykułu:www.dobreprogramy.pl
Wybrane dla Ciebie
Komentarze (17)