Czy jesteśmy skazani na Google? (część 2)
Porównanie jakości wyszukiwania treści w poszczególnych wyszukiwarkach jest trudnym zadaniem, ponieważ nie mam dobrej miary, która mógłbym zmierzyć i porównać zwracane wyniki. Ocena musi być subiektywna. W stosunku do pierwszej części wprowadziłem pewne zmiany. Po pierwsze zrezygnowałem z mniej popularnych wyszukiwarek, zostawiając poza Googlami Binga, Yahoo i DuckDucka. Po drugie zdecydowałem się na zmianę sposobu oceniania wyników. Wprowadziłem dwie kolumny (z wyjątkiem Google). W pierwszej kolumnie będę, podobnie jak poprzednio, oceniać zwracane rezultaty, ale ich wynik będzie zależał wprost od ilości zwróconych stron w pierwszej dziesiątce wyników, które zwierają informacje merytorycznie istotne z punktu widzenia poszukiwań. Jeśli więc pytam się o czas pieczenia kurczaka, to spodziewam się znaleźć konkretną odpowiedź, a nie przepis na kurczaka, zawierający jedynie składniki. Analogicznie, jeśli szukam instrukcji urządzenia, to chcę znaleźć konkretny dokument, a nie specyfikację tego urządzenia. W przypadku instrukcji, uznałem, że nie jest ważne ile instrukcji znajdzie się w pierwszej dziesiątce wyników, lecz na której pozycji pojawi się właściwa instrukcja (im dalej, tym więcej stron trzeba przejrzeć, zanim się dotrze do instrukcji). Druga kolumna będzie zawierać ilość wskazań identycznych stron ze wskazaniami Google w pierwszej dziesiątce wyników. Myślę, że taka informacja może być pomocna w ocenie tego na ile inaczej zachowują się pozostałe wyszukiwarki.
9 zapytań w języku polskim
Wybór zapytań również jest rzeczą trudną, ponieważ nie sposób w pełni ocenić zachowania wyszukiwarek na podstawie tak wąskiego spektrum zapytań. Wybrałem kilka fraz, które z założenia miały odnosić się do potrzeb pozyskiwania informacji typowych dla domu i nauki.
Test zacząłem od prostej frazy z zaplecza kulinarnego. Wszystkie wyszukiwarki poradziły sobie nieźle. Uderzający jest fakt, że google znajduje kompletnie inne strony dla takiej frazy. Następnie zdecydowałem się na zapytanie nieco bardziej specjalistyczne. Założyłem, że szukam informacji do napisania referatu na temat kryptografii kwantowej. Przykład ten pokazał po raz pierwszy, że Yahoo dla niektórych zapytań zwraca dziwne wyniki, np. zwrócił link do profilu "kryptografia kwantowa" na facebooku, który zresztą wydaje się być pusty i nie zawierać żadnych informacji.
Z odnalezieniem instrukcji poradziły sobie wszystkie wyszukiwarki, a Yahoo wyjątkowo zabłysnął, podając właściwy link na pierwszej pozycji. Zapytanie z podstaw javy sprawiło sporo kłopotów. Yahoo zwracał wiele przykładów dla innych języków programowania lub zupełnie inne zagadnienia dla javy. Google był tradycyjnie niezawodny. Kolejne zapytanie wydawało mi się proste, zwłaszcza dla wyszukiwarek powiązanych z Microsoftem. Co ciekawe Bingowi zdarza się nie rozróżniać Windowsa 8 od Windowsa XP.
Wyszukiwanie tekstu piosenki po fragmencie samego tekstu (szukanie po tytule byłoby zbyt banalne, a poza tym łatwiej jest zapamiętać fragment słów, zasłyszanych np. w radio, niż tytuł piosenki) okazało się podchwytliwym zadaniem dla Binga i DuckDucka. Obie te przeglądarki zwróciło kilka tekstów do innych piosenek, które zawierały podobne fragmenty tekstów. Google był bezbłędny i nie dał się zmylić. Zapytanie o Matlaba wydawało mi się równie proste, co automatyczne logowanie w Windowsie, jednakże szum informacyjny zabił prawie wszystkie wyszukiwarki. Yahoo kompletnie nie zrozumiał zapytania i zwracał wszystkie możliwe wyniki związane z Excelem. Bing i DuckDuck wypadły minimalnie lepiej, ale znacząco poniżej oczekiwań. Następnie postanowiłem poszukać informacji historycznych na temat pierwszej polskiej wytwórni samolotów. Yahoo znowu odleciał, zwracając przykładowo link do tekstu o tym, że kościół potępia seks turystykę.
Ciekawym sprawdzianem dla wyszukiwarek było odnalezienie lubelskich restauracji z japońskim menu. Google i Bing zwróciły tylko 1 stronę z 10, która nie wskazywała na taki lokal i łącznie w pierwszej 10‑tce wyników wskazały aż na 5 różnych lokali, co z punktu widzenia użytkownika jest bardzo wygodne. Jednocześnie w wynikach pojawiły się aż 4 strony domowe lokali. Interesująca jest zbieżność zwracanych wyników Binga i Google. Aż 7 stron z pierwszej 10‑tki Binga była identyczna z wynikami Googla. Być może jest to kwestia pozycjonowania stron restauracji. Jeśli tak, to Yahoo wydaje się być mniej uwzględniany od specjalistów od pozycjonowania. Większość webmasterów umieszcza skrypty googlowe, nie przejmując się specjalnie innymi wyszukiwarkami. Co więcej, Yahoo wykazuje tendencję do szukania informacji o polskiej gastronomii w anglojęzycznych serwisach, ignorując nieco polski Internet, mimo ustawienia języka wyszukiwania i lokalizacji.
Podsumowanie
Druga część, choć wygląda może skromnie, zajęła mi więcej czasu niż pierwsza. Dokładne przeanalizowanie wyników tylu zapytań było bardzo czasochłonne. Wyniki nie zaskakują i potwierdzają to, co wszyscy wiemy. Google jest najlepsza wyszukiwarką w Polsce. W Większości przypadków radzi sobie bardzo dobrze. To, co mnie zaskoczyło w obu częściach wpisu, to fakt iż Yahoo zwraca mocno inne wyniki niż Bing, mimo iż rzekomo korzystają z tego samego silnika wyszukiwania. Yahoo generalnie nie nadaje się do szukania w języku polskim. Często zwraca strony anglojęzyczne i wydaje się nie rozumieć zapytań. W pewnym sensie szuka na oślep. Bing i DuckDuck dają w wielu przypadkach całkiem przyzwoite rezultaty i są moim zdaniem używalne, choć nie tak dobre jak Google. Warto jednakże zwrócić na nie uwagę, ponieważ fakt, iż zwracają inne wyniki niż Google może być pomocny w poszukiwaniu trudniejszych haseł. Przy pisaniu jakiegoś referatu albo wszędzie tam, gdzie potrzebujemy dotrzeć do jak najszerszego spektrum źródeł informacji, skorzystanie z Binga i DuckDucka jest wskazane. Pomogą nam one uzupełnić wyniki znalezione w Googlach.