Gra dla poprawy jakości Wikipedii
Niedawno ukazała się wersja beta gry online WikiBest. Projekt jest częścią badań nad jakością danych w Wikipedii. Gra pozwala porównać jakość danych w różnych wersjach językowych Wikipedii. Obecnie serwis umożliwia porównanie jakości danych w 5 językach: polskiej, angielskiej, ukraińskiej, białoruskiej, rosyjskiej. W najbliższej przyszłości planowane jest zwiększenie liczby języków.
Mimo swojej popularności Wikipedia jest często krytykowana za niską jakość. W świecie nauki istnieją różne podejścia do automatycznej oceny jakości artykułów w tej darmowej encyklopedii. Jednak nadal pozostaje wiele problemów do rozwiązania. Na przykład, jak automatycznie oceniać lub porównywać jakość poszczególnych faktów w różnych wersjach językowych na ten sam temat?
W Wikipedii każdy artykuł może mieć kilka wersji językowych (nawet ponad 200). Z jednej strony upraszcza to dostęp do informacji poszczególnym społecznościom językowym. Z drugiej strony może to powodować trudności w określaniu lepszych informacji, ponieważ każda z tych wersji może być tworzona i edytowana niezależnie od innych. Na przykład, czytelnicy i redaktorzy angielskiej wersji artykułu o Gnieźnie nie muszą wiedzieć, co jest napisane na temat tego miasta w polskojęzycznej wersji Wikipedii, chociaż można się spodziewać, że informacje mogą być lepszej jakości w tej drugiej (oczywiście, nie we wszystkich przypadkach ta zasada działa;)).
Gra WikiBest została zaprojektowana w celu tworzenia algorytmów automatycznego porównywania jakości danych pomiędzy poszczególnymi wersjami językowymi artykułów na podstawie decyzji użytkowników (graczy). Aby zbudować takie modele, zostaną zastosowane techniki uczenia maszynowego oraz sztucznej inteligencji z wykorzystanie dodatkowych miar. To może pomóc w wyborze bardziej kompletnych, wiarygodnych i aktualnych informacji, które mogłyby wzbogacić inne wersje językowe Wikipedii.
Strona internetowa gry: WikiBest.net
Pierwszy krótki wykład wideo na temat działania WikiBest:
Główne cechy
Obecnie minimalne wymagania dla gracza - znajomość 4 języków (rosyjski, ukraiński, polski, angielski) na poziomie podstawowym, który pozwoliłby porównać zawartość infoboxów (w uproszczeniu - tabele z danymi) w artykułach Wikipedii. Zalecana jest również znajomość języka białoruskiego - wtedy będzie możliwość porównania jakości we wszystkich dostępnych 5 wersjach językowych. Aby wziąć udział w grze, musisz się zarejestrować. Po otrzymaniu kodu aktywacyjnego na mailu - możesz zacząć "walczyć" o jakość w Wikipedii! ;)
Na ekranie pojawiają się infoboksy w 5 (4) wersjach językowych na ten sam temat - na przykład może to być miasto, gra komputerowa, uniwersytet, firma lub inny obiekt. Możliwe jest przesuwanie okien z infoboksami. Dla każdej wersji językowej można zaznaczyć cztery opcje dotyczące zawartych w nich danych: najlepsza jakość, najlepsza kompletność, najlepsza wiarygodność, najlepsza aktualność.
W idealnej sytuacji każda z dostępnych opcji powinna być zaznaczona tylko między 5 (4) językami. Innymi słowy, musimy określić, który jest najlepszy w każdej z czterech "nominacji". Istnieją jednak wyjątkowe przypadki, gdy najlepszymi mogą być dwie wersje językowe jednocześnie. W takich sytuacjach, gra oferuje użytkownikowi dodanie komentarza, z informacją o tym, dlaczego on (ona) tak sądzi.
Aby zatwierdzić wybór oraz przejść do następnych pięciu (czterech) infoboksów, należy kliknąć "Dalej". Powtarzamy zgodnie ze schematem opisanym powyżej.
Za wykonaną pracę gracze "zarabiają" doświadczenie, co prowadzi podwyższenia poziomu.
Ze względu na to, że badania prowadzone są głównie przez specjalistów w zakresie uczenia maszynowego oraz analizy danych, grywalizacja może nie jest mocnym punktem tego projektu;) Zatem będę wdzięczny za wskazówki lub linki do przydatnych materiałów w tym kierunku.
Ogólnie mówiąc, projekt jest niekomercyjny. Zatem, wszelkie wsparcie jest mile widziane :)
Trochę teorii
Czym jest jakość danych? Pytanie nie jest proste, a społeczność naukowa nie ma jednej definicji - wszystko zależy od kontekstu;) Zacznijmy od tego, że ocena jakości jest pojęciem subiektywnym i zależy od odbiorcy, jego wiedzy, doświadczenia oraz zapotrzebowania na te informacje w określonym czasie. Mówiąc prościej, jakość danych można zdefiniować jako przydatność do użycia.
Aby ocenić jakość danych, należy również wziąć pod uwagę różne wymiary, takie jak na przykład kompletność, aktualność, wiarygodność.
W grze WikiBest kompletność oznacza, jak szeroko opisany jest obiekt. Trzeba sprawdzić, jakie parametry są wpisane do infoboksu - czy wszystkie podstawowe parametry tego obiektu są dostępne dla czytelnika. Na przykład, jeśli jest to miasto, jednymi z najważniejszych parametrów mogą być: populacja, powierzchnia, prezydent itp.
Aktualność związana jest z różnicą między wprowadzonymi parametrami obiektu a faktycznym stanem rzeczy. Na przykład, większą aktualność danych populacyjnych będzie miał infoboks, w którym wartość jest pokazywana według stanu na 2018r., w porównaniu do infoboksu, w którym ten sam parametr ma wartość z 2016 roku.
Wiarygodność w kontekście gry pokazuje, jak wiele informacji jest popartych wiarygodnymi źródłami. W ten sposób czytelnik może sprawdzić poprawność wpisanej wartości danego parametru.
Dlaczego 5 języków?
Jak już wspomniano powyżej, gra jest częścią badań naukowych, w których biorę bezpośredni udział. Mogę być pewien w podstawowej znajomości tych języków, zatem mogę prowadzić badania danych pochodzących z tych wersji Wikipedii.
Jeżeli chodzi o opcjonalność wyboru języka białoruskiego, wynika to z rozmiaru białoruskiej edycji Wikipedii. Obecnie tam jest ok. 150 tysięcy artykułów. Dla porównania ukraińska Wiki zawiera już ponad 800 tysięcy, rosyjska - prawie 1,5 miliona (źródło).
Głównym celem badań naukowych jest wzbogacenie mniej rozwiniętych wersji językowych Wikipedii. W tym sensie wersja białoruska ma duży potencjał - można przenieść wiele danych z innych badanych wersji językowych. Jednak wiadomo już, że jakość danych zależy od tematu oraz wersji językowej, zatem najpierw musimy określić "kandydata" do "kopiowania" (w rzeczywistości nadal trzeba przetłumaczyć te dane - ale to nie jest problem przy użyciu semantyki).