Tłumaczowi Google zagroziła własna popularność, jakość przekładów może się pogorszyć

Tłumacz Google (Google Translate) stał się najpopularniejszą wSieci usługą do maszynowego tłumaczenia – i to pomimo zastrzeżeńco do jakości przekładów. Darmowość, wygodny interfejs, pełnaintegracja z Google Chrome, a także możliwość dynamicznegogenerowania tłumaczeń dla stron WWW poprzez API usługinajwyraźniej przeważyły. Tłumacz może jednak niebawem stać sięofiarą swojej własnej popularności: grozi mu zatrucie własnymitłumaczeniami.

Adam Golański

13.02.2014 | aktual.: 14.02.2014 15:13

Franz Josef Och, twórca oprogramowania stojącego za Tłumaczem,zapewne nie spodziewał się takiego obrotu sprawy. Stworzona przezniego usługa, w przeciwieństwie do większości innych systemówmaszynowego tłumaczenia, korzysta z analizy statystycznej, a nieanalizy na bazie reguł gramatycznych. W metodzie tej do stworzeniaprzekładu wykorzystuje się modele statystyczne, budowane napodstawie analizy korpusu równoległego danej pary języków (dużegozbioru tekstów równoległych). Zastosowanie wnioskowańbayesowskich pozwala następnie na znalezienie takich ciągówznaków dla języka wynikowego, które z najwyższymprawdopodobieństwem stanowią przekład języka wejściowego.

Wszystko byłoby dobrze, gdyby korpusy równoległe dla danej parybyły wysokiej jakości, a tłumaczenia zachodziły bezpośredniomiędzy nimi. Tak jednak nie jest. Tłumacz Google stosuje przekładypośrednie, najpierw tłumacząc język źródłowy na angielski, apotem tłumacząc z angielskiego na język wynikowy. Taki wybórprojektowy, podyktowany zapewne pochodzeniem Google'a, nie byłnajszczęśliwszy – pozbawiony fleksji, mało precyzyjnygramatycznie angielski, notorycznie gubi subtelności językówźródłowych. Jeszcze gorzej jest w wypadku języków, dla którychnie ma bezpośredniego przekładu na angielski – w wypadku np.ukraińskiego Tłumacz Google dokonuje tłumaczenia najpierw narosyjski, potem z rosyjskiego na angielski i z angielskiego na językwynikowy (np. polski). Wynik wówczas może przypominać zabawę wgłuchy telefon.

Obecnie korpusy równoległych języków tworzone są przez Googlew sposób zautomatyzowany, wykorzystując do tego zawartość samegoInternetu. Wyszukiwarka indeksując wielojęzyczne witryny zestawiaze sobą dokumenty o tej samej treści w różnych językach, byprzekazać je później analizie statystycznej. Wzrost liczbywielojęzycznych witryn w Sieci (a szczególnie publikacjemiędzynarodowych organizacji, takich jak ONZ czy UE) pozwoliłyzbudować korpusy ogromnych rozmiarów, więc z czasem optymalizacjaalgorytmów pozwoliła osiągnąć niezły poziom maszynowegotłumaczenia dla wielu par języków europejskich do angielskiego (ivice versa), niekiedy nawet lepszego niż w wypadku systemówtłumaczących poprzez analizę reguł gramatycznych.

Takie zastosowanie WWW do zasilania korpusu tekstów nieuwzględniło jednak jednej rzeczy. Niezła skuteczność GoogleTranslate sprawiła, że coraz więcej witryn w Sieci zaczęłostosować usługę tę do maszynowego tłumaczenia swoich stron WWW ina jego podstawie uruchamiać nowe wersje językowe. Te nowe wersjetrafiały do indeksu Google'a, więc rychło ich zawartośćpowiększała korpus równoległych języków. To zaś prowadziło dosytuacji, w której algorytmy tłumaczące zaczynały trenować niena jakościowych translacjach ludzkich tłumaczy, lecz na tym co samowcześniej wygenerowało, ze wszystkimi błędami i osobliwościami.Innymi słowy – przyjmując na wejściu trochę śmieci, zaczynałozwracać na wyjściu więcej śmieci (które następnie mogły byćwykorzystane do dalszego pogarszania jakości całej usługi).

Google z takiej możliwości zdało sobie sprawę całkiemniedawno – mówiło nim wczoraj podczas konferencji NASA Innovative AdvancedConcepts Peter Norvig, dyrektor badań naukowych giganta z MountainView. Stwierdził on, że na razie to nie jest poważny problem, alew przyszłości może być gorzej. Na razie stosuje się „ręczne”rozwiązania, polegające na ocenie jakości stron przez ludzi –jeśli wyglądają dobrze, zostają zachowane w korpusie, wprzeciwnym wypadku są wyrzucane. Wcześniej ograniczono możliwośćpsucia Tłumacza, kończąc z darmowym dostępem do API usługi,próbowano też oznaczać poszczególne translacje „cyfrowymiodciskami”, ale jak twierdzi Norvig, nie sprawdziło się to wpraktyce.

Programy

Zobacz więcej