Microsoft: nasze algorytmy rozpoznające mowę są już tak skuteczne, jak człowiek
Mijający rok pokazał dobitnie, że największe korporacje pracują intensywnie nad nowymi metodami wprowadzania danych i interakcji z urządzeniami. I to niezależnie od zainteresowania takimi nowościami wśród samych użytkowników. Dobitnie wypowiedział się na ten temat Dave Chaplin z Microsoftu, który bez ceregieli stwierdził, że klawiatury QWERTY to przeżytek należący do XIX wieku, który trzeba zastąpić. Oczywiście mową.
19.10.2016 | aktual.: 19.10.2016 14:54
A w tej kwestii Microsoft pochwalił się właśnie nie lada osiągnięciem. Na oficjalnym blogu korporacji ukazał się komunikat obwieszczający historyczny krok milowy w rozwoju algorytmów rozpoznających mowę i dokonujących jej transkrypcji. Z utrzymanego w patetycznym tonie wpisu można dowiedzieć się, że w laboratoriach Microsoftu opracowano program, który transkrybuje z precyzją równą człowiekowi.
Same deklaracje chyba nikogo nie przekonają, zwłaszcza że Microsoft już w pierwszym akapicie dopuszcza się nieścisłości. Z jednej strony dokonano przełomu w algorytmach transkrybujących, z drugiej strony mowa o rozumieniu tak dobrze jak człowiek. Nikogo chyba nie trzeba przekonywać, że rozumienie tekstu i umiejętność jego spisywania to dwie różne kompetencje.
Ba, można byłoby się nawet spierać z twierdzeniem, że znajomość semantyki jakkolwiek wpływa na jakość transkrybowanego tekstu wyjściowego. Zainteresowanych problematyką zachęcamy do zapoznania się z eksperymentem chińskiego pokoju nakreślonym przez amerykańskiego filozofa Johna Searle'a już w roku 1980.
Bardziej wyważony (i rzetelny) jest już artykuł przedstawiający wyniki badań nowych algorytmów oraz wypowiedzi samych naukowców. Do zbudowania sieci neuronowej wyspecjalizowanej, dzięki głębokiemu uczeniu, w transkrypcji posłużyła platforma Computational Network Toolkit, wykorzystywana także w tłumaczeniach maszynowych czy rozpoznawaniu obiektów na zdjęciach. Jej kod został udostępniony przez Microsoft w repozytorium GitHub.
W rzeczywistości osiągnięcie Microsoftu, jak można było przypuszczać, niewiele ma wspólnego z rozumieniem, a przynajmniej nie przekłada się to bezpośrednio na rezultaty. A te, trzeba przyznać, są imponujące. Do skuteczności transkrypcji wykorzystuje się współczynnik WER (Word Error Rate), który jest równy ilorazowi sumy substytucji, delecji i insercji oraz liczby słów w wypowiedzeniu. Najnowsze algorytmy Microsoftu osiągnęły 5,9 WER, tyle samo co biorący udział w badaniach ludzie.
5,9 to najniższy w historii odsetek błędu WER odnotowany w przypadku transkrypcji maszynowej.
Dość zabawnie wypada w tym kontekście artykuł Dlaczego Word Error Rate nie jest dobrą miarą dla algorytmów rozpoznający mowę..., który opublikowany został 1 maja 2011 roku przez... Microsoft! Mowa w nim, że WER mierzące adekwatność doboru słów pomija w dużej części kontekst, co na dłuższą metę ma obniżać precyzję maszynowej transkrypcji.
Jak widać jeden parametr (a nie są to osiągnięcia nauki ostatnich lat, prężnie rozwijającego się w zasadzie od przełomu drugiej i trzeciej dekady XX wieku maszynowego tłumaczenia nie sposób określić mianem nowej technologii) może w ciągu zaledwie pięciu lat decydować o jakości lub bylejakości algorytmu. Pomijając już niuansie, trzeba Microsoftowi przyznać, że dysponuje w tej chwili najbardziej zaawansowanym cyberskrybą. Czekamy na implementacje.