Chińska sztuczna inteligencja powie twoim głosem to, czego sam byś nie powiedział
Oprogramowanie pozwalające maszynom mówić naszym głosemrzeczy, których nigdy byśmy sami nie powiedzieli może pojawić sięwcześniej, niż będziemy na nie gotowi. Naśladownictwo ludzkiegogłosu od lat budzi wielkie zainteresowanie badaczy naturalnychinterfejsów użytkownika, jak do tej pory jednak uzyskanienaturalnego brzmienia było trudne, a idealne podszycie się podokreślony głos wręcz niemożliwe. Eksperci od sztucznejinteligencji z chińskiego potentata internetowego Baidu poczynilijednak wielki krok naprzód, tworząc system klonowanianeuronalnego, zdolny zachowaćakcent i wiele charakterystycznych cech mowy. Czy dzięki temurozwiązaniu uda się na dobre wprowadzić ludzkość w erępostprawdy?
Jak do tej pory nagrania głosowemogły być wykorzystane jako dowody w sądach. Oczywiściemontowanie z wycinków nagrań głosu człowieka czegoś nowego, cozawierałoby np. jakąś kompromitującą deklarację, nie jestniczym nowym, takie rzeczy robiło się już w latach 70 za ZimnejWojny. Bardzo trudno było jednak uzyskać wiarygodne brzmienie,metoda kopiuj i wklej pozwalała działać tylko na dostępnymzbiorze nagranych słów. Bazujące na sieciach neuronowych metodyopisane w artykule pt.Neural Voice Cloning with a Few Samplesto jednak zupełnie nowa jakość: na podstawie raptem kilku nagrańudaje się zbudować wiarygodnie brzmiący model mówcy, który powiewszystko, głosem bardzo podobnym do tego z nagrania.
Badacze eksperymentowali z dwiemametodami. Pierwsza z nich to adaptacja mówcy, polegająca natrenowaniu modelu sieci neuronowej na różnych mówcach o różnychgłosach. Wykorzystano w tym celu zbiór LibriSpeech, zawierającypróbki mowy niemal 2,5 tysiąca mówców. Z tego zbioru sieć uczysię wyróżniach cechy mowy, by na tej podstawie naśladowaćspecyfikę wymowy i rytmu mówienia.
Druga metoda, kodowanie mówcy,bazuje na trenowaniu modelu tak, by nauczył się określonych cechod mówiącego, odtarzając próbki dźwięku z oddzielnego systemuszkolonego na wielu mówcach. Tutaj po przeszkoleniu na zbiorzeLibriSpeech, wykorzystywane są dodatkowe próbki ze zbioru VCTK, podziesięć na mówcę. Zbiór ten to nagrania ponad setkianglojęzycznych mówców o różnych akcentach. Zadaniem siecineuronowej wyszkolonej na LibriSpeech jest ich jak najlepszeodtworzenie.
To drugie podejście wygląda naznacznie bardziej obiecujące, działa na dowolnych, wręcz losowychwypowiedziach i wymaga znacznie mniejszej mocy obliczeniowej ipamięci – eksperci Baidu mówią, że wystarczy do tegowspółczesny smartfon. Adaptacja mówcy wymaga tymczasem wygłaszaniaokreślonych zdań, wymaga też znacznie potężniejszego sprzętu.
Jak to działa w praktyce? Próbkimożecie wysłuchać na stronieinternetowej projektu. Z wypowiedzi „they had four childrentogether” powstało „churches should not encourage it or make itlook harmless”. Ze zdania „the regional newspapers hadoutperformed national titles” uzyskano „the large items have tobe put into containers for disposal”. Jak słychać, do ideałuwiele brakuje, poza tym próbki, które wytłuszczonym drukiemoznaczyli badacze wcale nie są naszym zdaniem tymi najlepszymi.Generowane nagrania są też wyraźnie niższej jakości niżoryginalne próbki. Niemniej jednak udaje się zachować akcent – igeneralne podobieństwo do mówcy.
Oczywiście chińscy badacze niemówią otwarcie o tworzeniu nowych wypowiedzi prezydenta DonaldaTrumpa, by skompromitować go na scenie międzynarodowej, ale obardziej przyziemnych i mniej złośliwych celach – ot np.skonfigurowanie inteligentnego audiobooka tak, by czytał dzieciombajkę głosem ich mamy. Przyznają jednak że konieczne będziewprowadzenie środków zapobiegawczych, by zapewnić, że technologiata nie zostanie wykorzystania w niewłaściwy sposób.
Pocieszająca bzdura w erzeotwartego oprogramowania i tanich, potężnych kart graficznych dotrenowania sieci neuronowych, a nawet testowanych usług w chmurze,takich jak projekt Lyrebird. Coprawda Adobe przeraziło się chyba konsekwencji prawnych swojegoProjektuVoCo i po tej demonstracji w 2016 roku na forum nowych pomysłówkonferencji MAX nic już więcej nie pokazało – ale jak widać, naAdobe świat się nie kończy.