Sztuczna inteligencja przeczyta audiobooki naturalną intonacją i głosem autora

E-booki, to po prostu zmiana formatu książki na elektroniczny głównie dla wygody. Ale głosowe audiobooki wiążą się też z nowym doświadczeniem - ludzkim głosem lektora czy aktorów. A gdyby tak nauczyć komputer mówić głosem autora książki? Nawet już zmarłego.

Sogou stworzy kolejne głosowe awatary na potrzeby syntezatorów mowy. (fot. materiały prasowe Sogou)

Jan Domański

13 sierpnia 2019, 21:31

Wzrost popytu na książki w wersji audio widać chociażby w Chinach. BBC News powołując się na iiMedia prognozuje, że rynek audiobooków w kraju środka w latach od 2016 do 2020 ma wzrosnąć ponad dwukrotnie do 7,8 mld juanów (około 1,1 mld dolarów). Warto w takim razie inwestować w tą gałąź elektronicznych książek. Sztuczna inteligencja pomoże uzyskać na podstawie próbek głosu wiarygodne nagrania lektorskie. Dzięki temu będzie taniej, a także z nowymi możliwościami.

AI to sposób na tańszą produkcję audiobooków

Jeden ze start-upów z Wielkiej Brytanii uważa, że przetwarzanie mowy pozwoli na stworzenie typowego audiobooka w kilka godzin i przy 10% aktualnych kosztów. Oczywiście nie mówimy o mocno syntetycznym sposobie intonacji jak chociażby u asystentów głosowych, a prawdziwie profesjonalnych nagraniach, które miałyby być bardzo wierne pracy lektora lub aktora z krwi i kości. Nowe metody uzyskania mowy są coraz bardziej naturalne dla ludzkiego ucha.

Niektóre rozwiązania działają przy naprawdę niewielkich próbkach. Chociażby technologia Lyrebird umożliwia stworzenie wzorca mowy z minutowego nagrania audio, w którym czytamy podsuwane kwestie. Co prawda, słychać wtedy sztuczność, ale twórcy zalecają nagranie o wiele większego zestawu próbek, aby polepszyć efekt. Syntezator mowy Lyrebird działa tylko w języku angielskim, ale to technologia dostępna nawet dla przeciętnego użytkownika w domowym zaciszu, a założenie konta jest darmowe.

Znani twórcy jako głos z komputera

Wracając jednak do Chin, to tamtejsza wyszukiwarka Sogou chce stworzyć projekt opracowywania audiobooków przez syntezator mowy bazujący na sztucznej inteligencji. Byłyby to nie byle jakie głosy, a użyczone przez samych autorów. Naturalnie wystarczyłoby jedno podejście, więc pojedyncze dłuższe nagranie załatwiałoby sprawę całego dorobku audiobooków danego autora. Informacje te zostały ogłoszone na China Online Literature+.

Jak na razie mowa o cyfrowych głosach Yue Guan i Bu Xin Tian Shang Diao Xian Bing. To nie pierwszy tego typu projekt Sogu. Firma stworzyła już dwa awatary przedstawiające telewizyjne wiadomości, które są w użyciu przez rządową agencję informacyjną Xinhua.

Kto wie czy kiedyś nie dostaniemy innego typu projektów. Może za jakiś czas cyfrowo wskrzesimy głosy pisarzy lub innych sławnych osób, którzy nie nagrają już swoich kwestii, bo dawno od nas odeszli. Jeśli zebrać wszystkie nagrane z różnych źródeł ścieżki audio, to na pewno dysponujemy wystarczającą bazą dla często udzielających się przed kamerą i mikrofonem postaci.

Z czasem nawet krótkie przypadkowe próbki zapewne będą mogły wystarczyć. W takim razie jest szansa też dla ważnych postaci z naszego dorobku kultury, które nie były aż tak medialne lub po prostu zmarły na tyle dawno, że nie doczekały czasów, w których zapewne pozostawiłyby po sobie więcej nagrań głosu.