Meta SeamlessM4T. Komunikacja łatwiejsza niż kiedykolwiek

Meta zaprezentowała możliwości nowego modelu AI SeamlessM4T. Dzięki wykorzystaniu sztucznej inteligencji komunikacja z ludźmi, którzy używają innych języków, będzie łatwiejsza niż kiedykolwiek.

Meta ułatwi komunikację
Meta ułatwi komunikację
Źródło zdjęć: © GETTY | NurPhoto

24.08.2023 08:13

Firma Meta, czyli właściciel Facebooka, zaprezentowała możliwości modelu AI SeamlessM4T. Urządzenie może stanowić bardzo użyteczne narzędzie w kontekście komunikacji ludzi, którzy posługują się różnymi językami. Według udostępnionych informacji model ten obsługuje 100 języków, zarówno w formie tekstowej, jak i ustnej.

Model SeamlessM4T ma być pierwszym wielojęzykowym modelem umożliwiającym tłumaczenie i transkrypcję. Pozwala on na zamianę mowy na tekst, mowy na mowę, tekstu na mowę i tekstu na tekst zarówno na potrzeby tłumaczenia jak i operacji w ramach jednego języka.

Dalsza część artykułu pod materiałem wideo

Z oficjalnego wpisu Meta dowiadujemy się, że narzędzie rozpoznawania mowy działa dla blisko stu języków, podobnie jak tłumaczenie mowy na tekst. Tłumaczenie mowy na mowę wspiera 100 języków nadawcy i potrafi przetłumaczyć je na 36 języków odbiorcy. Tłumaczenie tekstu na tekst możliwe jest w stu językach, a tekstu na mowę obsługuje 100 języków wejściowych i 35 wyjściowych.

Meta określa swój system tłumaczenia jako coś podobnego do rybki Babel z Autostopem przez galaktykę. Jest to duże wyzwanie, ponieważ istniejące systemy zamiany mowy na mowę i mowy na tekst obejmują jedynie wybrane języki. Model SeamlessM4T ma być jednak krokiem naprzód w rozwoju tej dziedziny. Oferuje on mniejsze opóźnienia i mniejszą liczbę błędów, zwiększając przy tym wydajność procesu tłumaczenia, co pozwala na swobodną komunikację osób, które korzystają z różnych języków.

Firma poinformowała, że udostępnia publicznie technologię SeamlessM4T na licencji CC BY-NC 4.0, aby umożliwić badaczom i programistom korzystanie z wyników tej pracy. Udostępnione zostaną też metadane SeamlessAlign, czyli zbioru danych tłumaczeń multimodalnych, który obejmuje łącznie 270 tys. godzin dopasowani mowy i tekstu.

Karol Kołtowski, dziennikarz dobreprogramy.pl

Programy

Zobacz więcej
Wybrane dla Ciebie
Komentarze (4)