Meta SeamlessM4T. Komunikacja łatwiejsza niż kiedykolwiek
Meta zaprezentowała możliwości nowego modelu AI SeamlessM4T. Dzięki wykorzystaniu sztucznej inteligencji komunikacja z ludźmi, którzy używają innych języków, będzie łatwiejsza niż kiedykolwiek.
24.08.2023 08:13
Zalogowani mogą więcej
Możesz zapisać ten artykuł na później. Znajdziesz go potem na swoim koncie użytkownika
Firma Meta, czyli właściciel Facebooka, zaprezentowała możliwości modelu AI SeamlessM4T. Urządzenie może stanowić bardzo użyteczne narzędzie w kontekście komunikacji ludzi, którzy posługują się różnymi językami. Według udostępnionych informacji model ten obsługuje 100 języków, zarówno w formie tekstowej, jak i ustnej.
Model SeamlessM4T ma być pierwszym wielojęzykowym modelem umożliwiającym tłumaczenie i transkrypcję. Pozwala on na zamianę mowy na tekst, mowy na mowę, tekstu na mowę i tekstu na tekst zarówno na potrzeby tłumaczenia jak i operacji w ramach jednego języka.
Dalsza część artykułu pod materiałem wideo
Z oficjalnego wpisu Meta dowiadujemy się, że narzędzie rozpoznawania mowy działa dla blisko stu języków, podobnie jak tłumaczenie mowy na tekst. Tłumaczenie mowy na mowę wspiera 100 języków nadawcy i potrafi przetłumaczyć je na 36 języków odbiorcy. Tłumaczenie tekstu na tekst możliwe jest w stu językach, a tekstu na mowę obsługuje 100 języków wejściowych i 35 wyjściowych.
Meta określa swój system tłumaczenia jako coś podobnego do rybki Babel z Autostopem przez galaktykę. Jest to duże wyzwanie, ponieważ istniejące systemy zamiany mowy na mowę i mowy na tekst obejmują jedynie wybrane języki. Model SeamlessM4T ma być jednak krokiem naprzód w rozwoju tej dziedziny. Oferuje on mniejsze opóźnienia i mniejszą liczbę błędów, zwiększając przy tym wydajność procesu tłumaczenia, co pozwala na swobodną komunikację osób, które korzystają z różnych języków.
Firma poinformowała, że udostępnia publicznie technologię SeamlessM4T na licencji CC BY-NC 4.0, aby umożliwić badaczom i programistom korzystanie z wyników tej pracy. Udostępnione zostaną też metadane SeamlessAlign, czyli zbioru danych tłumaczeń multimodalnych, który obejmuje łącznie 270 tys. godzin dopasowani mowy i tekstu.
Karol Kołtowski, dziennikarz dobreprogramy.pl