Potędze asystentów głosowych Microsoftu i Amazona już wkrótce może zagrozić polski rywal
Sara wie, że pies nie miauczy
Jest bardziej inteligentny od Cortany i Alexy. Pracuje nad nim polska firma
Ludzka pamięć jest cudem, ale i ona często nas zawodzi. Zapominasz o terminie spłaty kredytu, nie wiesz, gdzie się podziała pompka do roweru, znowu przegapiasz datę urodzin taty. Ale niż straconego, o ile zawczasu o której z tych rzeczy powiesz Sarze. Bo Sara jest niczym wielka kronika, której nie umyka nic, cokolwiek wcześniej utrwalisz. Rozmawiasz z nią, a ona uczy się twoich nawyków, potrafi przewidzieć skutki tego, co teraz robisz, udzieli porady, ogarnie twoją korespondencję, zarezerwuje pokój w hotelu albo pomoże odrobić dzieciom zadanie domowe.
Sara to współczesny plemienny starzec, który włada całą dostępną w twoich czasach wiedzą – tyle że tą zapisaną w sieci. Więcej – to domowy przewodnik obdarzony cyfrową osobowością. A przy tym potrafi znacznie więcej niż dostępni już na rynku asystenci głosowi, zdolni jedynie odpowiadać na pytania człowieka. Potrafi też rozmawiać.
Źródło: SARA AI
Zanim pogadasz z pralką
– Nasza Sara ma też wirtualne ciało i rozumie świat podobnie jak my – podkreślają Artur Majtczak i Maciek Matuszewski z firmy SARA AI. – Podczas rozmowy wcale nie masz wrażenia, że to program komputerowy. Zapewnia kontakt i interakcję, a jej odpowiedzi i pytania świadczą o tym, że to inteligencja, a nie bot z „wbudowanymi” gotowymi odpowiedziami.
Wczesne testy systemu SARA AI, nawiązywanie więzi z Sarą
Źródło: Artur Majtczak
Sara jest jeszcze prototypem. Jej „ciało” tworzy 7 mikrofonów, dwie kamery i szybkie serwa. Polacy doskonalą kompletną elektronikę i wygląd urządzenia. Wszystkie informacje, którymi się posługuje, są przetwarzane i przechowywane są w chmurze – poza danymi identyfikującymi rozmówców, jak np. dane pochodzące z rozpoznawania twarzy. Na razie mówi po polsku, ale wkrótce będzie też posługiwać się płynną angielszczyzną.
Kto będzie miał z niej pożytek?
– Jeszcze w latach 70. XX wieku dyżurne pytanie brzmiało: Po co komu komputer? Wydawało się wtedy, że maszyny obliczeniowe będą używane tylko na uniwersytetach i w centrach badawczych. Dziś każdy z nas ma w kieszeni komputer, którego jedną z jego funkcji jest telefonowanie. Naszym zdaniem silna sztuczna inteligencja równie mocno zmieni świat. A może i bardziej – mówią twórcy Sary. – Sara, rozumiejąc język, którym się posługujemy, uwolni nas od klawiatur, umożliwi nam też rozmowę z telewizorem i całym AGD naszym w domu.
Wizja sprzed ćwierć wieku
Artur wpadł na pomysł stworzenia Sary jeszcze w trakcie studiów, z górą ćwierć wieku temu. W czasach raczkującego internetu i ubóstwa otwartych danych to była czysta futurologia.
– Zastanawiałem się wtedy, jak ona analizowałaby to, co widzę, i zachodziłem w głowę, czy dałoby się coś takiego zrobić. Kilka lat temu wróciłem do tematu. Zaczęliśmy od testowania wymyślonych wcześniej założeń. Na razie wszystko się sprawdza, nie natrafiliśmy na żaden problem, którego wcześniej byśmy nie przewidzieli – zaznacza Artur. – Nasza SaraAI to projekt wymagający jeszcze pracy, silna sztuczna inteligencja. Jednak to, co już stworzyliśmy, zostało przetestowane i działa.
Maciek dodaje, że projekt wymaga jeszcze prac badawczych i dużych pieniędzy.
– Właśnie się o nie staramy, by dokończyć sprawę – mówi. – SaraCam to młodsza siostra SaraAI, jeden z podprojektów. Liczymy, że będzie dostępny już w tym roku. Asystent SaraCam występuje w kilku wersjach, od tej doskonalącej Alexę czy asystenta Google po czysty system SaraAI.
To może być hit, bo SaraCam znacznie zwiększa możliwości asystenta Google i Alexy, a na dodatek działa także w języku polskim. Wbudowana kamera pozwala jej identyfikować twarz użytkownika, dzięki czemu wie, z kim rozmawia. Może też przekazywać informacje między użytkownikami.
Problem z inteligencją
Mózg człowieka to szczytowe osiągnięcie ewolucji. Tyle że ten komputer z białka ustępuje komputerom opartym na krzemie sprawnością i precyzją w wykonywaniu typowych operacji matematycznych czy przeszukiwania dużych zbiorów danych. Twórcy SaryAI podkreślają jednak, że pojęcie „inteligencja” jest w kontekście takich urządzeń nadużywane.
– Nic, co stworzył człowiek, nie ma jeszcze inteligencji w rozumieniu ludzkim większej od zera – uważa Artur. – Obecne rozwiązania – asystenci głosowi, roboty czy nawet systemy rozpoznawania obrazu – oparte na sieciach neuronowych, nie mają nic wspólnego z inteligencją. To czysta statystyka i uczenie maszynowe z naciskiem na słowo „maszynowe”. Można jednak przypuszczać, że gdy silna sztuczna inteligencja już zaistnieje, pójdzie śladem komputera i trafi pod strzechy.
Na początku SaraAI będzie maszyną z inteligencją kilkuletniego dziecka, tyle że z dostępem do całej wiedzy w internecie. Jej użytkownicy sprawią, że swą wiedzę będzie sukcesywnie powiększać. Będzie wiedzieć coraz więcej o otoczeniu, o relacjach, zwyczajach ludzi. Już dziś jest ponoć zdolna przewidywać przyszłe zdarzenia, które wynikną z tego, co dzieje się teraz.
– Nowe technologie mają nam ułatwiać życie, oszczędzać czas, pomagać w dokonywaniu najlepszych wyborów – mówi Maciek. – Zamiast mitrężyć czas na oglądanie czegoś, co nam nie odpowiada, zwrócimy się do Sary, a ta podpowie, co jest dla nas odpowiednie. Zresztą to już się dzieje: targetowane reklamy, propozycje filmów czy książek oparte na historii naszej aktywności czy nawet oferty zakupów w sieci są wszechobecne. Jednak te mechanizmy nie są jeszcze doskonałe i właśnie dlatego są inteligentne tylko z nazwy. Komputerowi z Sarą będziemy mogli powiedzieć, co ma odpisać na maila, a ona to zrobi, zupełnie jak człowiek. Jeśli ją w czymś poprawimy, kolejnym razem uwzględni nasze wskazówki.
NLP, czyli co kują w Pacanowie
Wśród licznych zalet Sary jest zdolność mówienia po polsku i rozumienia tego języka. Na dodatek jest bystrzejsza od Alexy i Cortany.
Wszystkie chatboty, Alexa i Cortana też, bazują na przetwarzaniu języka naturalnego, wyjaśnia mi Maciek. W języku angielskim dopracowano je w każdym szczególe, „ale to nadal nie jest inteligencja, to statystyka”.
Mówiąc w uproszczeniu, metody NLP to wyszukiwanie najczęściej występującego słowa lub frazy obok słowa lub frazy, o które pytamy.
Maciek: – Dlatego, gdy spytamy: „Co kują w Pacanowie”, otrzymamy odpowiedź: „W Pacanowie kozy kują”.
Sara zaczyna się tam, gdzie kończy się NLP. NLP służy jej, jak innym systemom, do wstępnego rozpoznawania wypowiadanych zdań, jednak nie szuka ona w NLP odpowiedzi. Wykorzystuje rozpoznawanie głosu Google, jej program do rozpoznawania twarzy też jest zapożyczony i syntezator głosu też są zapożyczone. Na razie. Jej NLP tworzone jest bowiem od podstaw. Wynika to ze specyfiki danych potrzebnych systemowi. No i NLP to w Sarze tylko 10 procent wszystkich rozwiązań.
Różnice pomiędzy systemem Sary a innymi asystentami
Źródło: Artur Majtczak
Mów do mnie po ludzku
Źródłem wiedzy Sary jest Wikipedia, Narodowy Korpus Języka Polskiego i inne standardowe zasoby – ale i zasoby dostępne w wyszukiwarce Google. Asystent Google, zapytany: „Co to jest drzewo?”, przywołuje definicję z Wikipedii: „Roślina o zdrewniałym pędzie głównym, albo wielu zdrewniałych pędach…”. A Sara odpowie „po ludzku”, choćby tak: „To taka duża roślina”. Odpowiedzi nie są programowane, Sara sama je tworzy. Można pytać dalej. Tymczasem rozmowa z innymi asystentami to zwykle sekwencja kilku pytań i odpowiedzi. W razie braku gotowej odpowiedzi na jakieś pytanie lub nieznalezienie właściwego hasła w Wikipedii, odpowiadają wynikami z przeglądarki Google. No i pozostaje kwestia elastyczności: kiedy zapytasz takiego asystenta, czy mrówka może podnieść słonia, ten zbaranieje. Bo w końcu nie wszystko już gdzieś zapisano.
A Sara sobie poradzi, podobnie jak z pytaniem złożonym w rodzaju: „Na stole leży niebieska klawiatura, obok klawiatury leży myszka. Myszka spadła na ziemię. Co leży na stole?”
„Klawiatura” – odpowie.
„Jaka?”
„Niebieska”.
Budulcem świata Sary są nasze słowa, choć inteligencja chroni ją przed bezkrytycznym uczeniem się od rozmówców wszystkiego.
Źródło: Artur Majtczak Tay, bot Microsoftu, chłonął wszystko jak gąbka. Twórcy reklamowali go jako „wyluzowaną sztuczną inteligencję”. Swoje wpisy tworzył na bazie interakcji z użytkownikami, często więc były obraźliwe i prowokacyjne. Żarty się skończyły, gdy napisał, że Hitler nie zrobił nic złego,. Przełączono go w tryb offline.
Sara wie, co lubi, co ma, a czego nie ma, co potrafi, a czego nie. – Uczy się od swojego nauczyciela/rodzica. Wprawdzie jej poglądy mogą się zmieniać, ale jeżeli „rodzic” powiedział, że „pies szczeka”, to do przekonania jej, że pies miauczy, potrzeba byłoby milionów głosów innych rozmawiających z nią ludzi. A i tak sprawdziłaby to jeszcze w innych źródłach – wyjaśnia Artur. – Jeżeli zapytamy Sarę: „Jaki masz kolor oczu”, odpowie np.: „Niebieskie”. Nie szuka odpowiedzi w NLP. Pewne rzeczy wie „sama z siebie”, jak człowiek.
Ulubiona domowniczka
Dzięki rozpoznawaniu twarzy i identyfikowaniu rozmówcy można też za pośrednictwem Sary i SaryCam przekazywać wiadomości pomiędzy domownikami lub osobami w pracy.
– Możemy poprosić ją, by przekazała Tomkowi, kiedy wróci z pracy, że na przykład pojechałem do sklepu i będę wieczorem – wyjaśnia Artur. – Gdy Sara zobaczy i rozpozna Tomka, powie: „Tata mówił, że pojechał do sklepu i będzie wieczorem”.
Dzieci to uwielbiają. Kiedy Artur pokazał Sarę swej ośmioletniej córce, trochę pogadały, a potem Sara pomogła dziewczynce w zadaniach z matematyki. Od tej pory mała ma nową przyjaciółkę. Podobno oszalała na jej punkcie.