Zamień swoje obecne „okienka” w Windows 9. Część trzecia: asystent głosowy

Microsoft pozazdrościł innym producentom asystentów mobilnych. Firma postanowiła stworzyć swoje oprogramowanie tego typu, korzystające z rozpoznawania mowy, które mogłoby konkurować przede wszystkim z Siri Apple, ale też przewyższyć Google Now. Pierwsze informacje o Cortanie, głosowym asystencie dla platformy Windows, wyszły na światło dzienne rok temu. Wtedy dowiedzieliśmy się, że asystentka trafi na platformę Windows Phone, co też się zresztą już stało. Usługa ta okazała się innowacyjna pod wieloma względami, choćby dlatego, że pomocniczka od Microsoftu ma się uczyć zachowania i przyzwyczajeń użytkownika i na tej podstawie podejmować znacznie lepsze decyzje.

Redakcja

4 września 2014, 15:12

Teraz wiemy, że Cortana to nie tylko asystent przeznaczony na urządzenia mobilne, ale również inne platformy wspierane przez Microsoft. Ma ona być stałym elementem interfejsu Windows 9. Możliwe, że na urządzeniach hybrydowych będzie aktywowana poprzez dłuższe naciśnięcie fizycznego przycisku Windows, a także że na ekranie Modern zyska swój unikalny kafelek, wyświetlający informacje w sposób podobny do tego znanego z kart Google Now. Najprawdopodobniej nie zobaczymy jej w wydaniu, które zostanie opublikowane przez Microsoft jeszcze w tym miesiącu, ale nic nie stoi na przeszkodzie, abyśmy samodzielnie wdrożyli innego asystenta głosowego do obecnie używanych wersji Windows. Z trzeciej części naszego poradnika dowiedzie się, jakie oprogramowanie możecie wykorzystać do tego celu.

Już na wstępie chcemy zauważyć, że o ile nie ma problemu ze znalezieniem dobrego jak i darmowego oprogramowania do tworzenia wirtualnych pulpitów i przywrócenie klasycznego menu Start, o tyle z asystentami głosowymi sprawa jest zupełnie inna. Systemy rozpoznawania mowy są rozwijane bardzo dynamicznie, najczęściej jednak są to rozwiązania wysokiej klasy, stojące zupełnie poza możliwościami finansowymi przeciętnego użytkownika. Co prawda sprzęt mobilny przyzwyczaja nas do wprowadzania tekstu za pomocą głosu, niemniej od tego jeszcze daleka droga do faktycznego sterowania bez użycia klawiatury i myszy, nie mówiąc o wprowadzaniu dodatkowych funkcji, takich jak integracja z kalendarzem.

Dragon NaturallySpeaking

Pierwsza aplikacja jaką chcielibyśmy zaprezentować to Dragon NaturallySpeaking od firmy Nuance. Oprogramowanie to zostało pierwotnie stworzone w celu rozpoznawania mowy i zamianie jej na tekst tj. po prostu do dyktowania. Obecnie pozwala na znacznie więcej, w tym również zaawansowane sterowanie aplikacjami. Dragon jest jedną z najbardziej zaawansowanych aplikacji tego typu. Mimo to jest bardzo prosty w obsłudze, wszystko dzięki prostemu interfejsowi i rozbudowanej pomocy technicznej zapoznającej nas z możliwościami aplikacji. Obsługuje on m.in. osobne profile użytkowników, a także dedykowane słowniki. Użytkownik ma tutaj do dyspozycji łącznie pięć trybów działania: dyktowanie, wydawanie poleceń, tryb mieszany, wprowadzanie cyfr i liczb, a także literowanie.

Zaraz po zainstalowaniu Dragona dostępne są preinstalowane reguły poleceń głosowych dla niektórych aplikacji. Użytkownik może obsługiwać dzięki nim np. eksplorator systemu Windows 8.1, pakiet biurowy Office (Outlook, PowerPoint, Excel, Word), przeglądarkę Google Chrome, a nawet Painta. Nic nie stoi na przeszkodzie aby dodać własne aplikacje, jak i edytować już istniejące reguły. Aplikacja jest w stanie uczyć się słów używanych przez użytkownika za pomocą funkcji importu z dokumentów i wiadomości e-mail. Niestety Dragon posiada dwie istotne wady. Po pierwsze, nie posiada wsparcia dla języka polskiego. Możemy zamiast tego sterować komputerem po angielsku, bo obsługuje on wiele dialektów tego języka. Druga wada to fakt, że aplikacja ta jest płatna. Cena wersji podstawowej nie jest niska, wynosi 100 dolarów. Za bardziej rozbudowaną wersję przeznaczoną także do zastosowań komercyjnych przyjdzie nam zapłacić dwa razy tyle.

Spikit

W naszym zestawieniu po prostu nie mogło zabraknąć jednej z najlepszych aplikacji do sterowania głosem, czyli Spikit. Aplikacja ma rodzime korzenie, stworzył ją bowiem Mirosław Sztramski, posługujący się na naszym portalu nickiem alucosoftware. Jak podkreśla sam autor,* Spikit to program, który umożliwia bezdotykową pracę z PC za pomocą komend głosowych*. Nie wymaga on inwestowania w sprzęt, choć osobny mikrofon jest więcej niż wskazany, działa natomiast z wszystkimi wersjami Windows od XP SP3.

Aplikacja oferuje bardzo prosty w obsłudze interfejs, który umożliwia dodawanie własnych reguł, import, przywracanie ustawień fabrycznych, a także uzyskanie szybkiego dostępu do podręcznika pomocy. Spikit wraz z wbudowanymi regułami pozwala na dosyć wszechstronne sterowanie systemem i aplikacjami: wyszukiwanie danych w Internecie, poruszanie się po przeglądarce, a także sterowanie odtwarzaczem multimedialnym. Na swojej stronie internetowej autor udostępnia zestaw gotowych reguł do wykorzystania w przeglądarce Internet Explorer 11. Dodatkową zaletą aplikacji jest rozbudowane API. Osoby, które znają język C# i platformę .NET mogą wykorzystać Spikit do budowy własnych aplikacji korzystających z funkcji rozpoznawania mowy. Za przykład autor podaje głosowy czytnik RSS, który udostępnia aktualności z naszego serwisu.

Choć Spikit posiada wersję płatną, darmowa umożliwia naprawdę wiele, spisuje się natomiast bardzo dobrze. W zasadzie jej jedynym ograniczeniem jest użytek niekomercyjny, a także losowe opóźnienia w wykonywaniu rozpoznawanych poleceń. Gorąco zachęcamy do wypróbowania tej aplikacji, tym bardziej, że autor na swoim blogu przygotował całą serię wpisów jej poświęconych. Znajdziecie tam m.in. poradniki, w jaki sposób można aplikację wykorzystać, także w formie materiałów wideo, które jeszcze lepiej tłumaczą potencjał aplikacji.

tazti Speech Recognition Software

Kolejnym programem, jaki chcielibyśmy przedstawić jest komercyjny tazti Speech Recognition Software. Teoretycznie jest to bardzo prosta aplikacja, w praktyce pozwala na znaczne szybsze wykonywanie wielu akcji, nie tylko w systemie operacyjnym, ale również w konkretnych aplikacjach i grach komputerowych. Główne okno programu przedstawia dostępne komendy głosowe. Domyślnie producent zapisał w nim m.in. funkcje kopiowania i wklejania, otwierania panelu sterowania, uruchamianie odtwarzacza multimedialnego, a także obsługę przycisków myszy (tak, za pomocą głosu użytkownik może potwierdzać naciśnięcie). Możliwe jest również używanie aplikacji do przewijania, a także otwierania bibliotek.

Tazti umożliwia oczywiście edytowanie już zapisanych komend i dodawanie własnych. Użytkownik może wprowadzać zarówno słowa kluczowe, jak i akcje jakie mogą być wykonywane: uruchamianie aplikacji (także z dodatkowymi parametrami linii komend), otwieranie folderu, przejście na wybraną witrynę itp. Druga zakładka umożliwia wprowadzenie reguł dla aplikacji i gier: użytkownik może za pomocą poleceń głosowych wykonywać operacje, które normalnie wymagałyby obsługi klawiatury i myszy. Możliwe jest np. stworzenie akcji, która imituje ruch postacią w danym kierunku przez określony czas (np. 10 sekund). Mocnym atutem tazti jest wsparcie dla kontrolera Kinect. Jeżeli posiadamy to urządzenie, możemy je wykorzystać do kontroli systemu już za pomocą nie tylko poleceń głosowych, ale również gestów. Oprogramowanie to niestety nie wspiera języka polskiego i nic nie wskazuje na to, aby producent w najbliższym czasie zdecydował się na wprowadzenie jego obsługi.

SkryBot

Drugim oprogramowaniem polskiego pochodzenia jakie znalazło się w naszym zestawieniu jest SkryBot. Ta aplikacja teoretycznie służy jedynie do rozpoznawania mowy, może jednak zostać wykorzystana także w inny sposób. Rozpoznaje ona głos użytkownika zarówno podczas bezpośredniej rejestracji z mikrofonu, jak i poprzez odczytywanie wcześniej zarejestrowanych próbek. Tak rozpoznany głos może zostać automatycznie wklejony do wielu aplikacji. Producent chwali się bardzo dobrą obsługą pakietu Microsoft Office i dokumentów Google, a także komunikatorów internetowych takich jak Gadu Gadu i Skype. Dzięki Skrybotowi możemy więc pozbyć się w nich klawiatury, a dodatkowo „notować” przy pomocy głosu nasze pomysły.

Dodatkowym atutem jest aplikacja na Androida, która umożliwia nagrywanie głosu, a także przesyłanie go do aplikacji desktopowych w formie przetworzonej na tekst. Można go więc wykorzystać np. w celu stworzenia rejestratora rozmów i archiwum tekstowego. Aplikacja jest płatna, producent oferuje jednak zniżki dla studentów i uczniów. W jego ofercie znajdują się również rozwiązania bazujące na SkryBot przeznaczone do zastosowań profesjonalnych np. w medycynie, sądach czy policji. Póki co dla użytkowników domowych dostępna jest jedynie wersja demonstracyjna. Niebawem producent zamierza wydać wersję 2.0 kompatybilną ze wszystkimi nowymi systemami (w tym i z Windows 9).

Simon

Ciekawym wyborem jest również Simon stworzony pierwotnie dla linuksowego środowiska KDE, a obecnie dostępny także dla platformy Windows. Ta aplikacja opiera się na tzw. scenariuszach budujących model językowy i modelach akustycznych. Użytkownik może samodzielnie przygotować zestawy poleceń do obsługi aplikacji różnego typu. Niestety wraz z aplikacją nie otrzymujemy żadnych gotowych reguł. Jego obsługa nie należy do najprostszych, umożliwia on jednak bardzo dokładne skonfigurowanie różnych aspektów zarówno rejestrowania głosu jak i jego analizy.

Google Now

Na koniec chcielibyśmy wspomnieć o jeszcze jednym, choć bardzo prostym rozwiązaniu. Od jakiegoś czasu użytkownicy przeglądarki Chrome mogą wykorzystać w niej asystenta Google Now. Wystarczy zalogować się na swoje konto Google i przełączyć przeglądarkę na język angielski. Wtedy możliwe staje się wprowadzanie poleceń głosowych na stronie wyszukiwarki i nowej karty. Dzięki temu możemy od razu wprowadzać interesujące nas zapytania, pytać o pogodę, przeliczniki walut, aktualności ze świata, a także czas dotarcia do pracy. Funkcja ta jest wciąż rozbudowywana o nowe funkcje, niestety działa jedynie w przeglądarce, a ściślej rzecz biorąc tylko w module wyszukiwarki.

Jak widać, już teraz każdy użytkownik systemu Windows może wyposażyć swój system w funkcję rozpoznawania mowy i asystenta głosowego. Rozwiązania tego typu nie należą do najprostszych w konfiguracji, jednak po solidnym ustawieniu mogą być bardzo użyteczne. Wadą jest najczęściej koszt, bo tutaj trudno o dobre rozwiązania darmowe, jak i obsługę języka polskiego. Na Cortanę wbudowaną w „okienka” przyjdzie nam jeszcze nieco poczekać. Zobaczymy ją dopiero w Windows 9, choć nie jest do końca jasne, jak wiele funkcji będzie dostępnych w naszym rodzimym języku.