VoiceType w Merlin PL

Autor: Tomasz Finke (tom_at_sprocket.ict.pwr.wroc.pl)
Data: Wed 27 Nov 1996 - 17:51:54 MET


Dobra wiadomosc dla osob niecierpliwie oczekujacych na premiere polskiego
Merlina: IBM zdecydowal sie dolaczyc do tego systemu pakiet VoiceType sluzacy
do sterowania glosem, w wersji angielskiej. Poczatkowo w Merlinie PL
mialo go nie byc, istnieje tylko kilka jego wersji narodowych (US, UK,
niemiecka, hiszpanska, francuska i bodajze wloska). Nie bedzie rowniez
dokumentacji w jezyku polskim ani zadnego oficjalnego supportu. Z tych
wzgledow pakiet ten w jest przeznaczony w zasadzie dla zaawansowanych
uzytkownikow Warpa, ktorzy samodzielnie poradza sobie z jego instalacja,
nauczeniem Merlina rozpoznawania swojego glosu i ktorzy beda chcieli
pobawic sie w wlasnoreczne (to niezbyt odpowiednie slowo) utworzenie
polecen i makr sterujacych odpowiadajacych opcjom menu wystepujacym w polskich
aplikacjach. VoiceType w angielskim Merlinie pracuje (upraszczajac sprawe)
przetwarzajac polecenia slowne na nazwy opcji w menu sterowanego programu,
ktore sa nastepne uruchamiane. Oprocz tego istnieje zestaw polecen sluzacych
do manipulacji obiektami na Pulpicie. Istnieje mozliwosc zdefiniowania
wlasnych polecen slownych i przypisania im odpowiednich akcji. W ten sposob
chcac przykladowo wybrac opcje otwierania pliku w edytorze bedzie mozna
powiedziec 'otworz', zamiast sekwencji typu 'system menu, right, down,
down, enter'. No chyba, ze ktos naprawde polubi rozmawianie ze swoim
komputerem :-)

Druga podstawowa funkcja realizowana przez VoiceType jest rejestracja
dyktowanego tekstu. Niestety, jej wykorzystanie do zapisu dokumentow
w jezyku polskim nie bedzie mozliwe, poniewaz VoiceType korzysta
z obszernego angielskiego slownika oraz scisle z nim powiazanych
algorytmow analizy skladni i kontekstu, pozwalajacych m.in. na poprawna
identyfikacje identycznie brzmiacych slow na podstawie ich polozenia
w analizowanym zdaniu. Ze wzgledu na wysokie koszty opracowania tych
elementow, IBM zdecydowal sie na lokalizacje VoiceType tylko dla tych
jezykow, ktore sa uzywane przez najwieksza liczbe potencjalnych klientow.
Z pewnoscia jednak dyktowanie moze zainteresowac osoby, a jest ich niemalo,
ktore na codzien zajmuja sie redagowaniem angielskich tekstow, jak chocby
poczty elektronicznej czy newsow wysylanych do zagranicznych list
dyskusyjnych.

VoiceType ma stosunkowo wysokie wymagania sprzetowe, zalecane jest Pentium
100 i 32MB RAM oraz dowolna karta dzwiekowa obslugiwana przez OS/2,
dajaca mozliwosc probkowania 16bit/11kHz. Bardzo duzo zalezy od jakosci
uzywanego mikrofonu, powinien on miec wysoka czulosc i kierunkowosc,
przydatna tez jest oslona z gabki zabezpieczajaca przez przesterowaniami
wskutek podmuchow powietrza przy mowieniu. Nie nalezy zrazac sie
poczatkowymi trudnosciami z uczeniem systemu rozpoznawania swojego glosu.
Juz po przeczytaniu kilkunastu testowych zdan ilosc bledow wymagajacych
powtorzenia danego slowa zaczyna wyraznie spadac, system zaczyna dostrajac
sie do glosu uzytkownika. O ile przy rozpoczeciu nauki nawet niewielkie
zmiany w odleglosci miedzy mikrofonem a ustami lub jego polozenia mialy
duzy wplyw na liczbe blednie interpretowanych wyrazow, to po jej
zakonczeniu i wygenerowaniu mojego profilu akustycznego mozna bylo
bez przeszkod sterowac systemem bedac o metr lub wiecej od mikrofonu.
Sporo tez zalezy od poziomu szumow i zaklocen tla, dobrze jest prowadzic
nauke w cichym pomieszczeniu.

Szcerze mowiac po pierwszych informacjach prasowych o planach IBM
dotyczacych wbudowania systemu rozpoznawania glosu do ich nowego systemu
operacyjnego bylem dosc sceptycznie nastawiony do tego pomyslu. Ale juz
po kilku godzinach eksperymentow z VoiceType'm stalem sie wielkim entuzjasta
tego pakietu. To naprawde dziala, stabilnie i powtarzalnie i wnosi
zupelnie nowy wymiar do codziennego obcowania z komputerem. Kilka razy
zdarzylo mi sie zawieszenie programu w trakcie generowania profilu dzwiekowego
ze zgromadzonych probek, ale nigdy podczas pracy. Niestety, nie ma nic za
darmo, dzialajacy VoiceType zajmuje sporo pamieci i mocno obciaza procesor.
Testowalem go na zalecanej konfiguracji i mysle, ze dopiero od P166
w gore mozna pracowac z tym programem naprawde komfortowo.

Tomasz Finke

PS. Slyszalem, ze na rynku jest juz VoiceType dla Windows 95. Ja nigdy
nie rozumialem polityki marketingowej IBM w odniesieniu do OS/2, ale
teraz to juz przeszli samych siebie. Czy Bill Gates kiedykolwiek
zrobilby cos podobnego, np. wypuscil Office 97 for OS/2!? Sami graja
do wlasnej bramki.



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Tue 18 May 2004 - 12:57:34 MET DST