Techniki rozpoznawania mowy

    Nareszcie „słuchające samochody” w pełni wykorzystają technikę rozpoznawania ludzkiego głosu i będą nas „rozumieć”

    Technika rozpoznawania mowy upowszechnia się, ukierunkowując się na potrzeby wymagającego przemysłu motoryzacyjnego, a czyni to wykorzystując systemy, które usiłują „zrozumieć”, czego chce kierowca. Ponieważ sprzedawcy skupili się na tym potencjalnie ogromnym rynku, stopniowo sami zaczęli wytwarzać systemy rozpoznawania głosu o charakterze bardziej konwersacyjnym i rozumiejącym znaczenie, zamiast dotychczasowych systemów, które wymagają jasnych poleceń.

    Mowa jest uważana za istotną opcję sterowania pojazdem, szczególnie od kiedy kierowcy zaczęli zabierać ze sobą coraz więcej przenośnych urządzeń, odciągających ich uwagę od prowadzenia samochodu. Kiedy wprowadzono nakaz używania telefonów z zestawem głośnomówiącym, natychmiast pojawiły się sprawne systemy głosowego wybierania numeru. Powoli są one postrzegane niemal jako konieczność niezbędna do sterowania elektroniką.

    Już dziś można stwierdzić, iż bezprzewodowa łączność Bluetooth w połączeniu z systemami rozpoznawania mowy będzie tworzyć prawie nierozłączną parę w motoryzacji. Bazuje na tym m.in. stosowany przez Chryslera system łączności uConnect w technologii Bluetooth. – uConnect wykorzystuje technikę rozpoznawania głosu, pozwalając kierowcy ani na chwilę nie odrywać rąk od kierownicy – mówi Vance Peacock, dyrektor naczelny grupy Chryslera do spraw komunikacji i rozrywki w samochodzie.

    Głosem łatwiej jest wybierać numer telefoniczny, podawać punkty docelowe systemom nawigacyjnym, a konsumenci, którzy będą chcieli wybierać swoje ulubione utwory spośród tysięcy plików mp3, na pewno też zainteresują się możliwością sterowania głosowego. Lansowanie technologii głosowych w przemyśle samochodowym ma coraz mocniejsze podstawy.

    Firma Nuance Communications Inc. z Burlington w Massachusetts, wcześniej znana pod nazwą ScanSoft Inc., stwierdziła, że jej sprzedaż wzrosła o ponad 30 procent i przewiduje się, że w 2006 roku osiągnie poziom 325 mln dolarów. IBM, która nie jest firmą skupiającą się na małych niszach rynkowych, wyposaża wiele profesjonalnych systemów biznesowych w możliwość rozpoznawania mowy i rozszerza swoje działania także na branżę samochodową. W roku 2004 firma podpisała umowy na dostawę oprogramowania do systemu nawigacyjnego OnStar, produkcji General Motors, a także do systemu nawigacyjnego Hondy.

    Normalna rozmowa

    Po tym, jak rozpoznawanie głosu zajęło dominujące miejsce, sprzedawcy zastanawiają się nad dalszymi możliwościami tej techniki. Wraz z opracowywaniem produktów wypróbowywanych w długim cyklu rozwojowym obowiązującym w przemyśle samochodowym uwaga sprzedawców przesunęła się na techniki konwersacyjne, w których rozpoznawane są popularne frazy, a nie ma już wymogu stosowania ściśle określonej składni czy konkretnej struktury zdania.

    – Technika mowy staje się niemal codziennością. Obecnie zwraca się ona ku poleceniom w stylu konwersacyjnym lub rozumieniu naturalnego języka – mówi Mark Kady, szef grupy inżynierii oprogramowania w Delphi Automotive z Kokomo w Indianie. Stwierdził on, że pojemność słownika, którym dysponują systemy zabudowane w samochodzie, wzrosła z 2 tys. słów w 2003 roku do 30 tys. słów w 2004 i powyżej 100 000 słów w 2005 roku.

    Tak wielkie możliwości pozwalają na głosowe wprowadzanie informacji do systemów nawigacyjnych i wybór na odtwarzaczu medialnym utworów muzycznych, szczególnie w systemach odtwarzaczy z twardym dyskiem, zawierających ponad 10 tys. utworów, zapisanych w postaci plików mp3.

    Ponieważ pojemność słowników rośnie, projektanci usiłują doprowadzić do zrozumienia nie tylko słów, ale i sensu zdań wypowiadanych przez użytkownika. Przejście do mowy konwersacyjnej inspiruje niektóre firmy do zmiany punktów odniesienia w ich systemach. Panujące obecnie podejście, polegające na zliczaniu rozpoznanych słów, nie jest zbyt skuteczne, jeżeli ogólne znaczenie powiązanych ze sobą słów nie zostało zrozumiane. – Podejmujemy starania zmierzające nie do przyspieszenia tempa rozpoznawania, ale skupiamy się przede wszystkim na szybkości wykonania zadania – mówi Tom Frejman, wiceprezes do spraw marketingu w Voice Box Technologies. Młoda firma z Kirkland w stanie Waszyngton planuje wprowadzenie na rynek swojego produktu w przyszłym roku.

    Te systemy nie będą rozszyfrowywały rozmów, które pasażerowie pojazdu prowadzą między sobą, ale będą trwały w stanie gotowości, dopóki kierowca ich nie „obudzi”. – Do inicjalizacji można będzie użyć przycisku uaktywniającego albo jakiegoś hasła słownego. System będzie ignorował rozmowę dopóki nie wypowiesz słowa „komputer” lub jakiegokolwiek innego, które wybrałeś – mówi Frejman.

    Chociaż systemy konwersacyjne stanowią nadchodzącą falę, wciąż jeszcze będzie istniał rynek dla prostszych programów, wykorzystujących określone instrukcje słowne. – Polecenia i systemy sterowania wciąż będą dostępne dla produktów z niższej półki i będą obsługiwać takie funkcje, jak wybieranie głosowe numerów w telefonie, będą też używane w innych, tańszych systemach – mówi Kady.

    Sprawy związane ze sprzętem

    Chociaż użytkownicy nie lubią ograniczeń wynikających ze struktury poleceń, wielu z nich będzie się musiało przystosować, kiedy zdadzą sobie sprawę z tego, że dodatkowa komplikacja, wynikająca z mowy konwersacyjnej znacznie podniesie koszty systemu. Ceny mogą też powstrzymać producentów samochodów przed szybkim wprowadzeniem konwersacyjnego sterowania głosem do samochodów średniej klasy. – Ludzie mówią o systemach konwersacyjnych, ale wymaga to szybkiego cyfrowego procesora dźwięku i pamięci o dużej pojemności. Jest to bardzo drogie przedsięwzięcie. Na pewno kiedyś się upowszechni, ale nie w najbliższej przyszłości – mówi Stephen Thaler, dyrektor do spraw marketingu z National Semiconductor’s Device Connectivity Division.

    Taki potencjał przetwarzania danych jest już dostępny w dzisiejszych samochodach klasy luksusowej. – Konwersacyjne wydawanie poleceń będzie możliwe w samochodowych systemach wyższej klasy, gdzie jest już dostępna moc powyżej 100 milionów instrukcji na sekundę dla celów rozpoznawania głosu – mówi Kady.

    Dzisiejsze technologie chipów znakomicie nadążają za oprogramowaniem, aby dostarczyć kierowcy luksusowego samochodu coś, co można określić jako odpowiedź w czasie rzeczywistym. – Możemy przetwarzać wypowiedź z szybkością równą 1,2 szybkości mowy, co wystarczy, aby przetworzyć ją, zanim osoba zda sobie sprawę ze zwłoki – mówi Frejman.

    Pozostają jednak obawy związane z niezawodnością. Niektórzy obserwatorzy zauważają, że takie systemy rozpoznawania mowy, jakie są stosowane w usługach telefonicznych (informacje telefoniczne) lub obsłudze kart kredytowych, działają w cichym otoczeniu, a mimo to zdarzają się im błędy. – Rozpoznawanie głosowe nie dowiodło jeszcze swojej całkowitej niezawodności. Nawet w cichym otoczeniu zdarzają się pomyłki – mówi Tarun Gupta, dyrektor do spraw produktu i innowacji w należącej do Siemens VDO firmie North American Infotainment Systems Division.

    Oprócz hałaśliwego otoczenia, systemy samochodowe odróżnia od systemów biurowych – dysponujących praktycznie nieograniczoną pojemnością pamięci – to, że potrzebują niewielkiej pamięci, często rzędu tylko kilku MB. Mikrosterowniki działające w środowisku samochodowym mają z reguły niższą szybkość pracy niż systemy oparte na komputerach osobistych. Dzisiejsze sterowniki dla przemysłu samochodowego mają szybkość 60 – 120 MIPS (milionów instrukcji na sekundę), a więc znacznie poniżej parametrów tanich komputerów osobistych.

    Techniki dodatkowe

    Rynek światowy stawia dodatkowe wyzwania projektantom, którzy muszą dostosować programy do każdego języka. Jest to szczególnie trudne wyzwanie dla tych, którzy chcą się skoncentrować na mowie konwersacyjnej. – Każdy język stanowi odrębny projekt. Nasza technika skupia się przede wszystkim na semantyce i szyku wyrazów – mówi Frejman.

    Następne zadanie polega na ustaleniu, które z systemów wymagają sterowania głosem. Pierwsze systemy przeznaczone dla samochodów oferowały sterowanie radiem lub klimatyzacją. Projektanci szybko jednak doszli do wniosku, że pewne czynności, takie jak ustawienie nawiewu ciepłego powietrza, można wykonać znacznie łatwiej i dokładniej, przekręcając odpowiednie pokrętło lub naciskając przycisk. Sterowanie głosowe okazywało się jeszcze mniej przydatne, szczególnie gdy – chcąc aktywować określoną funkcję – trzeba było jeszcze dodatkowo nacisnąć jakiś przycisk.

    Ci, którzy koncentrują się na rynku samochodowym, muszą również planować, wybiegając daleko w przyszłość, co nie zawsze jest zbieżne z doraźnymi potrzebami małych firm. – Czasy dostaw są bardzo długie dla producentów samochodów. Sprzedaż na rynku wtórnym za pośrednictwem Best Buy (Najlepszy Zakup) jest znacznie bardziej ekscytująca – mówi Frejman.

    W przemyśle motoryzacyjnym możliwości istniejących systemów rozpoznawania głosu muszą być ulepszone. Taki system może dobrze działać w biurze lub w domu, ale o wiele trudniej jest mu zrozumieć wypowiedź rozkojarzonego kierowcy na wyboistej drodze podczas burzy z deszczem.

    Dostawcy zauważyli, że telefony z wybieraniem głosowym często sprawiają kłopot w hałaśliwych pojazdach. – System rozpoznawania głosu w telefonach komórkowych działa w cichym otoczeniu, natomiast w samochodzie potrzebny jest na ogół zestaw głośnomówiący z funkcją redukcji hałasu i eliminacji pogłosu – mówi Tom Houy, wiceprezes CSR plc.

    Rozwiązania techniczne wykraczają tu już poza oprogramowanie służące do rozpoznawania głosu. Sprzedawcy systemów operacyjnych współpracują blisko z firmami specjalizującymi się w eliminacji echa i redukcji szumów, aby mieć pewność, że ich programy nie będą zawodne. – Ze strony systemu operacyjnego wiele już zrobiono w kwestii likwidacji echa i ograniczenia hałasu. Kiedy problem ten zostanie rozwiązany urządzenia do rozpoznawania mowy będą się dobrze sprawowały w samochodzie – mówi Andrew Poliak, dyrektor działu samochodowego w QNX Software Systems.

    Kiedy wiele różnych funkcji sterowanych głosem zostanie zintegrowanych w systemie inforozrywki, sprzedawca musi mieć gwarancję, że problem z jedną aplikacją nie pociągnie za sobą awarii innych programów. Problem ten podkreślają również dostawcy systemów operacyjnych działających w czasie rzeczywistym. – W naszym systemie operacyjnym poszczególne aplikacje nie dzielą pamięci, a zatem możemy zagwarantować, że nie ma mowy, aby program mógł się wydostać ze swojej „wyściełanej komórki” – mówi Dan Mender, dyrektor do spraw rozwoju biznesowego w Green Hills Software Inc.

    Autor: Terry Costlow