O ovládání počítačů hlasem, automatizovaném převodu mluvené řeči na text mluvil Bill Gates už před delší dobou jako o blízké budoucnosti. Léta však ubíhají a tato vize se jaksi pořád ještě nestala úplně běžnou realitou. Teprve v posledních měsících se hned dvě tuzemská řešení dostala do takové vývojové fáze i míry uplatnění v praxi, že se lze vcelku oprávněně ptát, zda vize už opravdu nepřechází ve skutečnost. Buď jak buď, první vlaštovky využívající tato řešení se objevily i ve veřejné a státní správě.
První program pro převod mluvené řeči se jmenuje NovaVoice a firma Consulting Company Novasoft za něj loni na podzim převzala jeden ze šesti Křišťálových disků na veletrhu Invex 2008 v Brně. Je založen na řešení, které vzniklo na Katedře kybernetiky Západočeské univerzity v Plzni.
Také druhý program - NewtonDictate - má kořeny na akademické půdě. Firma Newton Technologies jej dotvořila na základě systému pro rozpoznávání mluvené češtiny vyvinutého na Technické univerzitě Liberec. Už za jeho předchůdce, programy MyVoice a MyDictate určené pro handicapované osoby, obdrželi liberečtí výzkumníci řadu ocenění včetně Ceny ministryně školství, mládeže a tělovýchovy za výzkum v roce 2003.
NOVAVOICE V AKCI
Konzultanta Novasoftu Jana Rydla zastihuji u počítače, na jehož monitoru naskakuje slovo po slově text. "Program NovaVoice právě převádí zvukový záznam do písemného textu," vysvětluje dění na obrazovce. Text je souvislý, bez ukončených vět, jako by jej chrlil Bohumil Hrabal. Občas je některé slovo vyznačeno modře, jak si jím program nebyl jist a rovnou na ně takto upozornil. Tempo převodu zvukového záznamu je trochu pomalejší než běžná řeč, simultánní převod by asi program s běžně dostupným počítačem nestíhal.
"Rychlost převodu závisí na výkonu počítače, pro simultánní převod řeči je nutno použít výkonnější výpočetní techniku. Tento program je však určen hlavně pro tvorbu zápisů či přepisů z jednání. Jeho úkolem je usnadnit, a především urychlit přepis mluvené, respektive zaznamenané řeči," objasňuje Jan Rydlo.
V praxi to znamená, že text, který program právě vytváří, bude muset ještě někdo projít současně s poslechem zvukového záznamu a doplnit případně interpunkci, udělat odstavce, opravit nesprávně převedená slova, což zatím program sám nezvládne. Tato následná práce však zabere podstatně méně času, než kdyby bylo nutné zvukový záznam celý přepisovat ručně.
Aby nemusely být kladeny neúměrné nároky na výkon počítače, vyvíjí se pro každou profesní oblast speciální slovník. Vytváří se podle specifické odborné terminologie používané v daném prostředí. Zatím jsou k dispozici řešení pro justici, zdravotnictví a nejnověji pro krajské, městské a obecní úřady a další obdobné instituce.
Základ programu vznikl na Katedře kybernetiky Západočeské univerzity v Plzni. Consulting Company Novasoft řešení dotvořila do podoby komerčního produktu, stará se o jeho distribuci, podporu uživatelů a také rozšiřuje NovaVoice o další specializované slovníky.
"Na soudech všech úrovní v České republice a v advokátních kancelářích máme již téměř stovku instalací," uvádí obchodní manažer Novasoftu Aleš Vychodil. "Dále je nyní ověřována možnost instalace v Parlamentu ČR pro pořizování zápisů z jednání. Specifickou oblastí je problematika zdravotnictví, kde je další oborové členění a kde je již velké množství instalací podle potřeby jednotlivých zdravotnických zařízení." Zde se vytvářejí další specializované slovníky pro jednotlivé obory, v praxi se již využívají aplikace pro radiologii a pro patologii - pitevnu a his-tologii.
UŠETŘÍ I ÚŘADY MĚST A KRAJŮ
Prvním úřadem veřejné správy, který začal používat NovaVoice, je Krajský úřad Libereckého kraje. Odborné slovníky pro oblast samosprávy byly zpracovány ve spolupráci s pracovišti Libereckého kraje, kraje Vysočina a magistrátu města Brna.
V oblasti veřejné správy hlavní přínos aplikace NovaVoice spočívá ve snížení administrativní náročnosti spojené s přepisem diktátu a ve zvýšení rychlosti při pořizování textových dokumentů. Nejčastěji se program uplatní pro pořizování zápisů z jednání zastupitelstva, užitečný může být při přípravě dokumentů a vyřizování těch částí spisů, které obsahují usnesení, odůvodnění, podání a podobně. Distributor uvádí návratnost investice do jednoho roku, a to zejména díky snížení nákladů na písařky.
"Chybovost převodu mluvené řeči na text se pohybuje u profesionálního nasazení od deseti do šesti procent," tvrdí Jan Rydlo. Záleží také na hlasové kultuře mluvčího, jak zřetelně vyslovuje, jaké je zvukové pozadí při diktování textu.
Pro lepší rozpoznávání je důležité přesné nastavení hlasitosti mikrofonu, ale také nastavení hladiny ticha, tedy běžného šumu prostředí, k němuž se mluvená řeč bude zvukově vztahovat. To je třeba provést ještě před započetím vlastního záznamu. Návod k programu upozorňuje rovněž na nejdůležitější zásady, které by měl mluvčí respektovat. Vedle zřetelného vyslovování k nim patří také doporučení nepoužívat pokud možno zkratky, ale diktovat plná znění slov. Nutné je vyslovit také veškerou interpunkci, například tečka, čárka, dvojtečka, nový řádek, závorka.
Program však lze používat rovněž v režimu off-line s použitím digitálního záznamníku. To se hodí v případech, kdy je nutné pořídit zvukový záznam mimo kancelář. Po připojení záznamníku USB kabelem k počítači se pak provede převod záznamu do textu.
NovaVoice rovněž umožňuje vytvářet šablony, což jsou předem namluvené anebo jinak zaznamenané a formátované úseky dokumentů, které lze vkládat do textu a jimž se mohou přiřadit i klávesové zkratky.
HLASOVÁ SYNTÉZA A HLEDÁNÍ VE ZVUKOVÝCH ARCHIVECH
Součástí aplikace NovaVoice jsou i moduly umožňující hlasovou syntézu a vyhledávání v archivu. Hlasová syntéza představuje zrcadlový postup k rozpoznávání řeči: Psaný text se automaticky "předčítá" do reproduktorů nebo do zvukových souborů. Při převodu textu na mluvenou řeč se za sebe kladou podle kontextu drobné fonetické prvky, z nichž se skládá plynulá řeč. Předčítaný text se analyzuje z hlediska melodiky a rytmu řeči a podle textu se modifikuje také zvukový charakter hlasu. Výsledkem procesu je syntetická řeč velmi blízká řeči přirozené.
Modul vyhledávání rozpoznává zadaná slova ve zvukových (audio) souborech nebo ve video souborech. Ve skutečnosti to znamená, že v případě potřeby se hledané slovo napíše do určitého okna v programu, který pak automaticky vyhledá toto slovo v audio či video záznamu. Pasáž textu, obsahující vyhledané slovo, si uživatel může přehrát, čímž si velmi ulehčí jakékoliv vyhledávání ve zvukových záznamech umístěných v datovém archivu.
NEWTONDICTATE: PROTI "KLASICE" AŽ O TŘI ČTVRTINY RYCHLEJŠÍ
O pár dnů později mně Petr Herian ze společnosti Newton Media předvádí Newton-Dictate, vedle programu NovaVoice druhé tuzemské řešení pro převod mluvené řeči do textu, které rozhodně také stojí za bližší seznámení. Newton Media vlastní největší komerční archiv plných textů v ČR. Měsíčně zpracovává osm tisíc hodin záznamu, šest set hodin doslovně přepisuje. Bylo proto logické, že firma hledala řešení, které by jí tuto práci usnadnilo. Díky spolupráci vývojového týmu Newton Technologies s Technickou univerzitou Liberec, propojení vývojových týmů a spolufinancování vývoje vznikla technologie Voice to Text (V2T), která vyústila v komerční produkt NewtonDictate.
"S použitím tohoto programu ušetříme proti klasickému přepisu zvukových záznamů 30 až 75 procent času," říká Petr Herian do mikrofonu a na monitoru se s téměř neznatelným zpožděním objevuje jeho tvrzení. Je patrné, že přepisovací aplikace ve zlomcích vteřiny porovnává slova se svým slovníkem a s využitím kontextu vypisuje rozpoznaný text. Někdy se proto i na okamžik zastaví, aby vzápětí původní výraz nahradila jiným.
"Obecný slovník aplikace vznikl s využitím zhruba 20GB textů z různých oblastí, které máme ve svém archivu," vysvětluje Petr Herian. "Bylo do něho zahrnuto kolem 330 tisíc slov, což zajišťuje pokrytí běžných textů z 98 procent."
K obecnému slovníku však lze přidat oborové slovníky. Například právnický obsahuje 300 tisíc slov, lékařský kolem 100 tisíc slov. Program NewtonDictate totiž není používán společností Newton Media jen pro její potřebu, ale začala jej přizpůsobovat i pro použití v dalších sférách. Založila kvůli tomu novou společnost Newton Technologies, která na sebe převzala distribuci produktu a jeho další vývoj ve spolupráci s libereckými výzkumníky.
"Dnes už program používají nejen soudci a lékaři, ale také novináři, překladatelé, úředníci, velmi vhodný je pro obchodní korespondenci či úřední záznamy," dodává Petr Herian.
PLOŠNÉ UPLATNĚNÍ V JUSTICI
V mnohém se programy NovaVoice a NewtonDictate shodují, v něčem se liší. Newton-Dictate je zjevně svižnější, zajímavá je možnost diktovat do připravených formulářů nebo do libovolného místa v textu. Nemám však čas zjišťovat rozdíly a ani není mým úkolem je hodnotit. Ostatně každý zájemce o systém převodu mluvené řeči na text udělá nejlépe, když se sám nejdříve blíže seznámí s oběma programy, vyzkouší si je - a teprve pak se rozhodne pro ten, který mu bude vyhovovat lépe.
Tak jako to udělalo ministerstvo spravedlnosti, které po prvotním otestování obou programů u více než 150 soudců rozhodlo, že od 5. ledna 2009 bude spuštěna další fáze testování v rámci celé justice, a to už jen programu NewtonDictate. Firma Newton Technologies k tomu poskytne pro všechny soudy, státní zastupitelství a ministerstvo spravedlnosti bezplatně dvě tisícovky licencí. Je možné, že některé úřady naopak dají přednost řešení NovaVoice. Ty se však budou muset rozhodovat individuálně, nějaké testování za celý resort se nechystá.
I když tedy na rutinní každodenní používání rozpoznávání řeči v češtině si zřejmě ještě budeme muset nějakou dobu počkat, s růstem výkonu počítačů i dalším zdokonalováním softwarových řešení k tomu jistě dojde. NovaVoice a NewtonDictate jsou však už nyní příkladem plně funkčních aplikací, které se dají bez problémů v přesně vymezených situacích s úspěchem používat. Pokud jejich uživatelé nemají nereálná očekávání, mohou pro ně být velmi účinným pomoc- níkem.
JAROSLAV WINTER