Klávesové zkratky na tomto webu - základní
Přeskočit hlavičku portálu

Ovladač k televizi je přežitek, stačí hlas. Brňané vyvíjejí nový software

  17:40aktualizováno  17:40
Petr Schwarz a Radim Kudla z firmy Phonexia mají spočítáno, že člověk za den vyřkne průměrně více než sedm tisíc slov. Písmem ale zaznamená jen zlomek z nich. A právě proto vytvořili software, který umí převádět mluvu na text.

Petr Schwarz (v pruhovaném svetru uprostřed) a Radim Kudla (stojící) z firmy Phonexia převádějící mluvené slovo do textové podoby. | foto: Anna Vavríková, MAFRA

Heslo do internetového bankovnictví? Ne, stačí třeba vyslovit citát ze svého oblíbeného filmu. Ovladač k televizi? Přežitek. Prostě obrazovce divák řekne, aby na reklamu přepnula na jiný kanál.

A ťukat na malém displeji telefonu e-mail? Proč, když je jednodušší ho nadiktovat virtuálnímu asistentovi, který v elektronické krabičce "bydlí"?

To vše umí brněnská firma Phonexia. Její šéf a spoluzakladatel Petr Schwarz a obchodní ředitel Radim Kudla se softwarem pro rozpoznávání řeči bodují v Evropě, Americe, Asii, Rusku i arabských zemích.

Přijde doba, kdy povedeme hovory třeba s ledničkou?
Petr Schwarz: Myslím, že rozpoznávání řeči se brzo uplatní třeba u televizí. Když člověk dnes babičce koupí set top box a televizi, dostane dva ovladače se stovkou tlačítek. Naučí se zmáčknout jedničku a dvojku, ale jakmile omylem sepne něco jiného, už musí volat vnukovi. Takhle bude prostě stačit obrazovce povědět, co chce, aby udělala.

Radim Kudla: Blíží se doba virtuálních asistentů. Budou umět pochopit, co jim člověk vykládá, a nabídnout odpovědi na otázky nebo reagovat protiotázkou. Částečně to už dnes umí produkty Applu či Googlu. Česká republika je ale pro velké firmy malý trh. Což je ale příležitost pro Phonexii. Lidé se na přístroje postupně učí mluvit. Vlastně je to přirozené, protože třeba displeje mobilů jsou malé a špatně se na nich píše. V Americe fungují takzvané voicemaily. Když se známému nedovoláte, prostě mu zprávu nadiktujete do hlasové pošty, systém ji zpracuje a pošle ji volanému esemeskou. V textu jsou sice chyby, ale důležitá informace zůstává.

Firma Phonexia

Šéf Petr Schwarz a obchodní ředitel Radim Kudla společně vedou brněnskou firmu Phonexia. Společnost, která začínala v Jihomoravském inovačním centru, od roku 2006 vyvíjí software pro rozpoznávání a přepis řeči. Kořeny má ve výzkumu, který začal na Fakultě informačních technologií brněnského VUT, se kterou dodnes Phonexia spolupracuje. Na obou pracovištích se tak zkoumání řeči věnuje na 45 pracovníků. Z Brna vyvíjí Phonexia systémy pro call centra, bezpečností složky či mediální společnosti.

Jak vůbec podnikání firmy Phonexia vzniklo?
P. S.: Už někdy na střední škole se ke mně dostal článek o řečových technologiích. Tehdy mě uchvátilo, jaký by to mohlo mít vliv na život člověka. Člověk denně vysloví na sedm tisíc slov. Ale jen pár stovek jich napíše. Zbytek je ztracený. Nedá se v něm dobře orientovat ani vyhledávat. Jako výzkumný tým jsme se tomu začali věnovat na Fakultě informačních technologií VUT. Řečovou skupinu jsme tam založili v roce 1997.

Jak jsme se začali stávat známější a objevovali se zákazníci, kteří chtěli ne výzkum, ale uplatnění, bylo nejrozumnější prostě založit firmu. To bylo v roce 2006. Ale propojení s VUT je pro nás stále velmi důležité. Kanceláře jsme si našli tři minuty od fakulty. Sice software prodáváme, ale chceme, aby to přinášelo i peníze na další výzkum, na kterém spolupracujeme s VUT. Zájem o náš software mají banky, zpravodajské složky, televizní stanice či call centra.

Call centra všichni známe. Voláme třeba na infolinku mobilního operátora s reklamací. A to klidně už poněkolikáté. Znovu musíme vysvětlovat potíž a žádat řešení...
P. S.: Ano, a když se člověk probojuje po mnoha minutách čekání k živému člověku, který mu může pomoci, chtějí po něm pro ověření totožnosti číslo smlouvy. Stalo se mi, že jsem musel telefon zase zavěsit, jít se prohrabat papíry a teprve pak vytočit linku znova a vše od začátku vysvětlovat úplně jinému operátorovi. My všechny tyhle peripetie umíme řešit.

Ovládání hlasem a gesty

Firma Google už před rokem nabídla vývojářům hlasové ovládání pro prohlížeč Chrome (více zde).

Asi nejvýraznějším počinem ze strany Googlu je v oblasti rozpoznávání řeči uvedení vlastního hlasového asistenta pro mobilní zařízení s operačním systémem Android.

Některé moderní domácí spotřebiče je už dnes možné ovládat hlasem nebo gesty (o takto ovládané televizi se dočtete zde).

R. K.: Představte si, že když se dovoláte na reklamační linku, její operátor si s vámi nejdříve chvíli povídá třeba o počasí. Náš systém vás totiž díky tomu identifikuje podle hlasu. Za moment telefonistovi na obrazovce vyskočí nejenom, kdo jste, ale také to, jaké máte smlouvy a co jste kdy chtěl řešit. Protože předchozí telefonát program také mohl analyzovat a vypsat, jaká klíčová slova se v něm vyskytovala nebo přímo o jakých tématech se mluvilo.

Takže přijde doba, kdy místo zadávání složitého hesla bude stačit na počítač či do telefonu jenom promluvit?
P. S.: Velká část českých bank začíná technologie testovat a rozhodně se s nimi v České republice brzy setkáme. Kvalita záleží na tom, jak dlouho do systému mluvíte. Podle dvouminutového záznamu dnes dokážeme konkrétního člověka spolehlivě najít mezi sto tisíci nahrávkami.

Ve světle odhalení o celosvětových sledovacích programech americké tajné služby NSA taková technologie může působit děsivě. Víte, jestli třeba při sledování telefonních hovorů nepoužívají váš software?
R. K.: Na většinu této práce se vztahují smlouvy o mlčenlivosti. Můžeme potvrdit, že máme zákazníky také v Severní Americe. Ale nemůžeme býti specifičtí.

P. S.: Navíc to nikdy nemůžeme vědět jistě. Vždy si naši technologii mohou například tajné služby koupit přes prostředníky, takže se to ani nedozvíme.

Přemýšlíte o tom, že vaše technologie může být zneužitá?
P. S.: Když máme podezření, že by se to mohlo stát, technologii nedodáme. Ale obecně bych nás přirovnal například k výrobcům nožů. Naše produkty vytváříme s cílem pomoci lidem. Důležité jsou zákony, které zabrání a postihují jejich zneužití. Hrozba v tom samozřejmě je.

V textech na internetu nám dnes vyhledává Google. Když vznikl, znamenalo to revoluci v přístupu k informacím. V nahrávkách a videích ale do teď nikdo vyhledávání nenabízí.
R. K.: Na fakultě informačních technologiích už běží vyhledávání v přednáškách. Jde hledat v ústním projevu přednášejícího. Když se podíváme na zátěže serverů, před zkouškami prudce rostou. A tahle technologie může být ideální třeba také pro novináře. Už teď například jde vytvořit systém, ve kterém si novinář bude moci najít v záznamech všech tiskových konferencí či projevů v parlamentu promluvy konkrétního politika na nějaké téma za několik let.

Zdaleka se nevěnujete jen češtině. Kolik řečí dnes dokážete rozpoznat?
P. S.: Záleží na technologii, kterou chceme použít. Podle nahrávky dokážeme rozlišit na padesát jazyků. U deseti z nich umíme v záznamu hledat určená klíčová slova. A nahrávku v češtině, angličtině, ruštině a arabštině náš software dokáže přepsat slovo od slova. Teď chystáme ještě čínštinu a španělštinu.

A jsou jazyky, které jsou opravdu "záhul"?
R. K.: Právě čeština není zrovna jednoduchá. Spisovná podoba má přes půl milionu slov včetně třeba skloňování. Některé naše slovníky spontánního českého jazyka mají i pět milionů záznamů.

P. S.: Nejtěžší jazyky jsou pro nás ale ty, které používá málo lidí, protože pak se náš software nemá z čeho učit. Zákazníci třeba mají požadavek, jestli jsme schopní vytvořit rozpoznávač pro nějaký dialekt malého jazyka, protože v té oblasti například jeho firma podniká. Musíme se vyrovnat třeba i s tím, že vlastně ani nemá psanou podobu.

Jak potom vzorky jazyka získáváte?
P. S.: Dost často sháníme lidi, kteří daným jazykem mluví a jsou dostatečně počítačově gramotní, aby nám mohli pomoci. Potíže máme třeba s arabštinou. Rozhodně totiž není jen jedna. Oblast, ve které se mluví arabsky, je větší než Evropa. A my potřebujeme mluvčího, který ovládá jeden konkrétní dialekt. Dost často třeba používáme veřejné zdroje. Například nahráváme rádio z konkrétní oblasti.

Jakou máte konkurenci?
P. S.: Samotná Česká republika je ve výzkumu řeči velmoc. My se ale snažíme zaměřovat na běžnou řeč. To moc firem na světě neumí. Pokud je program nastaven na to, že mu právník bude do kvalitního mikrofonu diktovat dopis nebo lékař zdravotní zprávu, je pak zpracování do textu mnohem jednodušší, protože se pracuje s mnohem menším slovníkem. Přesnost je pak často přes 98 procent. Naopak při hovorech do call center lidé mluví spontánně. Přesto umíme dosáhnout devadesáti procent.

Musíte mít i dlouhou databázi šťavnatých nadávek...
P. S.: Ano, přepis je věda. I proto, že naprostá přesnost vždycky není žádoucí. Lidé určitým způsobem mluví, ale když to, co říkají, vidí napsané, tak se zděsí. A často se právě setkáváme s požadavkem, abychom nadávky nahrazovali mírnějšími výrazy. Předejde to i nehodám, kdy třeba software nějaké jméno, které nezná, omylem nahradí nadávkou, která zní podobně.







Hlavní zprávy

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Najdete na iDNES.cz



mobilní verze
© 1999–2016 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je součástí koncernu AGROFERT ovládaného Ing. Andrejem Babišem.