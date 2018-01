Po chodbách fakulty se prohání na koloběžce, na které klidně přijede i do posluchárny na přednášku. Nic neobvyklého, řeknou vám studenti Fakulty informačních technologií Vysokého učení technického v Brně (VUT), kteří přednášky Jana Černockého navštěvují.

Kromě pedagogické činnosti sedmačtyřicetiletý docent vede tým IT odborníků.

V čem je váš obor tak výjimečný?

Říkáme tomu dolování informací z řeči. Prakticky jde o vytahování všech možných informací z běžného mluveného projevu, třeba z nahrávky telefonátu, jejž chceme přepsat. Kromě základních věcí, jako je pohlaví, věk, jestli člověk mluví česky, nebo změní jazyk na jiný, můžeme také zachytávat klíčová slova či ověřit, jestli je dotyčný skutečně ten, za něhož se vydává, nebo se snaží lhát. A pak jsou takové esoteričtější věci, jako je určování emocí.

Do jaké míry se dají emoce z nahrávky skutečně zjistit?

Zjednodušeně se dá počítačová analýza řeči popsat takto: máme nějaká zdrojová data, která převedeme do čísel. Dále máme vytvořený model, který je natrénovaný na rozpoznávání. Po analýze nahrávky z modelu získáme informaci například o tom, jestli byla emoce daného řečníka pozitivní, či negativní. Abych takový model natrénoval, potřebuji pro něj hodiny a hodiny trénovacích záznamů řeči různých lidí. V nahrávce si ručně vyznačím, kde byl mluvčí naladěný pozitivně a kde negativně. Řeč podobných mluvčích pak můžeme porovnat. Třeba když budou oba muži, vysokoškoláci, mluvit česky a v klidu, software dokáže jejich emoce určit s osmdesátiprocentní přesností. Většinou ale takové ideální podmínky bohužel nemáme.

Potřebujete tedy znát i jazykový či kulturní kontext?

Ano, zajímá nás jakýkoli kontext. Může to být kontext kulturní, řečový, ale i nahrávacího zařízení – nahrávka telefonního hovoru je odlišná od komunikace z očí do očí. Všechny podmínky se můžou měnit a v takovém případě pak naše algoritmy nepodávají přesné výsledky. Mluvčí na nahrávce může být třeba bagrista, který běžně huláká, i když se cítí v pohodě, ale detektor jeho řeč vyhodnotí, že je naštvaný, jelikož křičí. Nebo budeme poslouchat Itala a přijde nám, že se chystá někoho zabít, ale on přitom bude mluvit normálně.

Jan Černocký Počítačový odborník, který patří mezi světovou špičku v analýze řeči a rozpoznávání jazyka .

. Jako docent vede Ústav počítačové grafiky a multimédií na Fakultě informačních technologií VUT v Brně, kde působí od jejího založení v roce 2002.

na Fakultě informačních technologií VUT v Brně, kde působí od jejího založení v roce 2002. Vede dvacetičlenný tým výzkumníků , který tvoří i studenti.

, který tvoří i studenti. Je mu 47 let, je ženatý a má dva syny. Hraje na klarinet v Cimbálové muzice Mirka Otáhala a ve volném čase lepí modely letadel a létá s nimi.

Přepis řeči, která se odehrála za ideálních podmínek, už umíte. Ale co tedy ty ztížené?

Musíme si umět poradit i v takových případech, kdy za námi přijde zákazník a řekne nám, že někde v Africe se něco chystá, ale mluví se tam podivným jazykem. Potřebují tam poslat armádu nebo humanitární pracovníky, takže by potřebovali odposlouchávání a rozpoznávač na neznámou řeč. Nemáme k dispozici lingvistu, jen minimum přepsané řeči a neznáme jediného místního člověka.

Dokážete si tedy poradit i s takovým jazykem, který neznáte?

Někdy ano, někdy ne. V projektu IARPA Babel jsme měli 27 jazyků z Afriky a Blízkého východu a většině z nich jsme vůbec nerozuměli. První věc je poznat, jestli daná nahrávka vůbec nějakou řeč obsahuje. Naši partneři mají třeba 24hodinový záznam z místa, na kterém nějaký terorista jen třikrát zakřičí, že jde někoho zastřelit. A náš program musí být schopný najít ty tři desetivteřinové úseky, abychom si mohli poslechnout jen je. Lokální jazyky často nemají pevný systém přepisování, ale přesto se v takových neideálních podmínkách snažíme řeč rozpoznat. Samozřejmě naše přepisovače fungují hůř než třeba pro angličtinu a dokážou rozpoznat tak 60 procent slov, ale i to může stačit. Vojákům, kteří tu informaci potřebují, může pomoct i to málo.

Váš tým spolupracuje s americkou armádou. Co přesně pro ni děláte?

Spolupracujeme s americkými firmami, které mají kontrakty s americkými vládními agenturami DARPA a IARPA. Ty financují výzkumné programy. Rozpoznávání řečníka nebo jazyka už dobře funguje pro telefony. Americká armáda ale zjistila, že jim detekce selhává, pokud zpracovávají odposlechy z bojiště, kde se nějací banditi domlouvají přes amatérské vysílačky. Vojáci potřebují získat data i z tak nekvalitních záznamů. My jsme to zkoušeli na nasimulovaných záznamech z bojiště. Ze začátku to moc nefungovalo, ale v průběhu šesti let jsme se posunuli a získáváme použitelné výsledky.

Jak se to vůbec stane, že brněnští vědci analyzují nahrávky pro americkou armádu?

Americký národní úřad pro standardizaci a technologie organizuje mezinárodní soutěže, kde jsme už v roce 2005 uspěli v sekci rozpoznávání jazyka. Nandali jsme to všem možným americkým zavedeným laboratořím. Díky tomu po nás začali pokukovat, co to vlastně děláme. Tyto soutěže sledují lidé z americké vlády, FBI i zpravodajské služby CIA, protože se nikdo netají tím, že takové programy chtějí využít pro odposlechy a analýzu nahrávek. V Americe spolupracujeme i s profesorem Hynkem Heřmanským z Centra zpracování řeči na Univerzitě Johnse Hopkinse. Hynek je takovým naším americkým guruem. Výborné vztahy máme i s firmou Raytheon BBN, která je dlouholetým dodavatelem řečových technologií pro americkou vládu.

Svými výsledky jste zaujali i Facebook, který vás zařadil mezi elitní univerzity a poskytl vám vybavení.

Ano, Facebook je jako firma na světové špičce ve výzkumu strojového učení a umělé inteligence. Věnovali nám dva výkonné počítače a díky nim můžeme rychleji provádět datově náročné výpočty. Navíc ve Facebooku pracuje náš úspěšný doktorand Tomáš Mikolov, takže tam máme i svůj kontakt.

Pocházíte z Brna. Nelákalo vás se přestěhovat do zahraničí?

Lákalo mě to před rokem 1989. To jsem si říkal, že tu doklepu elektrofakultu a pak prchnu za hranice. Po revoluci se ale všechno změnilo, takže jsem nezdrhnul, ale odjel na zahraniční stáže. Skoro tři roky jsem strávil ve Francii a pak přes půl roku ve Spojených státech. Ale vždycky mě to táhlo domů.

Zatím jste mluvil o využití vašich programů v odborné sféře. Můžou pomoct i laikům?

Pro domácí použití existují programy na přepis řeči, ale jsou samozřejmě placené. Kolegové v Plzni mají třeba produkční systém pro titulkování televizních pořadů, na Technické univerzitě v Liberci se zase specializují na rozpoznávání a diktování češtiny. Funguje jim to dobře. Existují ale i další programy určené na přepis.

Myslíte si, že za pár let budeme běžně své počítače ovládat hlasem?

Vždyť někde je to normální už teď. Například řidiči diktují SMS zprávy v autě, ovládají navigaci hlasem a auto vlastně není nic jiného než počítač. Handicapovaní také používají různé aplikace. Ovládání hlasem v něčem určitě pomáhá, ale někdy je zase klávesnice a myš u počítače rychlejší. Navíc musíme zohlednit také sociálně-psychologický aspekt. Psát na počítači během jízdy vlakem je přijatelné, nikoho nerušíme. Kdybychom ale do přístroje museli mluvit, bude to pro ostatní otravné. Ze začátku se zdálo, že ovládání hlasem zažije obrovský boom, ale myslím si, že si technologie ve společnosti musí najít své místo.