Kromě firmy
Phonexia stojí za věhlasem řečových technologií „Made in #brnoregion“ výzkumníci ze skupiny
BUT Speech@FIT z Vysokého učení technického. Víte, v jakých oblastech řečové technologie pomáhají?
Hlasová biometrie
Hlas je jedinečný stejně jako otisk prstu. Hlasová biometrie tak může fungovat stejně jako daktyloskopie. Brněnská Phonexia patří ve vývoji hlasové biometrie mezi top 3 nejlepší firmy na světě. Běžné technologie zvládají rozpoznat člověka podle konkrétní, předem dané fráze. To je ale velmi lehce zneužitelné – podvodníci si totiž frázi můžou natočit a při ověření identity ji pustit z nahrávky.
Technologie od Phonexie je mnohem dál. Nezáleží u ní totiž vůbec na tom, jakým jazykem člověk mluví, ani na tom, co a jak říká. Stačí tři vteřiny řeči, a dokáže s více než 96 % jistotou určit řečníka. A (mimo jiné) bankovní účet zůstává v bezpečí. Svůj produkt dodává do mnoha států světa vládnímu sektoru (policii a armádě) i tomu soukromému (zmiňované banky, operátoři a call centra). Ve vládním sektoru pomáhají hlavně k vyšetřování zločinů a k odvracení nejrůznějších bezpečnostních rizik.
Automatické rozpoznávání řeči
Přepisování mluveného slova do textu dřív v televizích zastávali ručně takzvaní titulkáři. Dnes už za ně (naštěstí) tuhle práci dělají technologie. A tak dnešní titulkář už jen poopraví nepřesnosti, případně – pokud je to třeba – doplní kontext. Tato technologie se ale používá i jinde než v televizi. Přepisování mluveného slova do textu pomáhá třeba soudním zapisovatelkám, píšícím novinářům, kteří nahrávají (a potřebují přepsat) hodinové rozhovory, analytikům v callcentrech a v neposlední řadě i pro interní účely ve firmách – třeba pro zápis ze schůze.
Syntéza řeči
Syntéza řeči je předchozí funkce obrácená naruby – generuje totiž lidskou řeč z textu. S touto technologií se často setkáváme v aplikacích jako je hlasový asistent (voicebot). „Plechovou pusu“ slýcháme docela běžně na zákaznických linkách, kde robot nejdříve roztřídí zákazníky podle požadavků. Pokud jde o rutinní záležitost, dokáže poradit sám. V opačném případě volajícího přepojí na kolegu z masa a kostí.
Velmi účinnou pomoc představují voiceboti v případě mimořádných událostí – jako bylo na jižní Moravě před lety tornádo. Velký nápor volajících na záchranných linkách by mohli pomoct v případě nouze snížit příště právě hlasoví asistenti.
V neposlední řadě se syntéza řeči využívá v audioknihách a čtečkách textu, které pomáhají lidem se zrakovým postižením. A pokud se učíte cizí jazyky se „zelenou sovičkou“ nebo používáte jiné vzdělávací a tréninkové aplikace, právě syntéze řeči vděčíte za to, že jsou lekce a audiovizuální obsah interaktivní. Využívá je proto hojně i
herní průmysl.
Spoofing & Antispoofing
S rozvojem umělé inteligence přibývá nejen „dobrých“ nástrojů, které můžou lidem ušetřit spoustu práce, ale i spousta těch temných, jako je tzv. spoofing. Napodobit hlas někoho jiného – nebo rovnou vyrobit falešné video třeba s obličejem známé osobnosti – bude čím dál běžnější. A rozeznat taková videa od skutečných bude čím dál těžší. Právě proto se Phonexia věnuje i tzv. antispoofingu. Zrovna nedávno na výzkum v této oblasti získala grant a spolu s FIT VUT budou pracovat na technologii, která bude umět falešné hlasy rozeznat.
Automatický překlad řeči
Představte si, že jste v zahraničí, ztratíte se a potřebujete radu. I když zrovna nikdo z místních (včetně vás) nebude umět anglicky, ztracení nezůstanete dlouho. Díky automatickému překladu řeči nosíte v kapse (respektive v mobilu) ty nejlepší tlumočníky, kteří vám vaše otázky a (jejich) odpovědi přeloží ve vysoké kvalitě v reálném čase. (A tlumočníci nebudou mít/nemají co jíst.)
Sémantické vyhledávání & výzkum a analýza sentimentu
Řečové technologie už umějí analyzovat nálady veřejného mínění, a to třeba ze sociálních médií. Stejně tak dokáží sloužit firmám k tomu, aby nacítily naladění (a rozladění) svých zákazníků. Třeba supervizoři v callcentrech, kteří vyhodnocují kvalitu hovorů, dostávají zprávy nejen o délce hovorů, ale i o emocích, které během hovoru převládaly.
Zmiňovaná brněnská Phonexia pak nabízí jako jednu z funkcí sémantické vyhledávání. Když zadáte klíčové slovo – řekněme třeba auto – najde technologie v textu všechna slova s podobným významem, takže třeba náklaďák, osobák nebo konkrétní značky aut. Díky sémantickému vyhledávání je výsledná interpretace kontextu o mnoho přesnější.
Analytická funkce
V oblasti analytiky nabízí řečové technologie široké využití – jedním z nich je právě zmiňovaná kvalita hovorů v callcentrech. Řečové technologie ale fungují i jako podpůrný nástroj pro psychology. Jak? Dokáží analyzovat terapeutická sezení a dávat tak terapeutům velmi cennou zpětnou vazbu. Po terapii totiž díky analýze vidí, kolik prostoru svým klientům dali, kdo koho přerušoval a především: jestli používají oba stejný slovník. To je pro oboustranné pochopení a porozumění naprosto klíčové.
Řízení pomocí hlasu
Ztlumit hudbu, zapnout televizi, rozsvítit, nebo přehrát oblíbenou písničku? Jestli je vaše domácnost chytrá, je vaše přání předem splněno – a vy můžete zůstat ležet na gauči. Hlasovým řízením jsou dnes automaticky vybavené i telefony, počítače a mnohá auta. Pokrok nezastavíš. A přibírání na váze taky ne. Nezapomeňte, že hlasoví asistenti jsou dobrým sluhou, ale zlým pánem. Až je budete z gauče s radostí využívat, dejte si pro jistotu před každým přáním pět kliků nebo deset dřepů.