Nový systém Googlu pro rozpoznání hlasu funguje bez prodlevy a offline

Nejnovější systém Googlu pro rozpoznání hlasu nyní funguje okamžitě a offline. Systém postavený na technologii RNN transducer, používající model rekurentní neurální sítě, je nicméně dostupný pouze uživatelům s telefony Pixel a v aplikaci Gboard a rozumí zatím jen americké angličtině.

Technologický obr na svém blogu uvádí, že systém využívá model, který je „akorát velký a dostatečně efektivní“ (konkrétně má 80 MB), aby mohl fungovat na telefonu. Funguje prý na úrovni znaků, to znamená, že když uživatel mluví, model tvoří slova znak po znaku – jako kdyby někdo vypisoval, co uživatel říká, v reálném čase.

„S ohledem na trendy na tomto poli a sbližování specializovaného hardwaru a stále lépe fungujících algoritmů doufáme, že zde prezentované techniky si brzy bude moci osvojit více jazyků a že najdou využití napříč různými oblastmi aplikací,“ píše Google na blogu. Slovy „zde prezentované techniky“ odkazuje na svou odbornou stať, v níž uvedený model detailně rozebírá a kterou zveřejnila Cornellova univerzita.

Otázkou je, jestli možnost fungování systému offline bude mít praktické využití – téměř všechny aplikace Googlu totiž fungují on-line. Těžko bude např. někdo diktovat slova do sdíleného dokumentu nebo e-mailu, když nebude připojen k internetu, poznamenává web techcrunch.com.

 

Zdroj: techcrunch.com, ai.googleblog.com