95% точность распознавания для русского языка
В основе Micmiky — гибридная связка ASR-моделей Whisper v3 и Nemo Canary, дообученных на русскоязычном корпусе объёмом тысячи часов диктофонных записей, подкастов и встреч. На чистой речи точность достигает 95–96%, на шумных записях (кафе, плохой микрофон, плохой интернет) — 88–92%. Это заметно лучше Windows Dictation (82–86%) и Google Speech-to-Text (88–90%) на русском. Распознавание работает за 300–800 мс — практически без задержки.
