← Blog
esej

Používate hlasový vstup? — O „ďalšom“ vstupnom rozhraní po klávesnici

· by Masaki Kondo · 5 min read

Úvod — „pohrať sa“ so vstupným rozhraním

Používate hlasový vstup?

V dobe, keď sa paradigma AI rýchlo mení, sa vo vstupnej vrstve AI — v každom predstaviteľnom spôsobe vstupu — Speech-to-Text (prepis reči na text) dostáva do fázy reálneho použitia ako nový vstupný prostriedok. Mám pocit, že je to veľký zlom.

Mimochodom, medzi inžiniermi je nemálo ľudí, ktorí používajú klávesnice za 20 či 30 tisíc jenov — napríklad Happy Hacking Keyboard od PFU. Patril som medzi nich aj ja a chvíľu som sa klávesniciam venoval dosť do hĺbky. V poslednom čase prekvitá aj scéna vlastnoručne stavaných klávesníc.

Ak vieme byť takí nároční ku klávesnici ako k vstupnému rozhraniu, prečo nebyť rovnako nároční aj k hlasovému vstupu? S touto myšlienkou píšem tento článok.

O mne

Volám sa Masaki Kondo. Som CEO vo vietnamskej IT firme Guide Inc. Vietnam. Každodenne sa venujem vývoju softvéru a v poslednom čase mám Claude Code postavený priamo do centra svojej práce.

Konkrétne — vytvoril som si súkromný repozitár kondo-daily-ops a v podstate všetko — komunikáciu so zákazníkmi v Backlogu, komunikáciu s tímom aj správu pracovných logov — zverujem Claude Code. Získať cez API kontext tiketu, vytiahnuť kontext z predchádzajúcich logov, vytvoriť odpoveď pomocou definovanej „skill“ — také pokyny mu dávam denne.

Ako asi tušíte, tieto pokyny sú v prirodzenom jazyku a často dosť dlhé. Písať ich z klávesnice je dosť drina.

Stretnutie s AquaVoice

Koncom roku 2025 som začal používať aplikáciu na hlasový vstup AquaVoice.

Dlhé pokyny pre Claude Code stačilo vysloviť. Sedelo mi to oveľa viac, než som čakal, a hlasový vstup som vzápätí nedokázal pustiť. „Pozri sa na tento tiket, vytiahni kontext zo starých logov a touto skill mi sformuluj odpoveď.“ — taký pokyn pohodlne vysloviť nahlas. Keď to raz zažijete, niet cesty späť.

Prečo som si to chcel postaviť sám

Buďme úprimní — s AquaVoice som nemal žiadne výhrady, bol som spokojný.

Tak prečo som si urobil vlastný? Odpoveď je čistá intelektuálna zvedavosť.

Po prvé, dlho som chcel napísať niečo v Ruste. Aj predtým som si pre vlastnú potrebu staval nástroje — Guidebook (statický generátor v Ruste) alebo interné VPN (Headscale). Brúsiť si vlastné náradie je proste zábava.

Po druhé, zaujímala ma technická skladba samotného AquaVoice. Speech-to-Text urobí prepis, LLM ho potom dotiahne — táto viacstupňová pipeline vo mne vzbudzovala zvedavosť.

Pravdupovediac, ešte pred poznaním AquaVoice ma prekvapovala kvalita hlasového vstupu ChatGPT. Niekedy som dokonca rozprával do desktopovej aplikácie ChatGPT len preto, aby som si potom prepis prekopíroval do Claude Code — také fígle som robil.

A potom sa cez API sprístupnil gpt-4o-mini-transcribe od OpenAI. „A čo si to postaviť sám?“ — to bol ten rozhodujúci impulz.

Putovanie modelmi Speech-to-Text

Pri vývoji koedesku som odskúšal celý rad STT modelov.

Groq Whisper Large v3 Turbo — rýchly. Ale niekedy halucinuje.

OpenAI GPT-4o Transcribe — vysoká presnosť, no halucinácie v tichu sú nepríjemné. V japončine a angličtine je silný, ale akonáhle sa vo vietnamčine objaví angličtina, rozpadne sa. Vyvíjame systémy vo Vietname, takže pre nás to bol reálny problém.

Mistral (Voxtral) — priemer.

Gemini — keď som mu zveril aj STT, aj postprocessing naraz, normalizoval príliš odvážne a halucinoval veci, ktoré som vôbec nepovedal. Divoký kôň.

Ťažkosti s postprocessingom cez LLM

Aby sme doplnili to, čo STT samotné nezvládne, otestovali sme aj postprocessing cez LLM (odstránenie výplňových slov, slovník, formátovanie). Benchmark so 6 modelmi a 20 scenármi ukázal, že každý model má jasnú „povahu“.

Záver: postprocessing je v podstate nutné zlo, ktoré s rozvojom samotných STT modelov zmizne.

Stretnutie s ElevenLabs Scribe V2

A potom som narazil na ElevenLabs Scribe V2.

Predtým som tú firmu vôbec nepoznal, ale tento model bol šokujúco dobrý. Vietnamčina, japončina, angličtina — bez ohľadu na jazyk vysoká kvalita prepisu. Aj v japončine som mal pocit (subjektívne), že OpenAI modely prekonáva.

K dispozícii sú aj parametre pre slovník, takže je priateľský pre vývojárov. Kvalita je dostatočná aj bez postprocessingu. Koedesk dnes Scribe V2 používa ako predvolený model.

Bez postprocessingu sme dosiahli kvalitu prevyšujúcu iné aplikácie — aspoň v japončine to tak cítime.

Moje súčasné prostredie

Po tejto ceste mám v dennej praxi naozaj len pár AI nástrojov. Claude Code a koedesk. Tieto dva.

Z druhej strany: keď Claude Code padne, sám neurobím ani jeden pull request. Tak veľmi som naňho odkázaný.

Workflow tohto článku

Tento článok je sám o sebe ukážkou hlasového vstupu.

  1. Rozprávam do koedesku a dostanem prepis
  2. Claude Code text upraví do finálnej podoby
  3. Claude Code operuje s Git repozitárom a pushne
  4. Zenn Connect (integrácia s GitHubom) automaticky publikuje

Klávesnice som sa skoro nedotkol.

Skúsite hlasový vstup?

Ľudia, čo poznajú AquaVoice, si možno povedia „aha, ten zážitok“. Mnohí z vás však hlasový vstup možno ešte vôbec nepoužívali.

Hlavne japonsky hovoriacim čitateľom by som odporúčal vyskúšať kvalitu japonského prepisu v ElevenLabs Scribe V2, ktorý je v koedesku predvoleným modelom. Koedesk sa dá používať 5 minút denne, bez termínu vypršania a bez platobnej karty — zadarmo navždy. Ak si ho obľúbite, v pláne Pro za $10/mesiac dostanete neobmedzený prepis.

Budem rád, ak bude tento článok pre niekoho z vás impulzom skúsiť nové vstupné rozhranie — hlasový vstup.

Späť k úvodu — moja malá ambícia. Chcel by som z koedesku spraviť Happy Hacking Keyboard hlasového vstupu. ……Vtip, prepáčte. Ale spolovice to myslím vážne.

Na záver

V budúcnosti chcem ďalej písať o novinkách v koedesku aj o aktuálnej situácii vo svete Speech-to-Text.

A rád sa s vami podelím aj o techniky, ktoré používam pri každodennej práci s AI agentmi — ak budú pre niekoho užitočné.

Ak vám to nie je proti srsti, budem rád, keď sa ku mne pridáte aj v budúcnosti.


Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app

#hlasový vstup#STT#ElevenLabs#Claude Code
Try koedesk
The most accurate voice typing — on Mac, Windows, iOS, and Android.
Try koedesk →