Používáte hlasový vstup? — O „dalším“ vstupním rozhraní po klávesnici
Úvod — „vyhrát si“ se vstupním rozhraním
Používáte hlasový vstup?
V době, kdy se paradigmata AI mění prudce, se ve vstupní vrstvě AI — v jakékoli formě vstupu — Speech-to-Text (přepis řeči na text) dostává do fáze praktického využití jako nový způsob komunikace. Cítím, že je to velký zlom.
Mimochodem, mezi inženýry je nemálo lidí, kteří používají klávesnice za 20 či 30 tisíc jenů, typu Happy Hacking Keyboard od PFU. Patřil jsem mezi ně i já a klávesnicím jsem se chvíli dost intenzivně věnoval. V poslední době vzkvétá i scéna kolem vlastnoručně sestavovaných klávesnic.
Když si dovedeme vyhrát s klávesnicí jako se vstupním rozhraním, proč si nevyhrát i s hlasovým vstupem? S tou myšlenkou píšu tento text.
O mně
Jmenuji se Masaki Kondo. Jsem CEO ve vietnamské IT firmě Guide Inc. Vietnam. Každý den se věnuji vývoji systémů a v poslední době mám Claude Code postavený přímo do středu své práce.
Konkrétně: vytvořil jsem si privátní repozitář kondo-daily-ops a v zásadě veškerou komunikaci s klienty v Backlogu, komunikaci s interním týmem i správu pracovních logů svěřuji Claude Code. Přes API získat kontext tiketu, vytáhnout kontext z předchozích logů, vygenerovat odpověď pomocí předem dané „skill“ — takové instrukce mu zadávám každý den.
Jak asi tušíte, tyto instrukce jsou v přirozeném jazyce a často dost dlouhé. Psát je z klávesnice je docela zápřah.
Setkání s AquaVoice
Koncem roku 2025 jsem začal používat aplikaci pro hlasový vstup AquaVoice.
Dlouhé instrukce pro Claude Code stačilo vyslovit nahlas. Ukázalo se, že to sedí mé ruce — respektive ústům — víc, než jsem čekal, a hlasový vstup jsem během chvíle nemohl pustit z hlavy. „Podívej se na tento tiket, vytáhni kontext z minulých logů a touhle skill mi sestav odpověď.“ — vyslovit takovou instrukci pohodlně nahlas. Jakmile to jednou zažijete, není cesty zpět.
Proč jsem si to chtěl postavit sám
Buďme upřímní: s AquaVoice jsem neměl žádnou výtku, byl jsem spokojený.
Tak proč jsem si tedy sám napsal vlastní? Odpověď je čistá intelektuální zvědavost.
Za prvé, dlouho jsem chtěl napsat nějakou aplikaci v Rustu. Už dřív jsem si sám stavěl nástroje, které sám používám — Guidebook (statický generátor v Rustu) nebo firemní VPN (Headscale). Brousit a stavět si vlastní nářadí je prostě zábava.
Za druhé, zajímala mě sama technická konstrukce AquaVoice. Speech-to-Text udělá přepis, LLM ho potom dotáhne — tahle vícestupňová pipeline ve mně budila zvědavost.
Po pravdě, ještě než jsem AquaVoice poznal, byl jsem překvapený, jak dobře zvládá hlasový vstup ChatGPT. Někdy jsem si i kvůli zadání pro Claude Code spustil desktopovou aplikaci ChatGPT, namluvil tam text a přepis si zkopíroval do Claude Code — takové triky jsem prováděl.
Pak se přes API zpřístupnil gpt-4o-mini-transcribe od OpenAI. „A co kdybych si to postavil sám?“ — to byl ten rozhodující moment.
Putování modely Speech-to-Text
Při vývoji koedesku jsem otestoval řadu modelů STT.
Groq Whisper Large v3 Turbo — rychlý. Ale občas něco halucinuje.
OpenAI GPT-4o Transcribe — vysoká přesnost, ale halucinace v tichu jsou nepříjemné. V japonštině a angličtině je silný, ale jakmile se ve vietnamštině objeví angličtina, rozpadne se. Vyvíjíme systémy ve Vietnamu, takže pro nás to byl reálný problém.
Mistral (Voxtral) — průměr.
Gemini — když jsem ho nechal udělat STT i postprocessing najednou, normalizoval příliš odvážně a halucinoval věci, které jsem nikdy neřekl. Divoký kůň.
Obtíže s postprocessingem přes LLM
Abychom doplnili to, co STT samotné nezvládne, otestovali jsme i postprocessing přes LLM (odstranění výplňových slov, slovník, formátování). Benchmark se 6 modely a 20 scénáři ukázal, že každý model má svou jasnou „povahu“.
- Modely OpenAI: opatrné a konzervativní. Slovník aplikují, ale neznámých slov se nedotknou. Halucinace: 0.
- Modely Gemini: aktivní a odvážné. Ve slovníku nejlepší, ale i známá slova si svévolně přepisují na „správnější“. Řeknete „Gemini 3 Flash“ a dostanete opravu na „Gemini 1.5 Flash“ — čím známější slovo, tím nebezpečnější halucinace.
- Modely Claude: skromné a bezpečné. Nic nepokazí, ale ve slovníku si nejsou jisté.
Závěr: postprocessing je vlastně nutné zlo, které s pokrokem samotných STT modelů zmizí.
Setkání s ElevenLabs Scribe V2
A pak jsem narazil na ElevenLabs Scribe V2.
Dřív jsem tuhle firmu vůbec neznal, ale tenhle model byl šokující. Vietnamština, japonština, angličtina — bez ohledu na jazyk vysoká přesnost přepisu. I v japonštině jsem měl pocit (subjektivně), že modely OpenAI překonává.
Jsou dostupné i parametry pro slovník, takže je vstřícný k vývojářům. Kvalita je dostatečná i bez postprocessingu. Koedesk dnes Scribe V2 používá jako výchozí model.
Bez postprocessingu jsme dosáhli kvality překonávající jiné aplikace — minimálně v japonštině jsme o tom přesvědčeni.
Mé současné vývojové prostředí
Po této cestě mám v každodenní praxi vlastně jen pár AI nástrojů. Claude Code a koedesk. Dvojice.
Z druhé strany: když Claude Code vypadne, sám nezvládnu udělat ani jeden pull request. Tak moc jsem na něm závislý.
Workflow tohoto článku
Tenhle článek je sám o sobě ukázkou hlasového vstupu.
- Namluvím text do koedesku a získám přepis
- Claude Code ho dotáhne
- Claude Code pracuje s Git repozitářem a pushne
- Zenn Connect (integrace s GitHubem) automaticky publikuje
Klávesnice jsem se skoro nedotkl.
Co takhle hlasový vstup zkusit?
Lidé, co znají AquaVoice, si možná řeknou „aha, ten zážitek“. Ale spousta z vás možná hlasový vstup ještě nezkusila.
Hlavně japonsky mluvícím čtenářům vřele doporučuji vyzkoušet kvalitu japonského přepisu v ElevenLabs Scribe V2, který je výchozím modelem v koedesku. Koedesk lze používat 5 minut denně, bez termínu vypršení a bez kreditní karty — zdarma napořád. Pokud si ho oblíbíte, v plánu Pro za $10/měsíc je přepis neomezený.
Budu rád, pokud bude tento článek záminkou k tomu, abyste si nový vstupní interface — hlasový vstup — vyzkoušeli.
Zpátky k úvodu — moje tichá ambice. Chtěl bych z koedesku udělat Happy Hacking Keyboard světa hlasového vstupu. ……Vtip, promiňte. Ale napůl to myslím vážně.
Závěrem
Plánuji dál psát o aktualizacích koedesku a o aktuální situaci ve světě Speech-to-Text.
Také rád budu sdílet techniky, které sám denně používám při práci s AI agenty — pokud z nich někdo z vás bude mít užitek.
Pokud máte chuť, budu rád, když tu zůstanete s námi.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app