Folosești introducerea vocală? — Despre „următoarea” interfață de input după tastatură
Introducere — „pretenția” față de interfața de input
Folosești introducerea vocală?
Într-o perioadă cu schimbări de paradigmă tot mai rapide în AI, la nivelul inputului către AI — orice formă de interfață de input — Speech-to-Text (transcrierea vorbirii în text) intră într-o fază practic utilizabilă ca metodă nouă de input. Simt că suntem la un punct de cotitură important.
Apropo, printre ingineri sunt destui care folosesc tastaturi de 20 000–30 000 de yeni, precum Happy Hacking Keyboard de la PFU. Am fost și eu printre ei; o perioadă m-am dedicat serios tastaturilor. În ultima vreme prosperă și scena tastaturilor făcute manual.
Dacă putem fi pretențioși cu tastatura ca interfață de input, de ce să nu fim la fel de pretențioși și cu introducerea vocală? Tocmai cu acest gând scriu acest articol.
Despre mine
Mă numesc Masaki Kondo. Sunt CEO la Guide Inc. Vietnam, o companie IT din Vietnam. Mă ocup zilnic de dezvoltare de sisteme, iar recent am pus Claude Code chiar în centrul muncii mele.
Concret, am creat un repository privat numit kondo-daily-ops și încredințez în esență totul Claude Code — comunicarea cu clienții pe Backlog, comunicarea cu colegii interni și gestionarea log-urilor de lucru. Să obțină prin API contextul unui tichet, să extragă context din log-urile vechi, să formuleze un răspuns folosind „skill”-urile predefinite — astfel de instrucțiuni îi dau zilnic.
După cum bănuiți, aceste instrucțiuni sunt în limbaj natural și sunt adesea destul de lungi. Tastarea lor la tastatură e destul de obositoare.
Întâlnirea cu AquaVoice
Spre sfârșitul lui 2025 am început să folosesc o aplicație de introducere vocală numită AquaVoice.
Puteam rosti pur și simplu instrucțiunile lungi pentru Claude Code. Mi se potrivea mult mai bine decât anticipam și, în scurt timp, nu mai puteam renunța la introducerea vocală. „Uită-te la acest tichet, scoate contextul din log-urile vechi și folosește acest skill ca să formulezi răspunsul.” — confortul de a da o astfel de instrucțiune doar prin viu grai. Odată ce o experimentezi, nu mai e cale de întoarcere.
De ce am decis să-mi fac propria aplicație
Sincer, n-aveam nicio nemulțumire față de AquaVoice; eram mulțumit.
Atunci de ce mi-am făcut propria versiune? Răspunsul: pură curiozitate intelectuală.
În primul rând, îmi doream demult să scriu o aplicație în Rust. Am construit și înainte instrumente pentru uz personal — Guidebook (un generator de site-uri statice în Rust) și VPN-ul intern (Headscale). Să-mi șlefuiesc propriile unelte e pur și simplu o plăcere.
În al doilea rând, mă fascina și structura tehnică a AquaVoice. Speech-to-Text transcrie, iar LLM-ul curăță și șlefuiește — această pipeline multi-etapă mi-a stârnit curiozitatea.
Sincer, chiar înainte de a cunoaște AquaVoice, eram impresionat de calitatea transcrierii din introducerea vocală a ChatGPT. Mergeam chiar până la a deschide aplicația desktop ChatGPT doar ca să vorbesc acolo și apoi să copiez transcrierea în Claude Code — astfel de șmecherii făceam.
Și apoi a devenit disponibil prin API gpt-4o-mini-transcribe de la OpenAI. „Cu asta aș putea să-mi fac propria aplicație?” — acela a fost momentul decisiv.
Călătoria printre modelele Speech-to-Text
În timpul dezvoltării koedesk am testat numeroase modele STT.
Groq Whisper Large v3 Turbo — rapid. Dar are puține halucinații.
OpenAI GPT-4o Transcribe — precizie ridicată, însă halucinațiile în liniște sunt deranjante. E puternic la japoneză și engleză, dar când în vorbirea vietnameză se amestecă engleza, se prăbușește. Dezvoltăm sisteme în Vietnam, deci pentru noi a fost o problemă reală.
Mistral (Voxtral) — așa și așa.
Gemini — când i-am dat STT-ul și postprocesarea împreună, normaliza prea îndrăzneț și halucina lucruri pe care nu le spusesem. Un cal nărăvaș.
Dificultățile postprocesării prin LLM
Pentru a compensa ce STT-ul singur nu poate face, am testat și postprocesarea prin LLM (eliminarea cuvintelor de umplutură, aplicarea dicționarului, formatarea textului). Benchmark-ul cu 6 modele și 20 de scenarii a arătat că fiecare model are o „personalitate” clară.
- Modele OpenAI: precaute și conservatoare. Aplică dicționarul, dar nu ating cuvintele necunoscute. Halucinații: 0.
- Modele Gemini: active și îndrăznețe. Cele mai puternice la dicționar, dar rescriu arbitrar cuvinte cunoscute în versiuni „mai corecte”. Spui „Gemini 3 Flash” și primești corecția „Gemini 1.5 Flash” — cu cât cuvântul e mai cunoscut, cu atât halucinația e mai periculoasă.
- Modele Claude: modeste și sigure. Nu strică nimic, dar le lipsește încrederea la dicționar.
Concluzia: postprocesarea e, în fond, un rău necesar care va dispărea pe măsură ce modelele STT însele evoluează.
Întâlnirea cu ElevenLabs Scribe V2
Și atunci am dat de ElevenLabs Scribe V2.
Nu auzisem deloc de companie până atunci, dar acest model a fost șocant. Vietnameză, japoneză, engleză — indiferent de limbă, calitatea transcrierii e ridicată. Chiar și la japoneză, subiectiv vorbind, depășește modelele OpenAI.
Există și parametri pentru dicționar, deci e prietenos cu developerii. Calitatea e suficientă chiar și fără postprocesare. În koedesk folosim astăzi Scribe V2 ca model implicit.
Fără postprocesare, am reușit să atingem o calitate superioară altor aplicații — cel puțin în japoneză avem această convingere.
Mediul meu actual de lucru
Pe acest drum, instrumentele AI pe care le folosesc zilnic sunt de fapt destul de puține. Claude Code și koedesk. Acest cuplu.
Pe de altă parte — dacă Claude Code pică, nu mai pot face un singur pull request pe cont propriu. Atât de dependent sunt.
Workflow-ul acestui articol
Acest articol este în sine o demonstrație a introducerii vocale.
- Vorbesc în koedesk și obțin transcrierea
- Claude Code șlefuiește textul
- Claude Code lucrează cu repo-ul Git și face push
- Zenn Connect (integrare cu GitHub) publică automat
Aproape n-am atins tastatura.
Vrei să încerci introducerea vocală?
Cei care cunosc AquaVoice probabil își vor zice „a, da, acea experiență”. Dar mulți dintre voi poate că încă n-ați încercat introducerea vocală.
Recomand mai ales celor care folosesc japoneza să încerce calitatea transcrierii japoneze din ElevenLabs Scribe V2, modelul implicit al koedesk. Koedesk poate fi folosit 5 minute pe zi, fără termen de expirare și fără card de credit — gratuit, pentru totdeauna. Dacă îți place, planul Pro la $10/lună oferă transcriere nelimitată.
M-aș bucura dacă acest articol ar deveni pentru tine prilejul de a încerca o nouă interfață de input — introducerea vocală.
Ca să mă întorc la început, am o ambiție discretă. Aș vrea ca koedesk să devină Happy Hacking Keyboard-ul lumii introducerii vocale. ……E o glumă, scuze. Dar pe jumătate vorbesc serios.
La final
În viitor vreau să continui să scriu despre actualizările koedesk și despre stadiul actual al lumii Speech-to-Text.
De asemenea, dacă vor părea utile, aș dori să împărtășesc și tehnicile pe care le folosesc zilnic în munca mea cu agenți AI.
Dacă vă convine, mă bucur să rămâneți alături și de acum încolo.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app