Saggio

Usate l'input vocale? — Sulla prossima interfaccia di input dopo la tastiera

4 aprile 2026 · by Masaki Kondo · 6 min read

Introduzione — Avere cura dell'interfaccia di input

Voi usate l'input vocale?

Il cambio di paradigma dell'IA va a un ritmo travolgente di questi tempi, ma credo che qualcosa di altrettanto interessante stia accadendo proprio all'inizio della catena: sul lato input. Lo Speech-to-Text è finalmente diventato un metodo di input utilizzabile nel quotidiano. Per me è un vero punto di svolta.

Molti ingegneri che conosco spendono allegramente duecento o trecento euro in una tastiera: la Happy Hacking Keyboard di PFU, mechanical custom e via dicendo. Io ne faccio parte; per un periodo sono stato ossessionato dalle tastiere. I meetup di tastiere fai-da-te vanno alla grande in questo momento.

Se prendiamo così sul serio la tastiera come interfaccia di input, perché non prendere altrettanto sul serio l'input vocale come nuova interfaccia? Questo saggio parla esattamente di questo.

Due parole su di me

Mi chiamo Masaki Kondo. Sono CEO di Guide Inc. Vietnam, una società IT con sede in Vietnam. Tutti i giorni sono coinvolto nello sviluppo software e, di recente, ho messo Claude Code al centro del mio modo di lavorare.

In concreto, mantengo un repository privato chiamato kondo-daily-ops in cui Claude Code mi aiuta con i ticket Backlog dei clienti, la comunicazione interna e la gestione dei miei log di lavoro: praticamente con tutto. Recupera il contesto dei ticket tramite API, ripesca lo storico dai vecchi log, esegue i miei skill salvati per redigere risposte, e così via. Io orchestro tutto questo con istruzioni in linguaggio naturale.

Come potete immaginare, queste istruzioni sono frasi lunghe. Digitarle al volo sulla tastiera è piuttosto faticoso.

Incontro con AquaVoice

Verso la fine del 2025 ho iniziato a usare un'applicazione di input vocale chiamata AquaVoice.

Poter dettare quelle lunghe istruzioni a Claude Code si è rivelato molto meglio del previsto. In pochissimo tempo non sono più riuscito a fare a meno dell'input vocale. «Guarda questo ticket, pesca il contesto dai vecchi log, usa questo skill e prepara una risposta»: poter dirlo a voce alta è di una comodità quasi imbarazzante. Una volta provato, non si torna indietro.

Perché ho voluto costruirne uno mio

Sarò onesto: non avevo alcuna lamentela su AquaVoice. Ne ero soddisfatto.

Allora perché farne uno mio? Pura curiosità intellettuale.

Innanzitutto, avevo voglia di costruire qualcosa in Rust. Ho già qualche precedente in questo senso: Guidebook (un generatore di siti statici in Rust), il nostro VPN interno basato su Headscale, e così via — strumenti che uso al lavoro, costruiti da me. Affilare i propri strumenti, semplicemente, è divertente.

In secondo luogo, mi incuriosiva il funzionamento tecnico di AquaVoice. Prima Speech-to-Text, poi pulizia con un LLM: questa pipeline a più stadi mi attirava parecchio.

Anche prima di scoprire AquaVoice ero impressionato dalla precisione della trascrizione vocale giapponese di ChatGPT. Facevo una cosa quasi ridicola: dettavo nell'app desktop di ChatGPT e poi copiavo-incollavo la trascrizione in Claude Code. Quello era il mio flusso.

Poi OpenAI ha rilasciato gpt-4o-mini-transcribe come API. «Aspetta, potrei farmelo da solo?» — è stata quella la scintilla.

Un tour fra i modelli Speech-to-Text

Nel corso dello sviluppo di koedesk ho provato un'ampia gamma di modelli STT.

Groq Whisper Large v3 Turbo — Veloce. Allucina un po', però.

OpenAI GPT-4o Transcribe — Preciso, ma le sue allucinazioni durante i silenzi sono fastidiose. Forte in giapponese e inglese, ma crolla nel momento in cui mescoli l'inglese nel vietnamita. Noi sviluppiamo in Vietnam, quindi per noi questo era un problema serio.

Mistral (Voxtral) — Non un granché.

Gemini — Ho provato a fargli fare STT e post-processing in un colpo solo. Ha normalizzato in modo così aggressivo da allucinare cose che non avevo mai detto. Un cavallo imbizzarrito.

La difficoltà del post-processing con LLM

Per compensare ciò che lo STT da solo non può fare, ho valutato anche un post-processing basato su LLM (rimozione delle pause piene, applicazione di dizionario, formattazione). Su 20 pattern di benchmark e 6 modelli, ognuno mostrava chiaramente la propria personalità.

Famiglia OpenAI: conservativa e cauta. Applica il dizionario, ma non tocca parole sconosciute. Zero allucinazioni.
Famiglia Gemini: decisa e audace. La migliore nell'applicare il dizionario, ma riscrive parole che crede di conoscere in qualcosa di «più corretto». Dille «Gemini 3 Flash» e diventa «Gemini 1.5 Flash». Più la parola è familiare, più pericolosa è l'allucinazione.
Famiglia Claude: umile e prudente. Non rompe nulla, ma non ha sicurezza nell'applicare il dizionario.

La mia conclusione: il post-processing, a rigore, non dovrebbe servire e diventerà superfluo man mano che i modelli STT miglioreranno.

Incontro con ElevenLabs Scribe V2

Ed è qui che è arrivato ElevenLabs Scribe V2.

Non conoscevo affatto questa azienda, ma il modello mi ha lasciato a bocca aperta. Vietnamita, giapponese, inglese: precisione alta in ogni lingua. Sul giapponese in particolare, soggettivamente, ho avuto la sensazione che avesse già superato i modelli di OpenAI.

Offre anche un parametro pulito per il bias del dizionario: un design davvero pensato per gli sviluppatori. La qualità in uscita è sufficiente per fare a meno di qualunque post-processing. Oggi koedesk usa Scribe V2 come modello di default.

Senza post-processing e con una qualità che supera le altre app: almeno in giapponese, lo affermo con tranquillità.

Il mio ambiente attuale

Dopo tutto questo percorso, gli strumenti di IA che uso quotidianamente sono sorprendentemente pochi. Claude Code e koedesk. Tutto qui.

In altre parole: se Claude Code cade, non riesco nemmeno ad aprire da solo una pull request. Tale è la mia dipendenza.

Come è stato scritto questo articolo

Questo stesso articolo è una dimostrazione di input vocale.

Dettato in koedesk per la trascrizione
Rifinitura del testo con Claude Code
Claude Code manipola il repository Git e fa il push
Zenn Connect (integrazione GitHub) pubblica automaticamente

Non ho quasi toccato la tastiera.

Perché non provare l'input vocale?

Se conoscete già AquaVoice, magari pensate: «Ah, quella esperienza». Ma tante persone non hanno mai provato davvero l'input vocale.

Soprattutto agli utenti di lingua giapponese vorrei far provare la qualità giapponese di ElevenLabs Scribe V2, il modello di default di koedesk. koedesk ha un piano gratuito con 5 minuti al giorno, senza scadenza e senza carta di credito. Se vi piace, il piano Pro a $10/mese sblocca la trascrizione illimitata.

Mi farebbe piacere se questo articolo diventasse per qualcuno il primo contatto con l'input vocale come nuova interfaccia di input.

Tornando all'inizio: una piccola ambizione segreta — vorrei trasformare koedesk nella Happy Hacking Keyboard dell'input vocale. …Scherzo, scusate. Beh, mezzo scherzo.