Assaig

Fas servir l'entrada per veu? — La interfície d'entrada que ve després del teclat

4 d’abril del 2026 · by Masaki Kondo · 6 min read

Introducció — ser exigent amb la interfície d'entrada

Fas servir l'entrada per veu?

Enmig del canvi de paradigma constant que ens porta la IA, una nova manera d'entrar text està entrant en una fase realment utilitzable: l'Speech-to-Text (transcripció). Crec que ens trobem davant d'un punt d'inflexió important.

Per cert, segur que entre els enginyers que llegiu això n'hi ha que utilitzen teclats de 20.000 o 30.000 iens, com l'Happy Hacking Keyboard de PFU. Jo també n'era un, i durant un temps em vaig obsessionar amb els teclats. Avui en dia els esdeveniments de teclats artesanals també estan en plena efervescència.

Si val la pena ser exigent amb el teclat com a interfície d'entrada, també val la pena ser-ho amb l'entrada per veu. Amb aquesta idea al cap, escric aquest article.

Qui sóc

Em dic Masaki Kondo. Sóc CEO de Guide Inc. Vietnam, una empresa d'informàtica al Vietnam. Treballo cada dia en desenvolupament de programari i últimament tinc el Claude Code al centre del meu flux de treball.

Concretament, he creat un repositori privat anomenat kondo-daily-ops on delego al Claude Code pràcticament tot: la comunicació amb clients per Backlog, la comunicació amb l'equip intern i la gestió dels registres de feina. Recuperar el context d'un tiquet via API, anar a buscar context als registres antics, redactar respostes amb habilitats ja sistematitzades… són les instruccions que li dono dia rere dia.

Com us podeu imaginar, aquestes instruccions són en llengua natural i sovint força llargues. Escriure-ho tot a teclat és un patiment.

La trobada amb AquaVoice

A finals del 2025 vaig començar a fer servir AquaVoice, una aplicació d'entrada per veu.

Poder donar instruccions llargues al Claude Code simplement parlant em va resultar més natural del que m'esperava i, en un tres i no res, ja no podia viure sense l'entrada per veu. "Mira aquest tiquet, busca context als registres antics i fes servir aquesta habilitat per redactar una resposta" — poder donar aquest tipus d'instruccions parlant és deliciós. Quan ho proves, ja no hi ha marxa enrere.

Per què, doncs, fer-me'l jo mateix?

Sincerament, no tenia cap queixa d'AquaVoice i estava content.

Aleshores, per què fer-me'l? La resposta és pura curiositat intel·lectual.

D'una banda, feia temps que tenia ganes de fer alguna cosa en Rust. Ja tenia experiència construint les meves pròpies eines, com el Guidebook (un generador de llocs estàtics fet en Rust) o la VPN interna basada en Headscale. Polir i construir-me les meves eines és una cosa que em diverteix moltíssim.

D'altra banda, tenia curiositat per l'arquitectura tècnica d'AquaVoice: transcriure amb Speech-to-Text i, després, polir el resultat amb un LLM — la cadena de processament em fascinava.

De fet, fins i tot abans de conèixer AquaVoice, ja em sorprenia la precisió de la transcripció del mode veu de ChatGPT. Vaig arribar a fer una cosa ben tortuosa: parlar a l'app d'escriptori de ChatGPT, copiar la transcripció i enganxar-la al Claude Code.

I llavors OpenAI va alliberar gpt-4o-mini-transcribe per API. "Potser puc fer-me'l jo mateix?" — aquesta va ser la guspira definitiva.

El meu viatge pels models de Speech-to-Text

En el desenvolupament de koedesk, vaig provar molts models de STT.

Groq Whisper Large v3 Turbo — ràpid. Però al·lucina una mica.

OpenAI GPT-4o Transcribe — precís, però al·lucina en els silencis. Va molt bé en japonès i anglès, però quan es barreja anglès dins el vietnamita, per exemple, es trenca de cop. Com que desenvolupem al Vietnam, era un problema seriós.

Mistral (Voxtral) — un punt fluix.

Gemini — quan vaig fer-li fer STT i postprocés alhora, normalitzava de manera tan agosarada que acabava al·lucinant coses que jo no havia dit. Un cavall salvatge.

La dificultat del postprocés amb LLM

Per pal·liar les limitacions del STT, també vaig avaluar el postprocés amb LLM (eliminació de muletes, aplicació de diccionari, esmena del text). Després de 20 escenaris de prova sobre 6 models, va quedar clar que cada model té un caràcter propi.

Família OpenAI: conservadora i prudent. Aplica el diccionari però no toca paraules que no coneix. Zero al·lucinacions.
Família Gemini: agosarada i activa. Imbatible aplicant el diccionari, però reescriu paraules que creu conèixer per allò que considera "més correcte". Jo dic "Gemini 3 Flash" i ella corregeix a "Gemini 1.5 Flash" — les paraules conegudes són la font més perillosa d'al·lucinacions.
Família Claude: humil i segura. No trenca res, però li falta confiança aplicant el diccionari.

Conclusió: el postprocés és, en el fons, un pegat — i serà cada cop menys necessari a mesura que els propis models de STT evolucionin.

La trobada amb ElevenLabs Scribe V2

I llavors vaig topar amb ElevenLabs Scribe V2.

Era una empresa que no coneixia, però aquest model va ser impactant. Vietnamita, japonès, anglès — sigui quina sigui la llengua, la precisió de la transcripció és alta. En japonès, sensació meva, supera els models d'OpenAI.

Inclou un paràmetre per a diccionari personalitzat i té un disseny còmode per al desenvolupador. La qualitat ja és prou bona sense cap postprocés. A koedesk hem adoptat Scribe V2 com a model per defecte.

Sense postprocés, hem aconseguit una qualitat que supera la d'altres aplicacions — almenys en japonès, així ens ho sentim.

El meu entorn de treball actual

Després de tot aquest viatge, les eines d'IA que faig servir cada dia són, en realitat, ben poques. Claude Code i koedesk. Aquest és tot el meu equipament.

Per contra, si el Claude Code cau, no sóc capaç ni de fer una pull request tot sol. Aquest és el grau de dependència.

El flux d'aquest mateix article

De fet, aquest article mateix és una demostració d'entrada per veu.

Parlo i transcric amb koedesk
Claude Code poleix el text
Claude Code manipula el repositori Git i fa push
Zenn Connect (integració amb GitHub) publica automàticament

Pràcticament no he tocat el teclat.

T'animes a provar l'entrada per veu?

Si coneixes AquaVoice, segur que diràs "ah, aquella experiència". Però segur que encara hi ha molta gent que no ha tastat mai l'entrada per veu.

Especialment per als qui parleu japonès, recomano viure la qualitat de l'ElevenLabs Scribe V2, el model per defecte de koedesk. Koedesk té un pla gratuït de 5 minuts al dia, sense data de caducitat i sense necessitat de targeta de crèdit. Si t'agrada, el pla Pro són 10 dòlars al mes i obre la transcripció il·limitada.

Espero que aquest article et serveixi d'excusa per fer la primera passa cap a aquesta nova interfície d'entrada.

Tornant al principi, una petita ambició meva: m'agradaria que koedesk fos l'Happy Hacking Keyboard del món de l'entrada per veu. … Era broma, perdó. Però a mitges és veritat.