Ensaio

Usas a entrada por voz? — A interface de entrada que vén despois do teclado

4 de abril de 2026 · by Masaki Kondo · 6 min read

Introdución — ser esixente coa interface de entrada

Estás a usar a entrada por voz?

No medio do cambio de paradigma constante que trae a IA, unha nova forma de introducir texto está a chegar a unha fase realmente utilizable: o Speech-to-Text (transcrición). Sinto que estamos diante dun punto de inflexión moi importante.

Por certo, entre os enxeñeiros que ledes isto, seguramente haxa quen utilice teclados de 20.000 ou 30.000 iens, como o Happy Hacking Keyboard de PFU. Eu fun un deles e durante un tempo dedicáballe moita atención aos teclados. Hoxe en día os eventos de teclados artesanais tamén están a vivir un gran momento.

Se paga a pena ser esixente co teclado como interface de entrada, tamén paga a pena selo coa entrada por voz. Con esa idea na cabeza escribo este artigo.

Quen son

Chámome Masaki Kondo. Son CEO de Guide Inc. Vietnam, unha empresa de TI radicada no Vietnam. Traballo a diario en desenvolvemento de software e ultimamente coloquei o Claude Code no centro do meu fluxo de traballo.

En concreto, creei un repositorio privado chamado kondo-daily-ops no que delego ao Claude Code practicamente todo: a comunicación cos clientes a través de Backlog, a comunicación co equipo interno e a xestión dos rexistros de traballo. Recuperar o contexto dun ticket pola API, buscar contexto nos rexistros antigos, redactar respostas con habilidades xa sistematizadas… son as instrucións que lle dou día tras día.

Como podes imaxinar, esas instrucións son en lingua natural e adoito bastante longas. Escribilo todo no teclado é un sufrimento considerable.

O encontro con AquaVoice

A finais de 2025 comecei a usar AquaVoice, unha aplicación de entrada por voz.

Poder dar instrucións longas ao Claude Code só falando encaixoume con máis naturalidade da que esperaba e, nun pis pas, xa non podía vivir sen a entrada por voz. "Mira este ticket, recolle contexto dos rexistros antigos e usa esta habilidade para redactar unha resposta" — poder dar este tipo de instrucións falando é unha marabilla. Despois de probalo, non hai volta atrás.

Entón, por que facelo eu mesmo?

Sinceramente, non tiña ningunha queixa de AquaVoice e estaba moi satisfeito.

Entón, por que facelo? A resposta é pura curiosidade intelectual.

Por unha banda, levaba tempo coas ganas de facer algo en Rust. Xa tiña experiencia construíndo as miñas propias ferramentas, como o Guidebook (un xerador de sitios estáticos en Rust) ou a VPN interna baseada en Headscale. Pulir e construír as miñas ferramentas é algo que me divirte enormemente.

Por outra banda, tiña curiosidade pola arquitectura técnica de AquaVoice: transcribir con Speech-to-Text e logo pulir o texto cun LLM — esa canalización en varias etapas resultábame fascinante.

De feito, mesmo antes de coñecer AquaVoice, xa me sorprendía a precisión do modo voz de ChatGPT. Cheguei a facer algo realmente raro: falar na app de escritorio de ChatGPT, copiar a transcrición e pegala no Claude Code.

E entón OpenAI publicou gpt-4o-mini-transcribe a través da API. "Non poderei facer o meu propio?" — esa foi a chispa definitiva.

Unha travesía polos modelos de Speech-to-Text

No desenvolvemento de koedesk probei moitos modelos de STT.

Groq Whisper Large v3 Turbo — rápido. Pero alucina un pouco.

OpenAI GPT-4o Transcribe — moi preciso, pero alucina nos silencios. Vai estupendamente en xaponés e inglés, pero cando hai inglés mesturado en vietnamita, por exemplo, esfólase. Como desenvolvemos no Vietnam, era un problema serio.

Mistral (Voxtral) — algo flouxo.

Gemini — cando lle deixei facer STT e postprocesado á vez, normalizou con tanta ousadía que acababa alucinando cousas que eu nunca dixera. Un cabalo salvaxe.

A dificultade do postprocesado con LLM

Para compensar as limitacións do STT, tamén probei o postprocesado con LLM (eliminación de muletas, aplicación de dicionario, limpeza do texto). Tras 20 escenarios de proba en 6 modelos, ficou claro que cada modelo ten unha personalidade propia.

Familia OpenAI: conservadora e prudente. Aplica o dicionario pero non toca as palabras que descoñece. Cero alucinacións.
Familia Gemini: ousada e activa. Imbatible aplicando o dicionario, pero reescribe palabras que cre coñecer para a forma que considera "máis correcta". Eu digo "Gemini 3 Flash" e ela corríxeo a "Gemini 1.5 Flash" — as palabras coñecidas son a fonte máis perigosa de alucinacións.
Familia Claude: humilde e segura. Non rompe nada, pero fáltalle confianza aplicando o dicionario.

Conclusión: o postprocesado é, ao final, un curativo — e irá perdendo sentido na medida en que os propios modelos de STT evolucionen.

O encontro con ElevenLabs Scribe V2

E foi entón cando me atopei con ElevenLabs Scribe V2.

Era unha empresa que non coñecía, pero o modelo foi impactante. Vietnamita, xaponés, inglés — sexa cal sexa a lingua, a precisión da transcrición é alta. En xaponés, segundo a miña percepción, supera os modelos de OpenAI.

Inclúe un parámetro para dicionario personalizado e ten un deseño cómodo para desenvolvedores. A calidade xa é máis que suficiente sen ningún postprocesado. En koedesk adoptamos Scribe V2 como modelo por defecto.

Sen postprocesado, conseguimos unha calidade que supera a doutras aplicacións — polo menos en xaponés, así o sentimos.

O meu contorno de traballo actual

Despois de toda esta travesía, as ferramentas de IA que uso cada día son, en realidade, ben poucas. Claude Code e koedesk. Ese é todo o meu equipo.

Pola contra, se Claude Code cae, non son quen nin de facer unha pull request soíño. Ese é o grao de dependencia.

O fluxo deste mesmo artigo

De feito, este artigo é, en si mesmo, unha demostración de entrada por voz.

Falo e transcríbese en koedesk
Claude Code pulle o texto
Claude Code manexa o repositorio Git e fai push
Zenn Connect (integración con GitHub) publica automaticamente

Practicamente non toquei o teclado.

Animaste a probar a entrada por voz?

Quen coñeza AquaVoice pensará "ah, esa experiencia". Pero seguramente hai moita xente que aínda non probou a entrada por voz.

Especialmente para quen falades xaponés, recomendo experimentar a calidade do ElevenLabs Scribe V2, o modelo por defecto de koedesk. Koedesk ofrece un plan gratuíto de 5 minutos por día, sen data de caducidade e sen necesidade de tarxeta de crédito. Se che gusta, o plan Pro custa 10 dólares ao mes e abre a transcrición ilimitada.

Agardo que este artigo che sirva como excusa para dar o primeiro paso cara a esta nova interface de entrada.

Volvendo ao principio, unha pequena ambición miña: gustaríame que koedesk se convertese no Happy Hacking Keyboard do mundo da entrada por voz. … Brincaba, perdón. Pero a metade vai en serio.