Ensayo

¿Usas la entrada por voz? — Sobre la próxima interfaz de entrada después del teclado

4 de abril de 2026 · by Masaki Kondo · 6 min read

Introducción — Cuidar la interfaz de entrada

¿Usáis la entrada por voz?

El cambio de paradigma que está provocando la IA va a un ritmo trepidante, pero creo que algo igual de interesante está ocurriendo justo al principio de la cadena: en el lado de la entrada. La transcripción por voz (Speech-to-Text) ha pasado por fin a ser un método de entrada utilizable en el día a día. Para mí es un auténtico punto de inflexión.

Muchos ingenieros que conozco se gastan alegremente doscientos o trescientos euros en un teclado: la Happy Hacking Keyboard de PFU, mecánicos custom y demás. Yo soy uno de ellos; durante una época estuve obsesionado con los teclados. Los meetups de teclados DIY están en plena fiebre últimamente.

Si nos tomamos tan en serio el teclado como interfaz de entrada, ¿por qué no tomarse igual de en serio la entrada por voz como una nueva interfaz? De eso va este ensayo.

Una breve presentación

Me llamo Masaki Kondo. Soy CEO de Guide Inc. Vietnam, una empresa de TI con sede en Vietnam. Trabajo a diario en desarrollo de software y, últimamente, he puesto a Claude Code en el centro de mi forma de trabajar.

En concreto, mantengo un repositorio privado llamado kondo-daily-ops donde Claude Code me ayuda con los tickets de Backlog de los clientes, la comunicación interna y el mantenimiento de mis registros de trabajo: básicamente con todo. Obtiene el contexto de los tickets por API, recupera el historial de logs antiguos, ejecuta los skills que tengo guardados para redactar respuestas, y así sucesivamente. Yo lo orquesto con instrucciones en lenguaje natural.

Como podéis imaginar, esas instrucciones son frases largas. Teclearlas todas es bastante pesado.

Encuentro con AquaVoice

A finales de 2025 empecé a usar una aplicación de entrada por voz llamada AquaVoice.

Poder dictar esas largas instrucciones a Claude Code fue mucho mejor de lo que esperaba. En muy poco tiempo no podía vivir sin la entrada por voz. «Lee este ticket, busca el contexto en los logs antiguos, usa este skill y redáctame una respuesta»: poder decir eso en voz alta es de una comodidad casi inaceptable. Una vez que lo pruebas, no hay vuelta atrás.

Por qué quise construirlo yo

Voy a ser honesto: no tenía ninguna queja de AquaVoice. Estaba muy satisfecho.

¿Por qué construir el mío entonces? Pura curiosidad intelectual.

Por un lado, tenía ganas de hacer algo en Rust. Ya tengo cierta tradición en esto: Guidebook (un generador de sitios estáticos en Rust), nuestro VPN interno con Headscale, etc. Herramientas que uso en el trabajo y que he construido yo mismo. Afilar tu propia herramienta es, sencillamente, divertido.

Por otro lado, me intrigaba el funcionamiento técnico de AquaVoice. Primero Speech-to-Text y luego una limpieza con LLM: esa pipeline en varias etapas me llamaba mucho la atención.

Incluso antes de descubrir AquaVoice me sorprendía la precisión de la transcripción de voz japonesa de ChatGPT. Hacía algo ridículo: dictar en la aplicación de escritorio de ChatGPT y luego copiar y pegar la transcripción en Claude Code. Ese era mi flujo.

Y entonces OpenAI publicó gpt-4o-mini-transcribe como API. «Espera, ¿podría montar esto yo mismo?» Esa fue la chispa.

Una gira por los modelos Speech-to-Text

A lo largo del desarrollo de koedesk probé un montón de modelos STT.

Groq Whisper Large v3 Turbo: rápido. Pero alucina un poco.

OpenAI GPT-4o Transcribe: preciso, pero sus alucinaciones durante los silencios molestan. Sólido en japonés e inglés, pero se rompe en cuanto mezclas inglés dentro de vietnamita. Nosotros desarrollamos en Vietnam, así que esto era un problema real para nosotros.

Mistral (Voxtral): regulero.

Gemini: probé a que hiciera STT y postprocesado de una sola pasada. Normalizó tan agresivamente que alucinó contenido que yo nunca había dicho. Un caballo desbocado.

La dificultad del postprocesado con LLM

Para compensar lo que el STT por sí solo no resuelve, probé también un postprocesado con LLM (eliminación de muletillas, aplicación de diccionario, formateo). Con 20 patrones de benchmark sobre 6 modelos, cada uno mostró claramente su propia personalidad.

Familia OpenAI: conservadora y prudente. Aplica el diccionario, pero no toca palabras desconocidas. Cero alucinaciones.
Familia Gemini: atrevida y decidida. La mejor aplicando el diccionario, pero reescribe palabras que cree conocer en algo «más correcto». Dile «Gemini 3 Flash» y lo convertirá en «Gemini 1.5 Flash». Cuanto más familiar es la palabra, más peligrosa la alucinación.
Familia Claude: humilde y segura. No rompe nada, pero le falta confianza al aplicar el diccionario.

Mi conclusión: el postprocesado, en realidad, no debería ser necesario, e irá desapareciendo a medida que mejoren los propios modelos STT.

Encuentro con ElevenLabs Scribe V2

Y entonces apareció ElevenLabs Scribe V2.

No conocía de nada a la empresa, pero el modelo me dejó perplejo. Vietnamita, japonés, inglés: alta precisión en todas las lenguas. En japonés en particular, subjetivamente, sentí que ya había superado a los modelos de OpenAI.

Además ofrece un parámetro propio para el bias de diccionario: un diseño realmente pensado para developers. La calidad de salida es suficiente para prescindir del postprocesado. Hoy koedesk usa Scribe V2 como modelo por defecto.

Sin postprocesado y con una calidad que supera a otras apps; al menos en japonés, lo afirmo con tranquilidad.

Mi entorno actual

Después de todo este recorrido, las herramientas de IA que uso a diario son sorprendentemente pocas. Claude Code y koedesk. Toda mi parrilla.

Dicho de otra forma: si Claude Code se cae, no soy capaz ni de abrir una pull request por mi cuenta. De esa magnitud es mi dependencia.

Cómo se escribió este artículo

Este mismo artículo es una demostración de entrada por voz.

Dictado en koedesk para transcribir
Pulido por Claude Code
Claude Code maneja el repositorio Git y hace push
Zenn Connect (integración con GitHub) lo publica automáticamente

Apenas he tocado el teclado.

¿Y si pruebas la entrada por voz?

Si conoces AquaVoice, quizá estés pensando: «Ah, esa experiencia». Pero mucha gente nunca ha probado realmente la entrada por voz.

A los usuarios de habla japonesa especialmente me gustaría que sintierais la calidad japonesa de ElevenLabs Scribe V2, el modelo por defecto de koedesk. koedesk tiene un plan gratuito con 5 minutos al día, sin caducidad y sin tarjeta de crédito. Si te gusta, el plan Pro a $10/mes desbloquea transcripción ilimitada.

Me alegraría que este artículo sirviera como primer contacto con la entrada por voz como una nueva interfaz de entrada.

Volviendo al principio: una pequeña ambición secreta — me gustaría convertir koedesk en la Happy Hacking Keyboard de la entrada por voz. …Era broma, perdón. Bueno, media broma.