Ensaio

Você usa entrada por voz? — A próxima interface de entrada depois do teclado

4 de abril de 2026 · by Masaki Kondo · 6 min read

Introdução — sobre ser exigente com a interface de entrada

Você já experimentou a entrada por voz?

Em meio à mudança constante de paradigma trazida pela IA, surge uma nova forma de interagir com qualquer sistema: Speech-to-Text (transcrição). Sinto que estamos diante de um ponto de virada importante.

Aliás, muitos engenheiros usam teclados que custam o equivalente a 20 ou 30 mil ienes — como o Happy Hacking Keyboard da PFU. Eu também já fui assim, gastei muito tempo escolhendo o teclado perfeito. Hoje em dia, os eventos de teclados artesanais estão em alta.

Se faz sentido ser exigente com o teclado como interface de entrada, faz igualmente sentido ser exigente com a entrada por voz. Foi com esse pensamento que escrevi este artigo.

Quem sou eu

Meu nome é Masaki Kondo. Sou CEO da Guide Inc. Vietnam, uma empresa de TI sediada no Vietnã. No meu dia a dia, atuo diretamente em desenvolvimento de sistemas e, recentemente, coloquei o Claude Code no centro do meu fluxo de trabalho.

Mais concretamente, criei um repositório privado chamado kondo-daily-ops onde delego ao Claude Code praticamente tudo: trocas com clientes no Backlog, comunicação com a equipe interna e gestão dos logs de trabalho. Recupero o contexto do chamado via API, busco informações relevantes nos registros anteriores, aplico habilidades já consolidadas para gerar respostas… é assim que passo o dia.

Como você pode imaginar, essas instruções são em linguagem natural — e costumam ser bem longas. Digitar tudo isso no teclado dá um trabalho enorme.

O encontro com o AquaVoice

No final de 2025, comecei a usar um aplicativo de entrada por voz chamado AquaVoice.

A possibilidade de dar instruções longas ao Claude Code apenas falando se encaixou com uma naturalidade surpreendente. Em pouco tempo, eu já não conseguia mais viver sem entrada por voz. "Olha esse chamado, pega o contexto dos logs antigos e usa essa skill para preparar uma resposta" — dar esse tipo de instrução só falando é confortável demais. Quem experimenta, não volta.

Por que decidi construir o meu próprio

Vou ser honesto: eu não tinha nenhuma reclamação do AquaVoice e estava bem satisfeito.

Então por que construí o meu? A resposta é pura curiosidade intelectual.

Em primeiro lugar, eu queria fazer algo em Rust. Já tinha experiências construindo minhas próprias ferramentas, como o Guidebook (um gerador de sites estáticos em Rust) e a VPN interna baseada em Headscale. Polir e construir minhas próprias ferramentas é algo que me dá um prazer enorme.

Além disso, fiquei curioso com a arquitetura técnica do AquaVoice: transcrever com Speech-to-Text e depois polir o texto com um LLM — esse pipeline em múltiplas etapas me interessava.

Na verdade, mesmo antes de conhecer o AquaVoice, já me impressionava a qualidade da transcrição do modo de voz do ChatGPT. Cheguei a fazer algo bem improvisado: falar no app desktop do ChatGPT, copiar o texto transcrito e colar no Claude Code.

Foi nesse contexto que a OpenAI disponibilizou o gpt-4o-mini-transcribe via API. "Será que dá para eu construir o meu?" — foi esse o estopim definitivo.

Uma jornada pelos modelos de Speech-to-Text

Durante o desenvolvimento do koedesk, testei vários modelos de STT.

Groq Whisper Large v3 Turbo — rápido. Mas alucina um pouco.

OpenAI GPT-4o Transcribe — precisão alta, mas alucina em trechos silenciosos. É forte em japonês e inglês, mas quando o áudio mistura inglês no meio do vietnamita, por exemplo, ele desmorona. Como nosso desenvolvimento acontece no Vietnã, esse era um problema sério.

Mistral (Voxtral) — meio fraco.

Gemini — tentei combinar STT e pós-processamento em uma única etapa, mas ele normalizava com tanta ousadia que acabava alucinando coisas que eu nunca disse. Um cavalo selvagem.

A dificuldade do pós-processamento com LLM

Para suprir limitações dos STTs sozinhos, também avaliei pós-processamento com LLM (remoção de muletas, aplicação de dicionário, polimento do texto). Após um benchmark com 20 cenários em 6 modelos, ficou clara a "personalidade" de cada um:

Família OpenAI: conservadora e cuidadosa. Aplica o dicionário, mas não mexe em palavras que desconhece. Zero alucinações.
Família Gemini: ousada e agressiva. A melhor na aplicação do dicionário, mas reescreve palavras que conhece para uma forma que considera "mais correta". Disse "Gemini 3 Flash" e ela corrige para "Gemini 1.5 Flash" — as palavras que ela conhece são justamente as mais perigosas para alucinações.
Família Claude: humilde e segura. Não quebra nada, mas falta confiança na aplicação do dicionário.

Conclusão: o pós-processamento, no fundo, é uma muleta — e tende a se tornar desnecessário à medida que os próprios modelos de STT evoluem.

O encontro com o ElevenLabs Scribe V2

Foi então que conheci o ElevenLabs Scribe V2.

Era uma empresa que eu não conhecia, e o modelo foi impactante. Precisão alta em vietnamita, japonês e inglês — em qualquer idioma. No japonês, na minha percepção, ele supera os modelos da OpenAI.

Oferece um parâmetro para dicionário personalizado, com um design amigável para desenvolvedores. A qualidade já é suficiente sem nenhum pós-processamento. No koedesk, adotamos o Scribe V2 como modelo padrão.

Sem pós-processamento, conseguimos uma qualidade que supera outros aplicativos — pelo menos em japonês, é o que sentimos.

Meu ambiente de trabalho atual

Depois dessa trajetória, os assistentes de IA que eu uso no dia a dia são, na verdade, poucos. Claude Code e koedesk. Esse é o setup completo.

Por outro lado, se o Claude Code cair, eu não consigo nem abrir um pull request sozinho. É esse nível de dependência.

O fluxo deste próprio artigo

Curiosidade: este artigo é, em si, uma demonstração de entrada por voz.

Falar e transcrever no koedesk
Polir o texto com o Claude Code
O Claude Code manipula o repositório Git e faz o push
Zenn Connect (integração com GitHub) publica automaticamente

Mal toquei no teclado.

Que tal experimentar entrada por voz?

Quem conhece o AquaVoice vai pensar: "ah, aquela experiência". Mas muita gente ainda nunca testou entrada por voz.

Para quem fala japonês, em especial, recomendo experimentar a qualidade do ElevenLabs Scribe V2, o modelo padrão do koedesk. O koedesk oferece um plano gratuito de 5 minutos por dia, sem prazo de expiração e sem necessidade de cartão de crédito. Se gostar, o plano Pro custa US$ 10 por mês e libera transcrição ilimitada.

Espero que este artigo seja uma porta de entrada para essa nova interface chamada entrada por voz.

Voltando ao começo, uma pequena ambição secreta: quero que o koedesk se torne o Happy Hacking Keyboard do mundo da entrada por voz. …Brincadeira, desculpa. Mas metade é sério.