Você usa entrada por voz? — A próxima interface de entrada depois do teclado
Introdução — sobre ser exigente com a interface de entrada
Você já experimentou a entrada por voz?
Em meio à mudança constante de paradigma trazida pela IA, surge uma nova forma de interagir com qualquer sistema: Speech-to-Text (transcrição). Sinto que estamos diante de um ponto de virada importante.
Aliás, muitos engenheiros usam teclados que custam o equivalente a 20 ou 30 mil ienes — como o Happy Hacking Keyboard da PFU. Eu também já fui assim, gastei muito tempo escolhendo o teclado perfeito. Hoje em dia, os eventos de teclados artesanais estão em alta.
Se faz sentido ser exigente com o teclado como interface de entrada, faz igualmente sentido ser exigente com a entrada por voz. Foi com esse pensamento que escrevi este artigo.
Quem sou eu
Meu nome é Masaki Kondo. Sou CEO da Guide Inc. Vietnam, uma empresa de TI sediada no Vietnã. No meu dia a dia, atuo diretamente em desenvolvimento de sistemas e, recentemente, coloquei o Claude Code no centro do meu fluxo de trabalho.
Mais concretamente, criei um repositório privado chamado kondo-daily-ops onde delego ao Claude Code praticamente tudo: trocas com clientes no Backlog, comunicação com a equipe interna e gestão dos logs de trabalho. Recupero o contexto do chamado via API, busco informações relevantes nos registros anteriores, aplico habilidades já consolidadas para gerar respostas… é assim que passo o dia.
Como você pode imaginar, essas instruções são em linguagem natural — e costumam ser bem longas. Digitar tudo isso no teclado dá um trabalho enorme.
O encontro com o AquaVoice
No final de 2025, comecei a usar um aplicativo de entrada por voz chamado AquaVoice.
A possibilidade de dar instruções longas ao Claude Code apenas falando se encaixou com uma naturalidade surpreendente. Em pouco tempo, eu já não conseguia mais viver sem entrada por voz. “Olha esse chamado, pega o contexto dos logs antigos e usa essa skill para preparar uma resposta” — dar esse tipo de instrução só falando é confortável demais. Quem experimenta, não volta.
Por que decidi construir o meu próprio
Vou ser honesto: eu não tinha nenhuma reclamação do AquaVoice e estava bem satisfeito.
Então por que construí o meu? A resposta é pura curiosidade intelectual.
Em primeiro lugar, eu queria fazer algo em Rust. Já tinha experiências construindo minhas próprias ferramentas, como o Guidebook (um gerador de sites estáticos em Rust) e a VPN interna baseada em Headscale. Polir e construir minhas próprias ferramentas é algo que me dá um prazer enorme.
Além disso, fiquei curioso com a arquitetura técnica do AquaVoice: transcrever com Speech-to-Text e depois polir o texto com um LLM — esse pipeline em múltiplas etapas me interessava.
Na verdade, mesmo antes de conhecer o AquaVoice, já me impressionava a qualidade da transcrição do modo de voz do ChatGPT. Cheguei a fazer algo bem improvisado: falar no app desktop do ChatGPT, copiar o texto transcrito e colar no Claude Code.
Foi nesse contexto que a OpenAI disponibilizou o gpt-4o-mini-transcribe via API. “Será que dá para eu construir o meu?” — foi esse o estopim definitivo.
Uma jornada pelos modelos de Speech-to-Text
Durante o desenvolvimento do koedesk, testei vários modelos de STT.
Groq Whisper Large v3 Turbo — rápido. Mas alucina um pouco.
OpenAI GPT-4o Transcribe — precisão alta, mas alucina em trechos silenciosos. É forte em japonês e inglês, mas quando o áudio mistura inglês no meio do vietnamita, por exemplo, ele desmorona. Como nosso desenvolvimento acontece no Vietnã, esse era um problema sério.
Mistral (Voxtral) — meio fraco.
Gemini — tentei combinar STT e pós-processamento em uma única etapa, mas ele normalizava com tanta ousadia que acabava alucinando coisas que eu nunca disse. Um cavalo selvagem.
A dificuldade do pós-processamento com LLM
Para suprir limitações dos STTs sozinhos, também avaliei pós-processamento com LLM (remoção de muletas, aplicação de dicionário, polimento do texto). Após um benchmark com 20 cenários em 6 modelos, ficou clara a “personalidade” de cada um:
- Família OpenAI: conservadora e cuidadosa. Aplica o dicionário, mas não mexe em palavras que desconhece. Zero alucinações.
- Família Gemini: ousada e agressiva. A melhor na aplicação do dicionário, mas reescreve palavras que conhece para uma forma que considera “mais correta”. Disse “Gemini 3 Flash” e ela corrige para “Gemini 1.5 Flash” — as palavras que ela conhece são justamente as mais perigosas para alucinações.
- Família Claude: humilde e segura. Não quebra nada, mas falta confiança na aplicação do dicionário.
Conclusão: o pós-processamento, no fundo, é uma muleta — e tende a se tornar desnecessário à medida que os próprios modelos de STT evoluem.
O encontro com o ElevenLabs Scribe V2
Foi então que conheci o ElevenLabs Scribe V2.
Era uma empresa que eu não conhecia, e o modelo foi impactante. Precisão alta em vietnamita, japonês e inglês — em qualquer idioma. No japonês, na minha percepção, ele supera os modelos da OpenAI.
Oferece um parâmetro para dicionário personalizado, com um design amigável para desenvolvedores. A qualidade já é suficiente sem nenhum pós-processamento. No koedesk, adotamos o Scribe V2 como modelo padrão.
Sem pós-processamento, conseguimos uma qualidade que supera outros aplicativos — pelo menos em japonês, é o que sentimos.
Meu ambiente de trabalho atual
Depois dessa trajetória, os assistentes de IA que eu uso no dia a dia são, na verdade, poucos. Claude Code e koedesk. Esse é o setup completo.
Por outro lado, se o Claude Code cair, eu não consigo nem abrir um pull request sozinho. É esse nível de dependência.
O fluxo deste próprio artigo
Curiosidade: este artigo é, em si, uma demonstração de entrada por voz.
- Falar e transcrever no koedesk
- Polir o texto com o Claude Code
- O Claude Code manipula o repositório Git e faz o push
- Zenn Connect (integração com GitHub) publica automaticamente
Mal toquei no teclado.
Que tal experimentar entrada por voz?
Quem conhece o AquaVoice vai pensar: “ah, aquela experiência”. Mas muita gente ainda nunca testou entrada por voz.
Para quem fala japonês, em especial, recomendo experimentar a qualidade do ElevenLabs Scribe V2, o modelo padrão do koedesk. O koedesk oferece um plano gratuito de 5 minutos por dia, sem prazo de expiração e sem necessidade de cartão de crédito. Se gostar, o plano Pro custa US$ 10 por mês e libera transcrição ilimitada.
Espero que este artigo seja uma porta de entrada para essa nova interface chamada entrada por voz.
Voltando ao começo, uma pequena ambição secreta: quero que o koedesk se torne o Happy Hacking Keyboard do mundo da entrada por voz. …Brincadeira, desculpa. Mas metade é sério.
Para fechar
Pretendo continuar escrevendo sobre atualizações do koedesk e sobre o estado atual do Speech-to-Text.
Também quero compartilhar técnicas que uso no dia a dia com agentes de IA — sempre que algo possa ser útil para vocês.
Se fizer sentido, conto com a sua companhia daqui para frente.
Masaki Kondo — CEO da Guide Inc. Vietnam https://koedesk.app