Essai

Utilisez-vous la saisie vocale ? — Sur la prochaine interface d'entrée après le clavier

4 avril 2026 · by Masaki Kondo · 6 min read

Introduction — L'amour de l'interface d'entrée

Utilisez-vous la saisie vocale ?

Le changement de paradigme apporté par l'IA va très vite ces temps-ci, mais je trouve qu'un phénomène tout aussi passionnant se déroule en amont, du côté de l'entrée. La transcription automatique (Speech-to-Text) est enfin devenue une méthode de saisie utilisable au quotidien. Pour moi, c'est un véritable tournant.

Beaucoup d'ingénieurs que je connais dépensent allègrement deux ou trois cents euros dans un clavier — la Happy Hacking Keyboard de PFU, des mécaniques custom, et j'en passe. J'en fais partie ; pendant un temps, j'ai été obsédé par les claviers. Les meetups de claviers DIY ont d'ailleurs le vent en poupe en ce moment.

Si nous prenons à ce point au sérieux le clavier comme interface d'entrée, pourquoi ne pas prendre la saisie vocale tout aussi au sérieux en tant que nouvelle interface ? C'est le sujet de cet essai.

Quelques mots sur moi

Je m'appelle Masaki Kondo. Je suis PDG de Guide Inc. Vietnam, une entreprise informatique basée au Vietnam. Je suis impliqué au quotidien dans le développement logiciel et, ces derniers temps, j'ai placé Claude Code au centre de ma façon de travailler.

Concrètement, je tiens un dépôt privé appelé kondo-daily-ops où Claude Code m'aide pour les tickets Backlog des clients, la communication interne et la tenue de mes journaux de travail — pour à peu près tout, en fait. Il récupère le contexte des tickets via l'API, exhume l'historique des anciens journaux, exécute mes skills sauvegardés pour rédiger une réponse, etc. Je pilote le tout par des instructions en langage naturel.

Comme vous l'imaginez, ces instructions sont des phrases assez longues. Les taper toutes au clavier est, disons, fastidieux.

Rencontre avec AquaVoice

Fin 2025, j'ai commencé à utiliser une application de saisie vocale nommée AquaVoice.

Pouvoir dicter ces longues instructions à Claude Code s'est révélé bien plus agréable que prévu. En peu de temps, je ne pouvais plus me passer de la saisie vocale. « Lis ce ticket, va chercher le contexte dans les anciens journaux, applique ce skill et rédige-moi une réponse » — pouvoir dire cela à voix haute est d'un confort presque scandaleux. Une fois qu'on a goûté à ça, impossible de revenir en arrière.

Pourquoi j'ai voulu construire le mien

Soyons honnête : je n'avais aucune plainte contre AquaVoice. J'en étais très satisfait.

Alors pourquoi en construire un soi-même ? Pure curiosité intellectuelle.

D'abord, j'avais envie de faire quelque chose en Rust. J'ai déjà ce genre d'antécédents : Guidebook (un générateur de site statique en Rust), notre VPN interne basé sur Headscale, etc. — des outils que j'utilise au travail, construits par moi. Affûter ses propres outils, c'est simplement amusant.

Ensuite, le fonctionnement technique d'AquaVoice m'intriguait. D'abord Speech-to-Text, puis nettoyage par un LLM — cette pipeline en plusieurs étapes m'attirait beaucoup.

Même avant de découvrir AquaVoice, j'étais impressionné par la qualité de la transcription japonaise de ChatGPT. Je faisais une chose un peu ridicule : dicter dans l'application de bureau ChatGPT, puis copier-coller la transcription dans Claude Code. C'était ça, mon workflow.

Et puis OpenAI a sorti gpt-4o-mini-transcribe en API. « Tiens, je pourrais le faire moi-même » — l'étincelle, c'était ça.

Une tournée des modèles Speech-to-Text

Au cours du développement de koedesk, j'ai essayé toute une série de modèles STT.

Groq Whisper Large v3 Turbo — Rapide. Mais hallucine un peu.

OpenAI GPT-4o Transcribe — Précis, mais ses hallucinations pendant les silences sont gênantes. Solide en japonais et en anglais, mais s'effondre dès qu'on mélange de l'anglais à du vietnamien. Comme nous développons au Vietnam, c'était un vrai problème pour nous.

Mistral (Voxtral) — Pas terrible.

Gemini — J'ai essayé de lui faire faire STT et post-traitement d'un seul coup. Il a normalisé si agressivement qu'il a halluciné des choses que je n'avais jamais dites. Un cheval fougueux.

La difficulté du post-traitement par LLM

Pour compenser ce que le STT seul ne peut pas faire, j'ai aussi testé un post-traitement par LLM (suppression des hésitations, application de dictionnaire, mise en forme). Sur 20 cas de référence et 6 modèles, chacun avait clairement sa personnalité.

Famille OpenAI : conservatrice et prudente. Applique le dictionnaire mais ne touche pas aux mots inconnus. Zéro hallucination.
Famille Gemini : assurée et audacieuse. Meilleure application du dictionnaire du panel, mais réécrit les mots qu'elle croit connaître en quelque chose de « plus correct ». Dites « Gemini 3 Flash » et ça devient « Gemini 1.5 Flash ». Plus le mot est familier, plus l'hallucination est dangereuse.
Famille Claude : humble et sûre. Ne casse rien, mais manque d'assurance pour appliquer le dictionnaire.

Ma conclusion : en principe, le post-traitement ne devrait pas être nécessaire, et il deviendra obsolète à mesure que les modèles STT progressent.

Rencontre avec ElevenLabs Scribe V2

C'est là que j'ai découvert ElevenLabs Scribe V2.

Je ne connaissais pas du tout cette société, mais le modèle m'a fait l'effet d'un choc. Vietnamien, japonais, anglais — la précision est élevée quelle que soit la langue. En japonais en particulier, subjectivement, j'ai eu l'impression qu'il avait pris l'avantage sur les modèles d'OpenAI.

Il propose aussi un paramètre propre pour le biais de dictionnaire — un design vraiment pensé pour les développeurs. La qualité de sortie est suffisante pour se passer totalement de post-traitement. Aujourd'hui, koedesk utilise Scribe V2 comme modèle par défaut.

Sans post-traitement, une qualité qui surpasse les autres applications — en japonais en tout cas, je l'affirme tranquillement.

Mon environnement actuel

Après tout cela, les outils d'IA que j'utilise quotidiennement sont étonnamment peu nombreux. Claude Code et koedesk. Voilà toute la liste.

Autrement dit, si Claude Code tombe en panne, je ne suis même plus capable d'ouvrir une pull request tout seul. Voilà à quel point j'en dépends.

Comment cet article a été écrit

Cet article lui-même est une démonstration de saisie vocale.

Dicté dans koedesk pour la transcription
Mis en forme par Claude Code
Claude Code manipule le dépôt Git et fait le push
Zenn Connect (intégration GitHub) publie automatiquement

Je n'ai quasiment pas touché au clavier.

Et si vous essayiez la saisie vocale ?

Si vous connaissez AquaVoice, vous vous direz peut-être : « Ah, cette expérience-là. » Mais beaucoup de gens n'ont jamais réellement essayé la saisie vocale.

Aux utilisateurs francophones et japonophones, j'aimerais surtout faire ressentir la qualité japonaise d'ElevenLabs Scribe V2, le modèle par défaut de koedesk. koedesk propose un plan gratuit avec 5 minutes par jour, sans expiration et sans carte bancaire. Si ça vous plaît, le plan Pro à $10/mois débloque la transcription illimitée.

J'aimerais que cet article serve de premier contact avec la saisie vocale en tant que nouvelle interface d'entrée.

Pour revenir au début : une petite ambition secrète — j'aimerais faire de koedesk la Happy Hacking Keyboard de la saisie vocale. …C'était une blague, désolé. Bon, à moitié.