Essay

Gebruik je spraakinvoer al? — Over de invoerinterface ná het toetsenbord

4 april 2026 · by Masaki Kondo · 6 min read

Inleiding — kieskeurig zijn over je invoerinterface

Gebruik jij spraakinvoer?

Te midden van de aanhoudende paradigmaverschuiving rond AI komt er een nieuwe invoermethode op die echt bruikbaar wordt: Speech-to-Text (transcriptie). Ik denk dat we hier voor een groot keerpunt staan.

Onder engineers ken ik trouwens veel mensen die toetsenborden van 20.000 of 30.000 yen gebruiken, zoals de Happy Hacking Keyboard van PFU. Zelf ben ik er ook zo een geweest en heb ik me een tijdlang flink in toetsenborden verdiept. Tegenwoordig zijn evenementen rond zelfgebouwde toetsenborden ook enorm populair.

Als je zo selectief mag zijn op je toetsenbord als invoerinterface, mag dat net zo goed voor spraakinvoer. Met die gedachte schrijf ik dit stuk.

Even voorstellen

Ik ben Masaki Kondo. Ik ben CEO van Guide Inc. Vietnam, een IT-bedrijf in Vietnam. Ik werk dagelijks zelf aan systeemontwikkeling en heb recent Claude Code in het hart van mijn werkproces gezet.

Concreet heb ik een privérepository kondo-daily-ops aangemaakt waarin Claude Code mij overal mee helpt: klantcommunicatie via Backlog, interne communicatie en het beheer van mijn werklogs. De achtergrond van een ticket via de API ophalen, context uit oudere logs vissen, antwoorden samenstellen met skills die ik daarvoor gebouwd heb — dat soort instructies geef ik er de hele dag aan.

Zoals je je voorstelt zijn die instructies in natuurlijke taal, en vaak best lang. Dat allemaal op een toetsenbord intikken is echt geen pretje.

De ontmoeting met AquaVoice

Eind 2025 begon ik AquaVoice te gebruiken, een spraakinvoer-app.

Lange instructies voor Claude Code uitspreken in plaats van typen — het voelde verrassend vertrouwd, en in mum van tijd kon ik niet meer zonder spraakinvoer. "Bekijk dit ticket, haal context uit de oude logs en gebruik die skill om een antwoord te schrijven" — dat soort instructies gewoon hardop kunnen geven is heerlijk. Als je het eenmaal hebt geproefd, ga je niet meer terug.

Waarom dan tóch zelf bouwen?

Eerlijk gezegd had ik geen enkele klacht over AquaVoice en was ik tevreden.

Waarom dan zelf bouwen? Het antwoord is pure intellectuele nieuwsgierigheid.

Allereerst wilde ik graag iets in Rust maken. Ik heb eerder al Guidebook (een statische sitegenerator in Rust) en onze interne VPN met Headscale gebouwd: gereedschap dat ik zelf in mijn werk gebruik. Mijn eigen gereedschap polijsten en bouwen — daar word ik gewoon gelukkig van.

Daarnaast was ik nieuwsgierig naar het technische ontwerp van AquaVoice. Eerst transcriberen met Speech-to-Text en daarna door een LLM laten poetsen — die meertrapspijplijn fascineerde me.

Eerlijk gezegd was ik al vóór AquaVoice onder de indruk van de transcriptiekwaliteit in de spraakmodus van ChatGPT. Ik ging zelfs zo ver om in de ChatGPT-desktopapp te praten, het getranscribeerde resultaat te kopiëren en dat in Claude Code te plakken — een omslachtige routine.

En toen werd gpt-4o-mini-transcribe van OpenAI beschikbaar via de API. "Kan ik dit niet gewoon zelf bouwen?" — dat was het beslissende moment.

Een tocht langs Speech-to-Text-modellen

Tijdens de ontwikkeling van koedesk heb ik talloze STT-modellen geprobeerd.

Groq Whisper Large v3 Turbo — snel. Maar hallucineert wel een beetje.

OpenAI GPT-4o Transcribe — hoge precisie, maar hallucinaties in stiltes zijn vervelend. Japans en Engels gaan prima, maar zodra er Engels in Vietnamees gemengd voorkomt valt het uit elkaar. We ontwikkelen in Vietnam, dus dat was voor ons een serieus probleem.

Mistral (Voxtral) — wat tegenvallend.

Gemini — toen ik STT en nabewerking in één keer probeerde te laten doen, normaliseerde het zó brutaal dat het dingen ging verzinnen die ik nooit gezegd had. Een wild paard.

Hoe lastig nabewerking met LLM is

Om de zwakke plekken van STT te compenseren heb ik ook LLM-nabewerking getest (stopwoorden eruit, woordenlijst toepassen, tekst opmaken). Na 20 testscenario's over 6 modellen kwam er één duidelijke conclusie naar boven: elk model heeft een uitgesproken karakter.

OpenAI-familie: conservatief en voorzichtig. Past de woordenlijst toe maar laat onbekende woorden met rust. Nul hallucinaties.
Gemini-familie: actief en gedurfd. Onverslaanbaar in de woordenlijsttoepassing, maar herschrijft woorden die hij meent te kennen naar de variant die hij "juister" vindt. Ik zeg "Gemini 3 Flash", hij maakt er "Gemini 1.5 Flash" van — bekende woorden zijn de gevaarlijkste bron van hallucinaties.
Claude-familie: bescheiden en veilig. Breekt niets, maar mist zelfvertrouwen bij de woordenlijst.

De conclusie: nabewerking is in feite een doekje voor het bloeden, dat overbodig wordt naarmate STT-modellen zelf beter worden.

De ontmoeting met ElevenLabs Scribe V2

En toen kwam ik ElevenLabs Scribe V2 tegen.

Een bedrijf dat ik tot dan toe niet kende, maar dit model was schokkend goed. Vietnamees, Japans, Engels — taal-onafhankelijk transcribeert het uitstekend. In het Japans heeft het, naar mijn aanvoelen, een streepje voor op de OpenAI-modellen.

Het heeft ook een parameter voor een woordenboek en is ontwerptechnisch vriendelijk voor ontwikkelaars. De kwaliteit is al ruim voldoende zonder nabewerking. In koedesk gebruiken we Scribe V2 dan ook als standaardmodel.

Een product dat zonder nabewerking de concurrentie verslaat — in elk geval voor Japans, durven we dat te beweren.

Mijn huidige werkomgeving

Na deze hele reis zijn de AI-tools die ik dagelijks gebruik eigenlijk verrassend beperkt: Claude Code en koedesk. Dat is mijn complete setup.

Omgekeerd: als Claude Code stuk gaat, kan ik niet eens in mijn eentje een pull request maken. Zo zwaar leun ik erop.

Het workflow achter dit artikel zelf

Dit artikel is zelf een demonstratie van spraakinvoer.

Koedesk transcribeert wat ik uitspreek
Claude Code polijst de tekst
Claude Code stuurt het door de Git-repository en pusht
Zenn Connect (GitHub-integratie) publiceert automatisch

Aan het toetsenbord heb ik nauwelijks gezeten.

Spraakinvoer, eens proberen?

Wie AquaVoice kent zal denken: "ah, díe ervaring". Maar voor velen is spraakinvoer nog onbekend terrein.

Vooral als Japans je taal is, raad ik aan om de Japanse kwaliteit van het standaardmodel ElevenLabs Scribe V2 in koedesk te ervaren. Koedesk biedt een gratis plan met 5 minuten per dag, geen vervaldatum en zonder creditcard. Wie er meer uit wil halen kan voor 10 dollar per maand naar het Pro-plan en transcribeert onbeperkt.

Ik hoop dat dit artikel je aanleiding geeft om kennis te maken met spraakinvoer als nieuwe invoerinterface.

Terug naar het begin: een stille ambitie van mij. Ik zou willen dat koedesk de Happy Hacking Keyboard van de spraakinvoerwereld wordt. … Grapje, sorry. Maar half meen ik het.