Essay

Bruger du stemmeinput? — Om grænsefladen, der kommer efter tastaturet

4. april 2026 · by Masaki Kondo · 6 min read

Indledning — om at gå op i sin inputgrænseflade

Bruger du stemmeinput?

AI-paradigmet skifter hurtigere end nogensinde, og midt i alt det er Speech-to-Text (transskription) ved at blive en reel, brugbar måde at fodre AI med input på. Jeg er overbevist om, at vi står ved et vendepunkt her.

Jeg formoder, at en del udviklere derude bruger tastaturer i kategorien Happy Hacking Keyboard fra PFU — den slags, der nemt koster 1.500–2.500 kroner eller mere. Jeg har selv været stærkt optaget af tastaturer i en periode, og scenen omkring custom-tastaturer er rigtig levende for tiden.

Hvis det er helt naturligt at gå op i tastaturet som inputgrænseflade, hvorfor så ikke gå lige så meget op i stemmen? Det er kort sagt grunden til denne tekst.

Lidt om mig selv

Mit navn er Masaki Kondo. Jeg er CEO for Guide Inc. Vietnam, et IT-firma med base i Vietnam. Jeg arbejder selv aktivt med softwareudvikling, og i dag står Claude Code midt i mit daglige flow.

Helt konkret har jeg lavet et privat repository ved navn kondo-daily-ops, hvor Claude Code hjælper mig med stort set alt: Backlog-tråde med kunder, intern kommunikation med kolleger og selve arbejdsloggen. Jeg beder den hente sagsbaggrund via API, samle kontekst fra tidligere logs og udarbejde svar via mine egne "skills".

Som du sikkert kan gætte, bliver de prompts ret lange og i et helt almindeligt naturligt sprog. At hamre alt det ind på et tastatur er ærligt talt slidsomt.

Mødet med AquaVoice

Sidst i 2025 begyndte jeg at bruge en stemmeinput-app ved navn AquaVoice.

At kunne fyre lange instruktioner af til Claude Code bare ved at tale føltes uventet naturligt, og inden længe kunne jeg ikke leve uden stemmeinput. "Kig på denne sag, find kontekst i de gamle logs, og generér et svar med den her skill" — bare at sige det højt og være færdig er en komfort, man ikke vil undvære, når man først har prøvet det.

Hvorfor jeg overhovedet selv byggede noget

Helt ærligt: Jeg havde ingen klager over AquaVoice. Jeg var glad for den.

Hvorfor lavede jeg så min egen? Ren og skær nysgerrighed.

For det første havde jeg længe haft lyst til at bygge noget i Rust. Jeg har tidligere lavet Guidebook (en statisk site-generator i Rust) og sat vores interne VPN op (Headscale) — altså værktøjer, jeg selv bruger i dagligdagen. At skærpe sit eget værktøj selv er bare sjovt.

Dertil var jeg fagligt nysgerrig på AquaVoice's tekniske setup. Speech-to-Text efterfulgt af en LLM, der "renser" teksten — den slags flertrins-pipelines tiltrak mig.

Allerede inden jeg kendte AquaVoice, havde præcisionen i ChatGPT's stemmetransskription gjort indtryk på mig. Det var endda gået så langt, at jeg talte ind i ChatGPT-desktop-appen, kopierede den transskriberede tekst og indsatte den i Claude Code — en lidt klodset omvej.

Så blev OpenAI's gpt-4o-mini-transcribe tilgængelig via API. "Det her kan jeg jo selv bygge ovenpå" — det blev det udløsende moment.

En rejse gennem Speech-to-Text-modeller

Under udviklingen af koedesk afprøvede jeg en lang række STT-modeller.

Groq Whisper Large v3 Turbo — Lynhurtig, men med en anelse hallucinationer.

OpenAI GPT-4o Transcribe — Høj præcision, men hallucinerer under stilhed. Stærk på japansk og engelsk, men når der fx blandes engelsk ind i vietnamesisk tale, falder kvaliteten markant. Vi udvikler i Vietnam, så det var et reelt problem.

Mistral (Voxtral) — Lidt under niveau.

Gemini — Jeg lod den både transskribere og efterbehandle i ét hug. Den normaliserer så aggressivt, at den hallucinerer ting, jeg aldrig har sagt. En vild hest.

Det svære ved LLM-efterbehandling

For at kompensere for det, STT alene ikke kan klare, testede jeg også LLM-efterbehandling — fjernelse af fyldord, ordbogsanvendelse, oprydning af tekst. Jeg kørte 20 benchmark-mønstre på tværs af seks modeller, og hver model viste en tydelig "personlighed".

OpenAI-modeller: Konservative og forsigtige. Bruger ordbogen, men rører ikke ord, de ikke kender. Nul hallucinationer.
Gemini-modeller: Frække og kreative. Bedst til at anvende ordbogen, men retter også ord, de mener, "burde være anderledes". Sagde du "Gemini 3 Flash", risikerer du at få "Gemini 1.5 Flash" tilbage — hallucinationer på ord, modellen tror, den kender, er de farligste.
Claude-modeller: Ydmyge og sikre. Ødelægger intet, men er usikre med ordbogen.

Konklusionen blev, at efterbehandling i grunden er en lap, der vil forsvinde, efterhånden som selve STT-modellerne modnes.

Mødet med ElevenLabs Scribe V2

Og så stødte jeg på ElevenLabs Scribe V2.

Jeg kendte slet ikke firmaet før, men den her model var en åbenbaring. Høj transskriptionspræcision på tværs af vietnamesisk, japansk og engelsk. På japansk — i hvert fald i min subjektive oplevelse — overgår den OpenAI's modeller.

Den har også indbyggede parametre til ordbøger og er rar at arbejde med som udvikler. Kvaliteten er rigeligt høj uden nogen form for efterbehandling. I koedesk er Scribe V2 i dag standardmodellen.

Uden efterbehandling, og med en kvalitet der overgår de fleste konkurrerende apps — det tør jeg godt sige om i hvert fald japansk.

Mit udviklingsmiljø i dag

Som resultat af alt det her bruger jeg i grunden ret få AI-værktøjer i hverdagen. Claude Code og koedesk. Det er kombinationen.

Sagt på en anden måde: Hvis Claude Code falder ud, kan jeg ikke engang lave en pull request selv. Så meget hænger jeg i den.

Sådan blev denne tekst til

Faktisk er selve denne artikel en demonstration af stemmeinput.

Diktér til koedesk og få transskriberet
Lad Claude Code redigere teksten
Claude Code arbejder i Git-repoet og pusher
Zenn Connect (GitHub-integration) publicerer automatisk

Jeg har stort set ikke rørt tastaturet.

Prøv selv stemmeinput

Kender du AquaVoice, tænker du sikkert: "Ja, ja, den oplevelse der." Men jeg gætter på, at mange aldrig rigtig har prøvet stemmeinput.

Især japanske brugere håber jeg vil opleve den japanske kvalitet, ElevenLabs Scribe V2 — koedesk's standardmodel — leverer. koedesk er gratis at bruge for evigt: 5 minutter om dagen, ingen udløb, intet kreditkort. Bliver du forelsket i den, kan du opgradere til Pro-abonnementet til $10 om måneden med ubegrænset transskription.

Jeg håber, det her bliver din anledning til at prøve stemmeinput som en ny inputgrænseflade.

For at vende tilbage til indledningen — én lille, hemmelig ambition: At gøre koedesk til stemmeinputtets svar på Happy Hacking Keyboard. ... Nå, det er en spøg. Eller halvt om halvt.