Essay

Bruker du taleinndata? — Om grensesnittet som kommer etter tastaturet

4. april 2026 · by Masaki Kondo · 5 min read

Innledning — å bry seg om inndatagrensesnittet sitt

Bruker du taleinndata?

AI-paradigmet skifter raskere enn noensinne, og midt i alt dette er Speech-to-Text (transkribering) i ferd med å bli en reelt brukbar måte å mate AI med tekst på. Jeg tror vi står ved et vendepunkt her.

Mange utviklere bruker nok tastaturer i kategorien Happy Hacking Keyboard fra PFU — den typen som lett koster 2 000–3 000 kroner eller mer. Jeg var selv en periode sterkt opptatt av tastatur, og custom-tastatur-miljøet er virkelig levende for tiden.

Hvis det er helt rimelig å være pirkete med tastaturet som inndatagrensesnitt, hvorfor ikke være like pirkete med stemmen? Det er kort sagt grunnen til at jeg skriver dette.

Om meg

Jeg heter Masaki Kondo. Jeg er CEO i Guide Inc. Vietnam, et IT-selskap i Vietnam. Selv jobber jeg daglig med systemutvikling, og i dag står Claude Code midt i hverdagsflyten min.

Helt konkret har jeg et privat repo som heter kondo-daily-ops, der Claude Code hjelper meg med stort sett alt: Backlog-tråder med kunder, intern kommunikasjon med kolleger, og selve arbeidsloggen. Jeg ber den hente sakskontekst via API, samle opp kontekst fra tidligere logger og lage svar med mine egne "skills".

Som du sikkert kan gjette, blir promptene lange og i naturlig språk. Å skrive alt det på tastatur er ærlig talt slitsomt.

Møtet med AquaVoice

Mot slutten av 2025 begynte jeg å bruke en taleinndata-app som heter AquaVoice.

Å fyre av lange instruksjoner til Claude Code bare ved å snakke føltes uventet naturlig, og før jeg visste ordet av det var taleinndata uunnværlig. "Se på denne saken, hent kontekst fra gamle logger, lag et svar med denne skillen" — det å bare si dette høyt og være ferdig er en komfort man ikke vil gi slipp på når man først har prøvd.

Hvorfor jeg likevel bygde mitt eget

Helt ærlig: Jeg hadde ingen klager på AquaVoice. Jeg var fornøyd.

Så hvorfor lage mitt eget? Av ren og skjær nysgjerrighet.

For det første hadde jeg lenge hatt lyst til å bygge noe i Rust. Jeg har tidligere laget Guidebook (en statisk site-generator i Rust) og satt opp vår interne VPN (Headscale) — altså verktøy jeg selv bruker i jobben. Det er rett og slett gøy å slipe sine egne verktøy.

I tillegg var jeg teknisk nysgjerrig på hvordan AquaVoice var bygd. Speech-to-Text fulgt av en LLM som "vasker" teksten — den typen flertrinns-pipeline trakk meg.

Allerede før jeg kjente AquaVoice var jeg imponert av presisjonen i ChatGPTs taletranskribering. Det gikk så langt at jeg snakket inn i ChatGPTs desktop-app, kopierte den transkriberte teksten og limte den inn i Claude Code — en litt klønete omvei.

Så ble OpenAIs gpt-4o-mini-transcribe tilgjengelig via API. "Dette kan jeg bygge ovenpå selv" — det var det utløsende øyeblikket.

En reise gjennom STT-modeller

Under utviklingen av koedesk prøvde jeg ut mange STT-modeller.

Groq Whisper Large v3 Turbo — Lynrask, men med en liten dose hallusinasjoner.

OpenAI GPT-4o Transcribe — Høy presisjon, men hallusinerer i stillhet. Sterk på japansk og engelsk, men når engelsk for eksempel blandes inn i vietnamesisk tale, faller kvaliteten. Vi utvikler i Vietnam, så det var et reelt problem.

Mistral (Voxtral) — Litt under pari.

Gemini — Jeg lot den både transkribere og etterbehandle i ett. Den normaliserer så aggressivt at den hallusinerer fram ting jeg aldri har sagt. En vill hest.

Det vanskelige med LLM-etterbehandling

For å dekke det STT alene ikke får til, testet jeg også LLM-etterbehandling — fjerning av fyllord, ordbokstilpasning, tekstryddig. Jeg kjørte 20 benchmark-mønstre på seks modeller, og hver modell viste en tydelig "personlighet".

OpenAI-modeller: Konservative og forsiktige. Bruker ordboken, men rører ikke ord de ikke kjenner. Null hallusinasjoner.
Gemini-modeller: Frekke og kreative. Best på ordboksbruk, men retter også ord til hva de "mener burde stå". Sier du "Gemini 3 Flash" kan du få tilbake "Gemini 1.5 Flash" — hallusinasjoner på ord modellen tror den kjenner er de farligste.
Claude-modeller: Ydmyke og trygge. Ødelegger ikke noe, men er usikre på ordboken.

Konklusjonen ble at etterbehandling i bunn og grunn er en plaster-løsning som vil forsvinne etter hvert som STT-modellene modnes.

Møtet med ElevenLabs Scribe V2

Og så traff jeg på ElevenLabs Scribe V2.

Jeg hadde aldri hørt om selskapet før, men modellen var en åpenbaring. Høy presisjon, enten det er vietnamesisk, japansk eller engelsk. På japansk — i alle fall slik jeg subjektivt opplever det — overgår den OpenAIs modeller.

Den har også innebygde ordboksparametere og er hyggelig å jobbe med som utvikler. Kvaliteten er mer enn god nok uten etterbehandling. I koedesk er Scribe V2 i dag standardmodellen.

Uten etterbehandling, med en kvalitet som overgår andre apper — det tør jeg si, i hvert fall på japansk.

Mitt nåværende utviklingsmiljø

Som resultat av alt dette bruker jeg faktisk ganske få AI-verktøy i hverdagen. Claude Code og koedesk. Det er stacken.

Eller sagt på en annen måte: Hvis Claude Code faller ut, klarer jeg ikke engang å lage en pull request selv. Så avhengig har jeg blitt.

Hvordan denne teksten ble til

Faktisk er denne artikkelen selv en demonstrasjon av taleinndata.

Dikter til koedesk og få transkribert
La Claude Code pusse teksten
Claude Code jobber i Git-repoet og pusher
Zenn Connect (GitHub-integrasjon) publiserer automatisk

Jeg har knapt rørt tastaturet.

Vil du prøve taleinndata?

Kjenner du AquaVoice, tenker du sikkert "ja, ja, den opplevelsen". Men ganske mange har aldri prøvd taleinndata ordentlig.

Særlig for japanske brukere håper jeg å få vise japansk-kvaliteten ElevenLabs Scribe V2 — koedesks standardmodell — leverer. koedesk er gratis for alltid: 5 minutter per dag, ingen utløp, ingen kredittkort. Liker du det, kan du oppgradere til Pro-planen til $10 i måneden med ubegrenset transkribering.

Jeg håper denne teksten blir din anledning til å prøve taleinndata som et nytt inndatagrensesnitt.

For å vende tilbake til innledningen — én liten, hemmelig ambisjon: Å gjøre koedesk til taleinndatas svar på Happy Hacking Keyboard. ... Det var en spøk. Eller halvt om halvt.