Använder du röstinmatning? — Om gränssnittet som kommer efter tangentbordet
Inledning — att bry sig om sitt inmatningsgränssnitt
Använder du röstinmatning?
AI-paradigmen skiftar i rasande tempo, och mitt i allt är Speech-to-Text (transkribering) på väg att bli ett verkligt användbart sätt att mata AI med text. Jag är övertygad om att vi står vid en stor brytpunkt här.
Många utvecklare där ute använder säkert tangentbord i klassen Happy Hacking Keyboard från PFU — den sortens tangentbord som lätt kostar 2 000–3 000 kronor eller mer. Själv var jag rejält fast i tangentbord ett tag, och scenen för custom-tangentbord är riktigt levande just nu.
Om det är fullt rimligt att vara nördig kring tangentbord som inmatningsgränssnitt, varför inte vara minst lika nördig kring rösten? Det är i grunden därför jag skriver det här.
Lite om mig
Jag heter Masaki Kondo. Jag är CEO för Guide Inc. Vietnam, ett IT-bolag i Vietnam. Själv jobbar jag dagligen med systemutveckling, och numera står Claude Code mitt i mitt arbetsflöde.
Konkret har jag ett privat repo som heter kondo-daily-ops, där Claude Code hjälper mig med i princip allt: Backlog-trådar med kunder, intern kommunikation med kollegor, arbetsloggar. Jag ber den hämta ärendebakgrund via API, samla kontext från tidigare loggar och formulera svar med hjälp av mina egna “skills”.
Som du säkert anar blir prompts långa och i ren mänsklig prosa. Att skriva allt det på tangentbord är ärligt talt jobbigt.
Mötet med AquaVoice
Mot slutet av 2025 började jag använda en röstinmatningsapp som heter AquaVoice.
Att kunna skicka långa instruktioner till Claude Code bara genom att prata kändes förvånansvärt naturligt, och innan jag visste ordet av kunde jag inte vara utan röstinmatning. “Titta på det här ärendet, hämta kontext från gamla loggar, skapa ett svar med den här skillen” — bekvämligheten i att bara säga det högt och vara klar är något du inte vill släppa när du provat.
Varför jag ändå byggde mitt eget
Ärligt talat: Jag hade inga klagomål på AquaVoice. Jag var nöjd.
Så varför göra mitt eget? Av ren och skär nyfikenhet.
För det första hade jag länge velat bygga något i Rust. Jag har tidigare byggt Guidebook (en statisk site-generator i Rust) och vårt interna VPN (Headscale) — verktyg som jag själv använder i jobbet. Att vässa sina egna verktyg är helt enkelt kul.
Sen var jag tekniskt nyfiken på hur AquaVoice satt ihop. Speech-to-Text följt av en LLM som “städar” texten — den sortens flerstegspipeline lockade mig.
Redan innan jag hörde talas om AquaVoice var jag imponerad av ChatGPT:s transkriberingsprecision. Det gick så långt att jag pratade in i ChatGPT:s desktop-app, kopierade den transkriberade texten och klistrade in den i Claude Code — en lite klumpig omväg.
Sedan blev OpenAI:s gpt-4o-mini-transcribe tillgänglig via API. “Det här kan jag bygga ovanpå själv” — det var den utlösande pusselbiten.
En resa genom STT-modeller
Under utvecklingen av koedesk testade jag en lång rad STT-modeller.
Groq Whisper Large v3 Turbo — Blixtsnabb, men med en gnutta hallucinationer.
OpenAI GPT-4o Transcribe — Hög precision, men hallucinerar i tystnad. Stark på japanska och engelska, men när engelska blandas in i vietnamesiskt tal till exempel rasar kvaliteten. Vi utvecklar i Vietnam, så det var ett konkret problem.
Mistral (Voxtral) — Lite svag.
Gemini — Jag lät den både transkribera och efterbehandla i ett enda steg. Den normaliserar så aggressivt att den hallucinerar saker jag aldrig sagt. En vild häst.
Det svåra med LLM-efterbehandling
För att täcka det STT inte klarar själv testade jag också LLM-efterbehandling — borttagning av fyllnadsord, ordbokstillämpning, allmän städning. Jag körde 20 benchmarkmönster på sex modeller, och varje modell visade en tydlig “personlighet”.
- OpenAI-modellerna: Konservativa och försiktiga. Använder ordboken, men rör inte ord de inte känner till. Noll hallucinationer.
- Gemini-modellerna: Djärva och kreativa. Bäst på ordbokstillämpning, men rättar också ord till vad de “tycker borde stå”. Säger du “Gemini 3 Flash” kan du få tillbaka “Gemini 1.5 Flash” — hallucinationer på ord modellen tror sig känna är de farligaste.
- Claude-modellerna: Ödmjuka och säkra. Förstör inget, men är osäkra på ordboken.
Slutsatsen blev att efterbehandling i grunden är en plåster-lösning som kommer försvinna när STT-modellerna själva mognar.
Mötet med ElevenLabs Scribe V2
Och så stötte jag på ElevenLabs Scribe V2.
Jag hade aldrig hört talas om bolaget innan, men modellen var en uppenbarelse. Hög transkriberingsprecision oavsett om det är vietnamesiska, japanska eller engelska. På japanska — åtminstone enligt min subjektiva upplevelse — överträffar den OpenAI:s modeller.
Den har också inbyggda parametrar för ordböcker och är trevlig att jobba med som utvecklare. Kvaliteten är mer än tillräcklig utan någon efterbehandling. I koedesk är Scribe V2 i dag standardmodellen.
Utan efterbehandling, med en kvalitet som överträffar andra appar — det vågar jag säga, i alla fall för japanska.
Min nuvarande utvecklingsmiljö
Som resultat av allt detta använder jag faktiskt rätt få AI-verktyg dagligen. Claude Code och koedesk. Det är min stack.
Eller annorlunda uttryckt: Om Claude Code lägger av kan jag inte ens skapa en egen pull request. Så pass beroende har jag blivit.
Hur den här artikeln blev till
Faktum är att den här artikeln själv är en demonstration av röstinmatning.
- Diktera till koedesk och få transkriberat
- Låt Claude Code putsa texten
- Claude Code arbetar i Git-repot och pushar
- Zenn Connect (GitHub-integration) publicerar automatiskt
Jag har knappt rört tangentbordet.
Vill du prova röstinmatning?
Känner du till AquaVoice tänker du säkert “ja, ja, den där upplevelsen”. Men ganska många har faktiskt aldrig provat röstinmatning ordentligt.
Särskilt japanska användare hoppas jag att få visa kvaliteten på japanska som ElevenLabs Scribe V2 — koedesks standardmodell — levererar. koedesk är gratis för alltid: 5 minuter per dag, ingen utgång, inget kreditkort behövs. Tycker du om det kan du uppgradera till Pro-planen för $10 i månaden med obegränsad transkribering.
Jag hoppas att den här texten blir din anledning att prova röstinmatning som ett nytt inmatningsgränssnitt.
För att återvända till inledningen — en liten hemlig ambition: Att göra koedesk till röstinmatningens motsvarighet till Happy Hacking Keyboard. … Det var ett skämt. Eller hälften skämt.
Avslutning
Jag vill gärna skriva mer framöver, om uppdateringar i koedesk och om var Speech-to-Text-landskapet rör sig.
Om någon tycker det är användbart vill jag också gärna dela tekniker jag använder dagligen med AI-agenter.
Det skulle glädja mig om du följer med vidare.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app