Notarðu raddinnslátt? — Um viðmótið sem kemur á eftir lyklaborðinu
Inngangur — að hugsa um innsláttarviðmótið sitt
Notarðu raddinnslátt?
Gervigreindarbylgjan rúllar áfram hraðar en nokkru sinni, og mitt í henni er Speech-to-Text (talritun) að verða raunverulega nothæf leið til að mata gervigreind með texta. Ég er sannfærður um að við stöndum við vendipunkt hér.
Ég reikna með að margir forritarar þarna úti noti lyklaborð í anda Happy Hacking Keyboard frá PFU — þannig lyklaborð sem kosta gjarnan 30.000–50.000 krónur. Ég var sjálfur djúpt í lyklaborðum tímabil, og samfélagið í kringum heimasmíðuð lyklaborð er virkilega líflegt núna.
Ef það er fullkomlega eðlilegt að vera vandlátur með lyklaborðið sem innsláttarviðmót, hvers vegna ekki að vera jafn vandlátur með röddina? Þetta er í grunninn ástæðan fyrir greininni.
Kynning
Ég heiti Masaki Kondo. Ég er forstjóri Guide Inc. Vietnam, upplýsingatæknifyrirtækis í Víetnam. Sjálfur vinn ég daglega við kerfisþróun, og um þessar mundir er Claude Code í miðju verkflæðisins míns.
Áþreifanlega er ég með einkahirslu (private repository) sem heitir kondo-daily-ops, þar sem Claude Code hjálpar mér með nánast allt: Backlog-samskipti við viðskiptavini, innra samtal við starfsfólk og verkbækur. Ég læt hana sækja bakgrunn mála í gegnum API, safna samhengi úr eldri verkbókum og semja svör með mínum eigin “skills”.
Eins og þú kannski rennir grun í verða þessar fyrirspurnir langar og á eðlilegu máli. Að berja þetta inn á lyklaborð er hreinskilnislega sagt þreytandi.
Kynni mín af AquaVoice
Undir lok árs 2025 fór ég að nota raddinnsláttarforrit sem heitir AquaVoice.
Að geta sent löng skilaboð til Claude Code bara með því að tala reyndist óvænt náttúrulegt, og ég gat fljótt ekki verið án raddinnsláttar. “Líttu á þetta mál, sæktu samhengið úr gömlu verkbókunum, búðu til svar með þessari skill” — þægindin í að segja þetta upphátt og vera búinn er nokkuð sem maður vill ekki sleppa eftir að hafa prófað.
Hvers vegna ég smíðaði mitt eigið samt
Hreinskilnislega: Ég hafði ekkert að setja út á AquaVoice. Ég var ánægður.
Þá hvers vegna að smíða mitt eigið? Hrein forvitni.
Í fyrsta lagi hafði ég lengi langað til að byggja eitthvað í Rust. Ég hef áður smíðað Guidebook (static site generator í Rust) og innra VPN-kerfið okkar (Headscale) — tól sem ég sjálfur nota daglega. Að brýna sín eigin tól er einfaldlega skemmtilegt.
Þar að auki var ég tæknilega forvitinn um uppbyggingu AquaVoice. Speech-to-Text fylgt af LLM sem “hreinsar” textann — slíkar fjölskrefa pipeline-uppsetningar heilluðu mig.
Áður en ég kynntist AquaVoice var ég þegar hrifinn af nákvæmni talritunar í ChatGPT. Það gekk svo langt að ég talaði inn í ChatGPT skjáborðsforritið, afritaði textann og límdi hann inn í Claude Code — frekar klunnaleg krókaleið.
Svo varð gpt-4o-mini-transcribe frá OpenAI fáanlegt í gegnum API. “Þetta gæti ég byggt ofan á sjálfur” — það var úrslitastundin.
Ferð í gegnum STT-líkön
Í þróun koedesk prófaði ég fjölmörg STT-líkön.
Groq Whisper Large v3 Turbo — Eldsnöggt, en með smá ofskynjunum (hallucinations).
OpenAI GPT-4o Transcribe — Mikil nákvæmni, en það ofskynjar í þögn. Sterkt á japönsku og ensku, en um leið og enska blandast inn í víetnömsku til dæmis, hrynur gæðin. Við þróum í Víetnam, svo þetta var raunverulegt vandamál.
Mistral (Voxtral) — Aðeins fyrir neðan meðallag.
Gemini — Ég lét hana bæði rita og eftirvinna í einu lagi. Hún normaliserar svo ákveðið að hún ofskynjar hluti sem ég sagði aldrei. Villtur hestur.
Erfiðleikar við LLM-eftirvinnslu
Til að bæta upp það sem STT eitt og sér ræður ekki við, prófaði ég einnig LLM-eftirvinnslu — að fjarlægja fylliorð, beita orðabók og snyrta texta. Ég keyrði 20 viðmiðunarmynstur á sex líkönum, og hvert líkan sýndi skýran “karakter”.
- OpenAI-líkön: Íhaldssöm og varkár. Nota orðabókina en snerta ekki orð sem þau þekkja ekki. Engar ofskynjanir.
- Gemini-líkön: Djörf og skapandi. Best í að beita orðabók, en leiðrétta líka orð í það sem þau “telja að ætti að vera”. Segirðu “Gemini 3 Flash” gætirðu fengið “Gemini 1.5 Flash” til baka — hættulegustu ofskynjanir eru þær sem birtast á orðum sem líkanið telur sig þekkja.
- Claude-líkön: Auðmjúk og örugg. Skemma ekkert en eru óörugg með orðabókina.
Niðurstaðan var sú að eftirvinnsla er í grunninn plástur sem mun hverfa eftir því sem STT-líkönin þroskast.
Kynni mín af ElevenLabs Scribe V2
Og svo rakst ég á ElevenLabs Scribe V2.
Ég hafði aldrei heyrt af fyrirtækinu áður, en líkanið var opinberun. Mikil nákvæmni hvort sem er á víetnömsku, japönsku eða ensku. Á japönsku — að minnsta kosti samkvæmt minni huglægu upplifun — fer hún fram úr líkönum OpenAI.
Hún býður einnig upp á tilbúna stillingu fyrir orðabækur og er notalegt að vinna með sem þróunaraðili. Gæðin eru meira en næg án nokkurrar eftirvinnslu. Í koedesk er Scribe V2 í dag sjálfgefið líkan.
Án eftirvinnslu, með gæðum sem fara fram úr öðrum forritum — það þori ég að segja, að minnsta kosti á japönsku.
Núverandi þróunarumhverfi mitt
Sem afrakstur alls þessa nota ég í raun frekar fá gervigreindartól dags daglega. Claude Code og koedesk. Þetta er minn stack.
Eða öðruvísi orðað: Ef Claude Code dettur út get ég ekki einu sinni búið til pull request sjálfur. Svo háður er ég orðinn.
Hvernig þessi texti varð til
Reyndar er greinin sjálf sýning á raddinnslætti.
- Tala inn í koedesk og fá textann ritaðan
- Láta Claude Code snyrta textann
- Claude Code vinnur í Git-repói og ýtir (push)
- Zenn Connect (GitHub-tenging) birtir sjálfkrafa
Ég hef varla snert lyklaborðið.
Hvernig væri að prófa raddinnslátt?
Ef þú þekkir AquaVoice hugsarðu eflaust “já, já, þessi upplifun”. En margir hafa í raun aldrei prófað raddinnslátt almennilega.
Sérstaklega vona ég að japanskir notendur fái að upplifa þá gæði á japönsku sem ElevenLabs Scribe V2 — sjálfgefið líkan koedesk — býður upp á. koedesk er ókeypis að eilífu: 5 mínútur á dag, engin tímamörk, ekkert kreditkort. Líki þér við, geturðu uppfært í Pro-áskrift á $10 á mánuði með ótakmarkaðri talritun.
Ég vona að þessi texti verði tilefnið þitt til að prófa raddinnslátt sem nýtt innsláttarviðmót.
Til að snúa aftur að upphafinu — eitt lítið leyndaráform: Að gera koedesk að Happy Hacking Keyboard raddinnsláttarheimsins. … Það var grín. Eða hálft grín.
Að lokum
Ég ætla að halda áfram að skrifa fleiri greinar, um uppfærslur á koedesk og um hvert Speech-to-Text landslagið er að fara.
Ef einhverjum finnst gagnlegt deili ég líka tækni sem ég nota daglega með gervigreindarumboðum (AI-agents).
Það gleður mig ef þú fylgir mér áfram.
Masaki Kondo — Forstjóri, Guide Inc. Vietnam https://koedesk.app