Käytätkö puhesyöttöä? — Näppäimistön "seuraavasta" syöttörajapinnasta
Aluksi — syöttörajapintaa kannattaa pohtia
Käytätkö puhesyöttöä?
Tekoälyn paradigma muuttuu nopeammin kuin koskaan, ja samalla Speech-to-Text (puheen tekstiksi muuntaminen) on muuttumassa aidosti käyttökelpoiseksi tavaksi syöttää tekstiä tekoälyille. Uskon, että tässä on käännekohta.
Moni kehittäjä käyttää varmasti PFU:n Happy Hacking Keyboardin kaltaisia näppäimistöjä — sellaisia, joiden hinta lähentelee 200–300 euroa. Olen itsekin ollut aikoinaan kova näppäimistöharrastaja, ja custom-näppäimistöjen ympärillä on tällä hetkellä todella elävää yhteisöä.
Jos näppäimistön suhteen voi olla pikkutarkka syöttörajapintana, miksipä ei voisi olla samalla tavalla pikkutarkka äänen suhteen? Tämä teksti syntyi siitä ajatuksesta.
Esittely
Olen Masaki Kondo. Toimin Guide Inc. Vietnam -nimisen vietnamilaisen IT-yhtiön toimitusjohtajana. Itsekin teen päivittäin järjestelmäkehitystä, ja nykyään Claude Code on arkeni keskiössä.
Konkreettisesti minulla on yksityinen repositorio nimeltä kondo-daily-ops, jossa Claude Code auttaa minua käytännössä kaikessa: asiakkaiden Backlog-keskusteluissa, sisäisessä viestinnässä kollegoiden kanssa ja työpäiväkirjan hallinnassa. Pyydän sitä hakemaan tiketin taustat API:n kautta, keräämään kontekstia vanhoista lokeista ja kirjoittamaan vastauksia omilla “skill”-määrityksilläni.
Kuten arvaat, näistä kehotteista tulee pitkiä ja luonnollisella kielellä kirjoitettuja. Niiden hakkaaminen näppäimistöllä on rehellisesti sanottuna raskasta.
Tutustuminen AquaVoiceen
Vuoden 2025 loppupuolella aloin käyttää puhesyöttösovellusta nimeltä AquaVoice.
Pitkien ohjeiden antaminen Claude Codelle pelkästään puhumalla tuntui yllättävän luontevalta, ja ennen kuin huomasinkaan puhesyöttö oli muuttunut välttämättömäksi. “Katso tämä tiketti, etsi konteksti vanhoista lokeista, luo vastaus tällä skillillä” — kun tuon voi sanoa ääneen ja olla valmis, siitä ei haluaisi enää luopua.
Miksi sitten tein oman
Rehellisesti: AquaVoicessa ei ollut mitään valittamista. Olin tyytyväinen.
Miksi sitten tein oman? Puhtaasta uteliaisuudesta.
Ensinnäkin olin pitkään halunnut rakentaa jotain Rustilla. Olen aiemmin tehnyt esimerkiksi Guidebookin (Rustilla tehty staattisten sivustojen generaattori) sekä yrityksemme sisäisen VPN:n (Headscale) — eli työkaluja, joita itse päivittäin käytän. Omien työkalujen hiominen on yksinkertaisesti hauskaa.
Lisäksi olin teknisesti kiinnostunut AquaVoicen rakenteesta. Speech-to-Text yhdistettynä LLM:n tekemään “siivoukseen” — tämä monivaiheinen pipeline kiehtoi minua.
Jo ennen AquaVoicen löytymistä olin vaikuttunut ChatGPT:n puhetekstauksen tarkkuudesta. Asia eteni niin pitkälle, että puhuin ChatGPT:n työpöytäsovellukseen, kopioin tekstin ja liitin sen Claude Codeen — hieman kömpelö kiertotie.
Sitten OpenAI:n gpt-4o-mini-transcribe tuli saataville API:n kautta. “Tämän päälle voisin rakentaa itse jotain” — se oli ratkaiseva hetki.
Matka STT-mallien lävitse
Koedeskin kehityksessä kokeilin lukuisia STT-malleja.
Groq Whisper Large v3 Turbo — Salamannopea, mutta hieman hallusinoi.
OpenAI GPT-4o Transcribe — Tarkka, mutta hallusinoi hiljaisuudessa. Vahva japanin ja englannin kanssa, mutta esimerkiksi kun vietnamilaiseen puheeseen sekoittuu englantia, laatu romahtaa. Kehitämme Vietnamissa, joten tämä oli aito ongelma.
Mistral (Voxtral) — Hieman vaisu.
Gemini — Annoin sen sekä litteroida että jälkikäsitellä yhdessä vaiheessa. Se normalisoi niin aggressiivisesti, että hallusinoi asioita, joita en ole sanonut. Villi hevonen.
LLM-jälkikäsittelyn vaikeus
Paikatakseni sen mihin STT yksin ei pysty, kokeilin myös LLM:n jälkikäsittelyä — täytesanojen poistoa, sanakirjan soveltamista, tekstin siivousta. Ajoin kuudella mallilla 20 benchmark-kuviota, ja jokaisesta mallista löytyi selvä “luonne”.
- OpenAI-mallit: Konservatiivisia ja varovaisia. Soveltavat sanakirjaa mutta eivät kosketa sanoja, joita eivät tunne. Nolla hallusinaatiota.
- Gemini-mallit: Rohkeita ja luovia. Parhaita sanakirjan käytössä, mutta korjaavat myös sanoja siksi, mitä niiden mielestä “kuuluisi olla”. Sanot “Gemini 3 Flash” ja saatat saada takaisin “Gemini 1.5 Flash” — vaarallisimpia ovat hallusinaatiot sanoissa, jotka malli luulee tuntevansa.
- Claude-mallit: Nöyriä ja turvallisia. Eivät riko mitään, mutta ovat epävarmoja sanakirjan kanssa.
Johtopäätös oli, että jälkikäsittely on pohjimmiltaan laastaria, joka katoaa STT-mallien kypsyessä.
Kohtaaminen ElevenLabs Scribe V2:n kanssa
Ja sitten löysin ElevenLabs Scribe V2:n.
En ollut kuullut yrityksestä aiemmin, mutta tämä malli oli järisyttävä. Korkea litterointitarkkuus oli kyseessä sitten vietnam, japani tai englanti. Japanin osalta — ainakin oman kokemukseni mukaan — se ylittää OpenAI:n mallit.
Siinä on myös sanakirjaa varten valmiit parametrit ja se on kehittäjäystävällinen. Laatu on enemmän kuin riittävä ilman mitään jälkikäsittelyä. Koedeskissa Scribe V2 on tällä hetkellä oletusmalli.
Ilman jälkikäsittelyä, laadussa joka päihittää muita sovelluksia — sen uskallan sanoa, ainakin japanin osalta.
Nykyinen kehitysympäristöni
Kaiken tämän seurauksena käytän arjessa itse asiassa melko vähän tekoälytyökaluja. Claude Code ja koedesk. Tämä on stäkki.
Toisin sanoen, jos Claude Code kaatuu, en saa edes yhtä pull requestia tehtyä omin voimin. Niin riippuvainen olen siitä.
Miten tämä teksti syntyi
Itse asiassa tämä artikkeli on puhesyötön demonstraatio.
- Puhu koedeskiin ja saa litteroitua tekstiä
- Anna Claude Coden viimeistellä teksti
- Claude Code työskentelee Git-repossa ja tekee pushin
- Zenn Connect (GitHub-integraatio) julkaisee automaattisesti
En ole juuri koskenut näppäimistöön.
Kokeilisitko puhesyöttöä?
Jos AquaVoice on tuttu, ajattelet ehkä “joo, joo, se kokemus”. Mutta moni ei ole oikeastaan koskaan kokeillut puhesyöttöä kunnolla.
Erityisesti japaninkielisille käyttäjille toivon, että pääsisin näyttämään, millaiseen japanin laatuun ElevenLabs Scribe V2 — koedeskin oletusmalli — pystyy. Koedesk on ilmainen ikuisesti: 5 minuuttia päivässä, ei vanhentumista, ei luottokorttia. Jos tykkäät, voit päivittää Pro-tilaukseen $10/kk ja saada rajoittamattoman litteroinnin.
Toivon, että tämä teksti on kannustimena kokeilla puhesyöttöä uutena syöttörajapintana.
Palatakseni alkuun — yksi pieni, salainen tavoitteeni: tehdä koedeskistä puhesyötön oma versio Happy Hacking Keyboardista. … Vitsi, anteeksi. Tai puoli vitsiä.
Lopuksi
Aion jatkossakin kirjoittaa lisää koedeskin päivityksistä ja yleisesti Speech-to-Textin tilasta.
Jos koet hyödylliseksi, jaan mielelläni myös tekniikoita, joita käytän AI-agenttien kanssa arjessa.
Olisi mukavaa, jos pysyt mukana jatkossakin.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app