Kas sa kasutad häälsisestust? — Klaviatuurile järgnevast sisestusliidesest
Sissejuhatus — hoolimisest sisestusliidese vastu
Kas sa kasutad häälsisestust?
Tehisintellekti paradigma vahetub viimasel ajal kiiresti, kuid mulle tundub, et sama põnev nihe toimub torujoonestiku alguses — sisestuse poolel. Speech-to-Text on lõpuks jõudnud praktilise, igapäevase sisestusviisi staatusesse. See on minu jaoks tõeline pöördepunkt.
Insenerite seas on kindlasti palju neid, kes ei kahetse kahe-kolmesaja dollari maksmist klaviatuuri eest — PFU Happy Hacking Keyboard, omavalmistatud mehaanilised ja nii edasi. Ka mina kuulun nende hulka; oli periood, mil klaviatuurid mind tõsiselt köitsid. Praegu, muide, kasvavad jõudsalt omavalmistatud klaviatuuride üritused.
Kui me hoolime klaviatuurist kui sisestusliidesest nõnda palju, väärib häälsisestus uue liidesena vähemalt sama hoolikat tähelepanu. Just sellest see essee räägibki.
Veidi minust endast
Mu nimi on Masaki Kondo. Olen Guide Inc. Vietnam, Vietnamis tegutseva IT-ettevõtte CEO. Tegelen igapäevaselt tarkvaraarendusega ja olen viimasel ajal asetanud Claude Code’i oma tööprotsessi keskmesse.
Konkreetselt — mul on privaatne hoidla nimega kondo-daily-ops, kus Claude Code aitab mul tegeleda klientide Backlogi piletite, sisemise tiimi kommunikatsiooni ja igapäevaste tööpäevikutega — sisuliselt kõigega. Ta tõmbab pileti konteksti API kaudu, tõstab vanadest logidest ajaloo üles, käivitab minu salvestatud oskused, et koostada vastuse mustand, ja nii edasi. Mina juhin seda kõike loomulikus keeles antud juhistega.
Nagu sa ette kujutad, on need juhised pikkad loomulikus keeles laused. Nende klahvistul vasardamine on omaette katsumus.
Kohtumine AquaVoice’iga
Umbes 2025. aasta lõpus hakkasin kasutama häälsisestuse rakendust nimega AquaVoice.
Võimalus pikki juhiseid Claude Code’ile lihtsalt dikteerida osutus oodatust palju mugavamaks. Häälsisestus muutus väga kiiresti millekski, ilma milleta ma enam läbi ei saa. “Loe see pilet, tõsta vanadest logidest kontekst üles, kasuta seda oskust ja koosta vastus” — võimalus see välja öelda on ennastunustavalt mugav. Kui sa selle korra tunnetad, tagasiteed enam ei ole.
Miks ma otsustasin oma teha
Aus vastus: AquaVoice’i suhtes mul mingeid kaebusi ei olnud. Ma olin sellega täiesti rahul.
Miks ma siis oma asja ehitama hakkasin? Puhtast intellektuaalsest uudishimust.
Esiteks — mul oli pikalt soov teha midagi Rustis. Sarnaseid asju olen juba teinud: Guidebook (Rustis kirjutatud staatiliste lehtede generaator), majasisene Headscale-põhine VPN ja nii edasi — tööriistad, mida ise tööl kasutan ja oma kätega ehitasin. Oma tööriistu omaenda käega lihvida on lihtsalt väga lõbus.
Samal ajal huvitas mind AquaVoice’i tehniline siseelu. Kõigepealt Speech-to-Text, siis LLM-i järeltöötlus — see mitmeastmeline torustik tõmbas mind külge.
Veel enne, kui AquaVoice’ist teadsin, jättis ChatGPT jaapani keele tuvastuse täpsus mulle sügava mulje. Ma tegin tegelikult midagi üsna veidrat: dikteerisin ChatGPT töölauarakendusse, kopeerisin teksti ja kleepisin selle Claude Code’i. Selline oli minu tööprotsess.
Ja siis avaldas OpenAI gpt-4o-mini-transcribe API’na. “Oota, ma võin selle ise kokku panna” — just see oli see säde.
Reis läbi Speech-to-Text mudelite
koedesk’i arendamise käigus proovisin läbi mitmesuguseid STT-mudeleid.
Groq Whisper Large v3 Turbo — kiire. Aga hallutsineerib veidi.
OpenAI GPT-4o Transcribe — täpne, kuid hallutsinatsioonid vaikuse hetkedel häirivad. Jaapani ja inglise keelega tuleb hästi toime, kuid hetkel, mil vietnami kõnesse seguneb inglise keel, laguneb kohe. Me arendame tarkvara Vietnamis, nii et see oli meie jaoks valus probleem.
Mistral (Voxtral) — kasin.
Gemini — proovisin lasta tal STT ja järeltöötluse korraga teha. Ta normaliseeris nii agressiivselt, et hakkas hallutsineerima asju, mida ma kunagi ei öelnud. Metsik hobune.
LLM-järeltöötluse keerukus
Et katta seda, mida STT üksi ei tee, hindasin ka LLM-põhist järeltöötlust (täitesõnade eemaldus, sõnastiku rakendamine, vormindus). Lasin 20 võrdluskatset läbi 6 mudeli ja nägin, et igal oli selgelt oma “iseloom”.
- OpenAI perekond: konservatiivne ja hoolikas. Sõnastiku rakendab, kuid tundmatuid sõnu ei puutu. Null hallutsinatsiooni.
- Gemini perekond: agressiivne ja julge. Sõnastiku rakendamises on parim, kuid kirjutab talle “tuttavad” sõnad ümber millekski “õigemaks”. Ütled “Gemini 3 Flash” ja see muutub “Gemini 1.5 Flash”. Mida tuttavam sõna, seda ohtlikum hallutsinatsioon.
- Claude perekond: tagasihoidlik ja turvaline. Ei riku midagi, kuid pole sõnastiku rakendamises kindel.
Minu järeldus: järeltöötlust ei peaks põhimõtteliselt vaja olema ja see kaob STT-mudelite enda arenedes ära.
Kohtumine ElevenLabs Scribe V2-ga
Ja siis sattusin ElevenLabs Scribe V2 peale.
Sellest ettevõttest polnud ma varem üldse kuulnud, kuid see mudel oli mulle šokk. Vietnami, jaapani, inglise keel — täpsus on kõikidel kõrge. Konkreetselt jaapani keeles, puhtsubjektiivselt, tundus mulle, et see on OpenAI mudelitest mööda läinud.
Lisaks on tal puhas parameeter sõnastiku biasimiseks — disain on arendajasõbralik. Väljundi kvaliteet on selline, et järeltöötlust polegi vaja. Tänaseks kasutab koedesk vaikimisi mudelina Scribe V2.
Ilma järeltöötluseta ja kvaliteediga, mis ületab teisi rakendusi — vähemalt jaapani keele osas julgen ma seda kindlalt väita.
Minu praegune arenduskeskkond
Kõige selle tulemusena on AI-tööriistu, mida ma päevast päeva kasutan, üllatavalt vähe. Claude Code ja koedesk. See ongi koosseis.
Teisisõnu, kui Claude Code peaks maha minema, ei suuda ma isegi iseseisvalt pull request’i avada. Nii sõltuv ma olen.
Kuidas see artikkel ise kirjutati
Tegelikult on see artikkel ise häälsisestuse demonstratsioon.
- Dikteerin koedesk’i, et tekst transkribeerida
- Lasen Claude Code’il teksti kammida
- Claude Code käsitseb Git-repositoorium ja teeb push’i
- Zenn Connect (GitHubi integratsioon) avaldab automaatselt
Klaviatuuri ma peaaegu ei puutunudki.
Kas sa proovid häälsisestust?
Need, kes AquaVoice’i juba tunnevad, võivad mõelda: “Ah, see kogemus.” Aga paljud pole häälsisestust kunagi tõsiselt proovinud.
Eriti tahaksin, et jaapanikeelsed kasutajad tunneksid ElevenLabs Scribe V2 — koedesk’i vaikemudeli — jaapani keele kvaliteeti. koedesk’il on tasuta plaan: 5 minutit päevas, kestusaja piiranguta ja krediitkaardita. Kui meeldib, võtab Pro-plaan $10 kuus piirangud maha ja transkribeerimine muutub piiramatuks.
Oleksin rõõmus, kui see artikkel oleks kellegi jaoks esimene kokkupuude häälsisestusega kui uue sisestusliidesega.
Ja algusele tagasi tulles — minu väike salajane unistus: tahaksin teha koedesk’ist häälsisestuse maailma “Happy Hacking Keyboard’i”. …Vabandust, naljatasin. Aga noh, pool naljaga.
Lõpetuseks
Tahan ka edaspidi kirjutada koedesk’i uuendustest ja Speech-to-Text’i hetkeseisust.
Lisaks, kui leian midagi kasulikku, soovin jagada võtteid, mida ma igapäevaselt AI-agentidega töötades kasutan.
Oleksin rõõmus, kui te ka edaspidi minuga kaasa tulete.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app