Vai jūs lietojat balss ievadi? — Par ievades saskarni, kas seko klaviatūrai
Ievads — par rūpēm pret ievades saskarni
Vai jūs lietojat balss ievadi?
Pēdējā laikā AI paradigma mainās strauji, bet man šķiet, ka tikpat aizraujoša pārmaiņa notiek pašā konveijera sākumā — ievades pusē. Speech-to-Text beidzot ir nokļuvis praktiska, ikdienišķa ievades veida statusā. Man tas šķiet īsts pagrieziena punkts.
Starp inženieriem noteikti ir daudz tādu, kuri bez šaubām samaksā divus simtus vai trīs simtus dolāru par klaviatūru — PFU Happy Hacking Keyboard, pielāgotie mehāniskie modeļi un tā tālāk. Es arī esmu no tādiem; bija periods, kad klaviatūras mani aizrāva ļoti nopietni. Pašlaik, starp citu, strauji aug pielāgoto klaviatūru tikšanās.
Ja mēs tik ļoti rūpējamies par klaviatūru kā ievades saskarni, tad arī par balss ievadi kā jaunu saskarni ir vērts izturēties ne mazāk nopietni. Tieši par to ir šī eseja.
Daži vārdi par mani
Mani sauc Masaki Kondo. Esmu Guide Inc. Vietnam — Vjetnamā strādājoša IT uzņēmuma — CEO. Ikdienā nodarbojos ar programmatūras izstrādi, un pēdējā laikā esmu nolikis Claude Code pašā sava darba centrā.
Konkrēti — man ir privāts repozitorijs kondo-daily-ops, kurā Claude Code palīdz man strādāt ar klientu Backlog biļetēm, iekšējās komandas saziņu un ikdienas darba žurnāliem — praktiski ar visu. Tas paņem biļetes kontekstu caur API, izceļ vēsturi no veciem žurnāliem, palaiž manus saglabātos prasmju komplektus, lai izveidotu atbildes melnrakstu, un tā tālāk. Es to visu vadu ar dabiskās valodas instrukcijām.
Kā jūs varat iedomāties, šādas instrukcijas ir gari dabiskās valodas teikumi. Tos sasist klaviatūrā ir krietns darbs.
Iepazīšanās ar AquaVoice
Aptuveni 2025. gada beigās sāku lietot balss ievades lietotni AquaVoice.
Iespēja diktēt garās Claude Code instrukcijas izrādījās daudz ērtāka, nekā gaidīju. Balss ievade ļoti ātri kļuva par to, bez kā vairs nevaru iztikt. “Izlasi šo biļeti, izcel kontekstu no vecajiem žurnāliem, izmanto šo prasmi un sastādi atbildi” — iespēja to izrunāt skaļi ir nepieklājīgi ērta. Kad reiz to izjūt, atpakaļ vairs nevar.
Kāpēc nolēmu veidot pats
Godīgi: pret AquaVoice man nebija nekādu pretenziju. Es ar to biju pilnīgi apmierināts.
Tad kāpēc es ķēros pie sava? Tīras intelektuālas ziņkārības dēļ.
Pirmkārt, man jau sen gribējās uzbūvēt kaut ko ar Rust. Līdzīgas lietas man jau ir bijušas: Guidebook (Rust statisko vietņu ģenerators), iekšējais Headscale balstītais VPN un tā tālāk — rīki, ko es pats darbā izmantoju un kurus pats arī uztaisīju. Pats slīpēt savus darba rīkus — tas ir vienkārši ļoti aizraujoši.
Vienlaikus mani interesēja AquaVoice tehniskais iekšiens. Vispirms Speech-to-Text, tad LLM pēcapstrāde — šis daudzpakāpju konveijers mani aizrāva.
Vēl pirms AquaVoice iepazīšanas mani pārsteidza ChatGPT balss atpazīšanas precizitāte. Es pat darīju kaut ko diezgan jocīgu: diktēju ChatGPT darbvirsmas lietotnē, pēc tam kopēju tekstu un ievietoju to Claude Code. Tāda bija mana darbplūsma.
Un tad OpenAI izlaida gpt-4o-mini-transcribe kā API. “Pagaidi, es taču varu to salikt pats” — tā bija tā dzirksts.
Ceļojums cauri Speech-to-Text modeļiem
koedesk izstrādes gaitā es izmēģināju dažādus STT modeļus.
Groq Whisper Large v3 Turbo — ātrs. Tomēr nedaudz halucinē.
OpenAI GPT-4o Transcribe — precīzs, taču halucinācijas klusuma brīžos uzkrīt. Ar japāņu un angļu valodu tiek galā droši, bet brīdī, kad vjetnamiešu runā tiek iemaisīta angļu valoda, tas brūk acumirklī. Mēs izstrādājam programmatūru Vjetnamā, tāpēc šī mums bija sāpīga problēma.
Mistral (Voxtral) — viduvēji.
Gemini — mēģināju tam likt veikt STT un pēcapstrādi vienā paņēmienā. Tas tik agresīvi normalizēja, ka sāka halucinēt to, ko es vispār nebiju teicis. Mežonīgs zirgs.
LLM pēcapstrādes sarežģījumi
Lai aizpildītu to, ar ko STT viens pats netiek galā, es novērtēju arī LLM balstītu pēcapstrādi (pildvārdu noņemšana, vārdnīcas piemērošana, formatēšana). Izpildīju 20 etalonscenārijus uz 6 modeļiem un redzēju, ka katram ir izteikti savs “raksturs”.
- OpenAI saime: konservatīva un piesardzīga. Vārdnīcu piemēro, bet nezināmus vārdus neaiztiek. Nulle halucināciju.
- Gemini saime: agresīva un drosmīga. Vārdnīcas piemērošanā labākā, bet pārraksta vārdus, kurus tā uzskata par sev pazīstamiem, par kaut ko “pareizāku”. Pasaki “Gemini 3 Flash”, un tas pārvēršas par “Gemini 1.5 Flash”. Jo pazīstamāks vārds, jo bīstamāka halucinācija.
- Claude saime: pieticīga un droša. Neko nesalauž, bet nav pārliecināta vārdnīcas piemērošanā.
Mans secinājums: pēcapstrādei principā nevajadzētu būt nepieciešamai, un tā pakāpeniski pazudīs, attīstoties pašiem STT modeļiem.
Iepazīšanās ar ElevenLabs Scribe V2
Un tad es uzdūros ElevenLabs Scribe V2.
Iepriekš par šo uzņēmumu vispār nebiju dzirdējis, bet šis modelis man bija šoks. Vjetnamiešu, japāņu, angļu valoda — precizitāte ir augsta visās. Konkrēti japāņu valodā, tīri subjektīvi, man šķita, ka tas ir apsteidzis OpenAI modeļus.
Turklāt tam ir glīts parametrs vārdnīcas vēršanai — izstrādātājiem draudzīgs dizains. Izvades kvalitāte ir tāda, ka pēcapstrāde nemaz nav vajadzīga. Šodien koedesk lieto Scribe V2 kā noklusējuma modeli.
Bez pēcapstrādes un ar kvalitāti, kas pārspēj citas lietotnes — vismaz japāņu valodā es to esmu gatavs apgalvot ar pārliecību.
Mana pašreizējā izstrādes vide
Pēc visa šī ceļa AI rīku, ko es izmantoju ikdienā, ir pārsteidzoši maz. Claude Code un koedesk. Tas arī viss sastāvs.
Citiem vārdiem, ja Claude Code nokrīt, es nespēju pat patstāvīgi atvērt pull request. Tik atkarīgs es esmu.
Kā tika uzrakstīts pats šis raksts
Patiesībā šis raksts pats par sevi ir balss ievades demonstrācija.
- Diktēju koedesk, lai transkribētu
- Lieku Claude Code sakārtot tekstu
- Claude Code darbojas ar Git repozitoriju un veic push
- Zenn Connect (GitHub integrācija) automātiski publicē
Klaviatūrai es gandrīz nepieskāros.
Varbūt pamēģināsiet balss ievadi?
Tie, kas jau pazīst AquaVoice, varbūt nodomās: “Ā, tā pieredze.” Bet daudzi vēl nemaz nav balss ievadi patiesi izmēģinājuši.
Īpaši gribētu, lai japāņu valodas lietotāji izjūt ElevenLabs Scribe V2 — koedesk noklusējuma modeļa — japāņu valodas kvalitāti. koedesk ir bezmaksas plāns: 5 minūtes dienā, bez termiņa ierobežojuma un bez kredītkartes. Ja patiks, Pro plāns par $10 mēnesī noņem ierobežojumus un padara transkripciju neierobežotu.
Būšu priecīgs, ja šis raksts kādam kļūs par pirmo saskari ar balss ievadi kā jaunu ievades saskarni.
Un atgriežoties pie sākuma — mana mazā slepenā ambīcija: gribētu padarīt koedesk par balss ievades pasaules “Happy Hacking Keyboard”. …Jokoju, atvainojiet. Bet, nu, pa pusei nopietni.
Nobeigumā
Arī turpmāk gribu rakstīt par koedesk atjauninājumiem un par pašreizējo stāvokli Speech-to-Text jomā.
Bez tam, ja kas noderīgs gadīsies, gribētu pastāstīt par paņēmieniem, ko es ikdienā lietoju, strādājot ar AI aģentiem.
Būšu priecīgs, ja arī turpmāk paliksiet kopā ar mani.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app