Koristite li glasovni unos? — Priča o „sljedećem” sučelju za unos nakon tipkovnice
Uvod — opsesija sučeljima za unos
Koristite li glasovni unos?
Paradigme oko umjetne inteligencije danas se mijenjaju iznimno brzo. U svemu što se tiče unosa prema AI-u — u svim mogućim sučeljima za unos — Speech-to-Text (transkripcija) postaje stvarno upotrebljiv način rada. Vjerujem da je to velika prekretnica.
Mnogi inženjeri koriste tipkovnice poput PFU-ovog Happy Hacking Keyboarda, koje znaju koštati 200 ili 300 dolara. I sam sam među njima i jedno sam vrijeme bio prilično opsjednut tipkovnicama. U posljednje vrijeme i događanja oko ručno izrađenih tipkovnica postaju sve popularnija.
Ako se već trudimo oko tipkovnice kao sučelja za unos, zašto se ne bismo jednako trudili i oko glasovnog unosa? Otprilike s tom mišlju pišem ovaj tekst.
Predstavljanje
Zovem se Masaki Kondo. Direktor sam vijetnamske IT tvrtke Guide Inc. Vietnam. Svakodnevno se bavim razvojem softvera, a u posljednje vrijeme Claude Code mi je središnji alat u radu.
Konkretno, napravio sam privatni repozitorij kondo-daily-ops u kojem se gotovo svi poslovi — komunikacija s klijentima preko Backloga, razgovori s internim članovima tima, vođenje radnih dnevnika — odvijaju uz pomoć Claude Codea. Svakodnevno mu dajem upute poput: dohvati kontekst tiketa preko API-ja, pokupi kontekst iz starih logova, formuliraj odgovor pomoću ove vještine i tako dalje.
Kao što možete zamisliti, te su upute na prirodnom jeziku i znaju biti popriličnog opsega. Tipkati ih u tipkovnici nije baš ugodno.
Susret s AquaVoiceom
Krajem 2025. počeo sam koristiti aplikaciju za glasovni unos AquaVoice.
Dugačke upute za Claude Code mogao sam jednostavno izgovoriti. To mi je iznenađujuće dobro sjelo i u tren oka više se nisam mogao odvojiti od glasovnog unosa. „Pogledaj ovaj tiket, pokupi kontekst iz starih logova i pomoću ove vještine sastavi odgovor” — kad jednom doživite koliko je ugodno tako nešto samo izgovoriti, više nema povratka.
Zašto sam odlučio napraviti vlastiti alat
Iskreno, nisam imao zamjerki na AquaVoice, bio sam zadovoljan.
Zašto sam onda razvio vlastiti? Odgovor je čista intelektualna znatiželja.
Već neko vrijeme želio sam u Rustu napraviti neku aplikaciju. Već sam imao iskustva u izradi vlastitih alata koje koristim na poslu — npr. Guidebook (generator statičkih stranica u Rustu) ili interni VPN (Headscale). Brusiti i graditi vlastiti alat — to me jednostavno veseli.
Uz to me zanimao i tehnički princip AquaVoicea. Transkribiraš govor pomoću Speech-to-Text modela, zatim taj tekst pročistiš LLM-om — taj višeslojni pipeline u meni je probudio znatiželju.
Zapravo, i prije nego što sam doznao za AquaVoice, bio sam zapanjen kvalitetom transkripcije u glasovnom unosu ChatGPT-a. Toliko da sam za potrebe Claude Codea znao ići okolnim putem: izdiktirati u ChatGPT-ovoj desktop aplikaciji, pa kopirati transkribirani tekst i zalijepiti ga u Claude Code.
A onda je OpenAI omogućio gpt-4o-mini-transcribe kao API. „Mogao bih ja s ovim sagraditi vlastiti alat?” — to je bio odlučujući trenutak.
Putovanje kroz STT modele
Tijekom razvoja koedeska isprobao sam mnoge STT modele.
Groq Whisper Large v3 Turbo — brz. Ali pomalo halucinira.
OpenAI GPT-4o Transcribe — visoka točnost, ali halucinacije u tišini su mi smetale. Japanski i engleski radi sjajno, no čim se npr. usred vijetnamskog pojavi nešto na engleskom, stvar se raspada. Mi razvijamo softver u Vijetnamu, pa nam je to bio ozbiljan problem.
Mistral (Voxtral) — slab.
Gemini — kada sam mu prepustio STT i post-obradu odjednom, presmjelo je normalizirao i čak halucinirao stvari koje uopće nisam izgovorio. Pravi divlji konj.
Težina LLM post-obrade
Za ono što STT sam ne može pokriti isprobao sam i LLM post-obradu (uklanjanje poštapalica, primjena rječnika, oblikovanje teksta). Nakon benchmarka u 20 obrazaca preko 6 modela, postalo je jasno da svaki model ima svoj karakter.
- OpenAI obitelj: konzervativna i oprezna. Primijeni rječnik, ali ne dira nepoznate riječi. Nula halucinacija.
- Gemini obitelj: hrabra i agresivna. Najbolja je u primjeni rječnika, ali samovoljno zamjenjuje poznate riječi onima koje smatra „točnijima”. Kažeš „Gemini 3 Flash”, a ona popravi u „Gemini 1.5 Flash” — što je riječ poznatija, opasnija je halucinacija.
- Claude obitelj: skromna i sigurna. Ništa ne kvari, ali nije baš sigurna u primjeni rječnika.
Zaključio sam da je post-obrada zapravo nepotrebna i da će s razvojem samih STT modela postupno nestati.
Susret s ElevenLabs Scribe V2
A onda sam naišao na ElevenLabs Scribe V2.
Dotad mi ta tvrtka nije bila ni poznata, no model je bio šokantno dobar. Bez obzira na to radi li se o vijetnamskom, japanskom ili engleskom — točnost transkripcije je visoka. Za japanski mi je, doživljajno, čak nadmašio OpenAI-jeve modele.
Ima i parametre za rječnik, dizajn je razvojnoprijateljski. Kvaliteta je dovoljna i bez post-obrade. U koedesku ga sada koristimo kao zadani model.
Bez post-obrade postigli smo kvalitetu koja nadmašuje druge aplikacije — barem za japanski to sa sigurnošću tvrdim.
Moje trenutno razvojno okruženje
Nakon svega toga, AI alata koje svakodnevno koristim zapravo i nema puno. Claude Code i koedesk. Dvojac.
Drugim riječima, padne li Claude Code, ne mogu sam napraviti ni jedan pull request. Toliko ovisim o njemu.
Workflow ovog samog teksta
I sam ovaj tekst zapravo je demonstracija glasovnog unosa.
- Diktiram i transkribiram u koedesku
- Claude Code dotjeruje tekst
- Claude Code radi s Git repozitorijem i pusha
- Zenn Connect (povezivanje s GitHubom) automatski objavljuje
Tipkovnicu jedva da sam dotaknuo.
Hoćete li probati glasovni unos?
Onima koji znaju AquaVoice vjerojatno odmah dolazi pred oči to iskustvo. No mnogi još nikad nisu probali glasovni unos.
Posebno ću se obratiti korisnicima japanskog: kvalitetu zadanog modela u koedesku, ElevenLabs Scribe V2, vrijedi iskusiti. koedesk je besplatan do 5 minuta dnevno, bez vremenskog ograničenja i bez kartice — možete ga koristiti zauvijek. Svidi li vam se, Pro plan za 10 dolara mjesečno donosi neograničenu transkripciju.
Bilo bi mi drago kad bi vam ovaj tekst poslužio kao prvi susret s glasovnim unosom kao novim sučeljem za unos.
Vratimo se na početak: imam i jednu tihu ambiciju. Želim da koedesk postane Happy Hacking Keyboard svijeta glasovnog unosa. … Šalim se, oprostite. Ali pola u šali, pola zbilja.
Na kraju
Namjeravam i ubuduće pisati o novim verzijama koedeska i stanju u području Speech-to-Texta.
Također, ako ima nešto korisno što mogu podijeliti iz svakodnevnog rada s AI agentima, rado ću to ispričati u sličnom obliku.
Bilo bi mi drago kad biste i ubuduće pratili moje tekstove.
Masaki Kondo — Guide Inc. Vietnam, CEO https://koedesk.app