← Blog
Esej

Koristite li glasovni unos? — Priča o „sljedećem” interfejsu za unos nakon tastature

· by Masaki Kondo · 5 min read

Uvod — opsesija interfejsima za unos

Koristite li glasovni unos?

Paradigme oko vještačke inteligencije mijenjaju se izuzetno brzo. U svemu što se tiče unosa prema AI-u — u svim mogućim interfejsima za unos — Speech-to-Text (transkripcija) ulazi u fazu stvarne upotrebe. Mislim da je tu velika prekretnica.

Među inženjerima nije mali broj onih koji koriste tastature poput PFU-ovog Happy Hacking Keyboarda, koje znaju koštati 200 ili 300 dolara. I sam sam među njima i jedno vrijeme sam se posvećeno bavio tastaturama. U posljednje vrijeme i događaji oko ručno izrađenih tastatura postaju popularniji.

Ako se već trudimo oko tastature kao interfejsa za unos, zašto se ne bismo isto tako trudili i oko glasovnog unosa? S otprilike tom mišlju pišem ovaj tekst.

Predstavljanje

Zovem se Masaki Kondo. Direktor sam vijetnamske IT firme Guide Inc. Vietnam. Svakodnevno se bavim razvojem softvera, a u posljednje vrijeme Claude Code je centralni alat u mom poslu.

Konkretno, napravio sam privatni repozitorij kondo-daily-ops u kojem se gotovo svi poslovi — komunikacija s klijentima preko Backloga, razgovori s internim članovima tima, vođenje radnih dnevnika — odvijaju uz pomoć Claude Codea. Svakodnevno mu dajem upute poput: dohvati pozadinu tiketa preko API-ja, pokupi kontekst iz starih logova, sastavi odgovor pomoću ove vještine, i tako dalje.

Kao što možete pretpostaviti, te upute su na prirodnom jeziku i ne baš kratke. Tipkanje po tastaturi za to nije ugodno.

Susret s AquaVoiceom

Krajem 2025. počeo sam koristiti aplikaciju za glasovni unos AquaVoice.

Dugačke upute za Claude Code mogao sam jednostavno izgovoriti. To mi je sjelo iznenađujuće prirodno i u trenu se više nisam mogao odvojiti od glasovnog unosa. „Pogledaj ovaj tiket, pokupi kontekst iz starih logova i pomoću ove vještine sastavi odgovor” — kada jednom doživiš koliko je ugodno tako nešto samo izreći, povratka više nema.

Zašto sam odlučio napraviti vlastiti alat

Iskreno, nisam imao zamjerki na AquaVoice, bio sam zadovoljan.

Zašto sam onda razvio svoj? Odgovor je čista intelektualna radoznalost.

Već neko vrijeme sam želio napraviti neku aplikaciju u Rustu. Imao sam već iskustva u pravljenju sopstvenih alata koje koristim na poslu — Guidebook (generator statičkih stranica u Rustu), interni VPN (Headscale) i slično. Brusiti i graditi vlastiti alat — to me jednostavno raduje.

Uz to me zanimao i tehnički princip iza AquaVoicea. Transkribuješ govor pomoću Speech-to-Text modela, pa taj tekst dotjeruješ LLM-om — taj višeslojni pipeline mi je probudio radoznalost.

Zapravo, i prije nego što sam saznao za AquaVoice, bio sam zadivljen kvalitetom transkripcije u glasovnom unosu ChatGPT-a. Toliko da sam za potrebe Claude Codea išao zaobilaznim putem: izdiktirati u ChatGPT-ovoj desktop aplikaciji, pa kopirati transkribirani tekst i zalijepiti ga u Claude Code.

A onda je OpenAI omogućio gpt-4o-mini-transcribe kao API. „Mogu li ja s ovim napraviti vlastiti alat?” — to je bio presudan trenutak.

Putovanje kroz STT modele

Tokom razvoja koedeska isprobao sam mnoge STT modele.

Groq Whisper Large v3 Turbo — brz. Ali pomalo halucinira.

OpenAI GPT-4o Transcribe — visoka tačnost, ali halucinacije u tišini su mi smetale. Japanski i engleski radi sjajno, ali čim se npr. usred vijetnamskog pojavi engleski, stvar se raspada. Mi razvijamo softver u Vijetnamu, pa nam je to bio ozbiljan problem.

Mistral (Voxtral) — slab.

Gemini — kada sam mu prepustio STT i post-obradu odjednom, presmjelo je normalizovao i čak halucinirao stvari koje uopće nisam izgovorio. Pravi divlji konj.

Težina LLM post-obrade

Da bih popunio ono što STT sam ne može, isprobao sam i LLM post-obradu (uklanjanje poštapalica, primjena rječnika, formatiranje teksta). Nakon benchmarka u 20 obrazaca preko 6 modela, jasno se vidjelo da svaki model ima svoj „karakter”.

Zaključio sam da je post-obrada u suštini nepotrebna i da će s razvojem samih STT modela postupno nestajati.

Susret s ElevenLabs Scribe V2

A onda sam naišao na ElevenLabs Scribe V2.

Do tada mi ta firma nije bila ni poznata, ali model je bio zapanjujuće dobar. Bez obzira na to da li je u pitanju vijetnamski, japanski ili engleski — tačnost transkripcije je visoka. Za japanski mi je, doživljajno, čak nadmašio OpenAI-jeve modele.

Ima i parametre za rječnik, dizajn je prijateljski prema developerima. Kvaliteta je dovoljna i bez post-obrade. U koedesku ga sada koristimo kao podrazumijevani model.

Bez post-obrade smo postigli kvalitet koji nadmašuje druge aplikacije — barem za japanski to slobodno tvrdimo.

Moje trenutno razvojno okruženje

Nakon svega toga, AI alata koje svakodnevno koristim zapravo i nema mnogo. Claude Code i koedesk. Dvojac.

Drugim riječima, ako mi padne Claude Code, ne mogu sam napraviti ni jedan pull request. Toliko ovisim o njemu.

Workflow ovog samog teksta

I sam ovaj tekst je zapravo demonstracija glasovnog unosa.

  1. Diktiram i transkribiram u koedesku
  2. Claude Code dotjeruje tekst
  3. Claude Code radi s Git repozitorijem i pusha
  4. Zenn Connect (povezivanje s GitHubom) automatski objavljuje

Tastature jedva da sam se dotakao.

Hoćete li probati glasovni unos?

Onima koji znaju AquaVoice vjerovatno odmah dolazi pred oči to iskustvo. Ali mnogi još nikad nisu probali glasovni unos.

Posebno bih se obratio korisnicima japanskog: kvalitetu podrazumijevanog modela u koedesku, ElevenLabs Scribe V2, vrijedi doživjeti. koedesk je besplatan do 5 minuta dnevno, bez vremenskog ograničenja i bez kartice — možete ga koristiti zauvijek. Svidi li vam se, Pro plan za 10 dolara mjesečno donosi neograničenu transkripciju.

Bilo bi mi drago da vam ovaj tekst posluži kao prvi susret s glasovnim unosom kao novim interfejsom za unos.

Da se vratim na početak: imam i jednu tihu ambiciju. Želim da koedesk postane Happy Hacking Keyboard svijeta glasovnog unosa. … Šalim se, izvinite. Ali pola u šali, pola zbilja.

Na kraju

Namjeravam i ubuduće pisati o novim verzijama koedeska i o stanju u oblasti Speech-to-Texta.

Također, ako bude nešto korisno što mogu podijeliti iz svakodnevnog rada s AI agentima, rado ću to ispričati u sličnom formatu.

Bilo bi mi drago da i ubuduće budete sa mnom.


Masaki Kondo — Guide Inc. Vietnam, CEO https://koedesk.app

#glasovni unos#STT#ElevenLabs#Claude Code
Try koedesk
The most accurate voice typing — on Mac, Windows, iOS, and Android.
Try koedesk →