Használsz hangbevitelt? — A billentyűzet „következő” beviteli felülete
Bevezető — „kényesnek lenni” a beviteli felületre
Te használsz hangbevitelt?
Mostanában heves AI paradigmaváltás zajlik, és az AI-bevitel — bármilyen beviteli felület — szintjén a Speech-to-Text (beszéd-szöveg átírás) új beviteli módként éppen most lép a gyakorlati használhatóság szakaszába. Úgy érzem, ez egy nagy fordulópont.
Egyébként a mérnökök között sokan használnak 20–30 ezer jenes billentyűzetet, mint amilyen a PFU Happy Hacking Keyboard. Magam is közéjük tartoztam; egy ideig komolyan beleástam magam a billentyűzetekbe. Mostanában az otthon készített billentyűzetek világa is virágzik.
Ahogy a billentyűzetnél, mint beviteli felületnél tudunk kényesek lenni, a hangbevitelnél miért ne tehetnénk ugyanezt? Ezzel a gondolattal írom ezt a cikket.
Bemutatkozás
Masaki Kondo vagyok. A vietnami Guide Inc. Vietnam nevű IT-vállalatnál vagyok CEO. Naponta foglalkozom rendszerfejlesztéssel, és újabban a Claude Code-ot tettem a munkám központi eszközévé.
Konkrétan: csináltam egy privát repót kondo-daily-ops néven, és gyakorlatilag mindent — a Backlogon át történő ügyfélkommunikációt, a céges csapatommal való egyeztetést, a munkanaplók kezelését — a Claude Code-ra bízok. API-n keresztül lekérni a ticket hátterét, kihúzni a kontextust a régi logokból, a beépített „skill”-ekkel megfogalmazni a választ — ilyen utasításokat adok neki naponta.
Ahogy sejthető, ezek az utasítások természetes nyelven, és gyakran elég hosszan szólnak. Billentyűzetről begépelni eléggé fárasztó.
Találkozás az AquaVoice-szal
2025 vége felé kezdtem el használni az AquaVoice nevű hangbeviteli alkalmazást.
A Claude Code-nak szóló hosszú utasításaimat egyszerűen kimondhattam. Sokkal jobban a kezemhez állt, mint vártam, és a hangbevitel rövid idő alatt nélkülözhetetlenné vált. „Nézd meg ezt a ticketet, a régi logokból vedd a kontextust, és ezzel a skillel fogalmazz választ.” — kényelmesen, csak kimondva ilyen utasítást adni. Ha egyszer megtapasztaltad, nincs visszaút.
Miért akartam magam megépíteni
Legyek őszinte: az AquaVoice-szal semmi bajom nem volt, elégedett voltam vele.
Akkor miért csináltam magam? A válasz a tiszta szellemi kíváncsiság.
Először is régóta szerettem volna valamit Rustban írni. Korábban is építettem magamnak munkaeszközöket — például a Guidebook-ot (Rustban írt statikus oldal-generátor) vagy a céges VPN-t (Headscale). A saját szerszámot magamnak megcsiszolni — ez nálam tisztán élvezet.
Másodszor, kíváncsi voltam az AquaVoice technikai felépítésére. Speech-to-Text átír, az LLM utófeldolgozza — ez a többlépcsős pipeline izgatta a fantáziámat.
Igazából, már az AquaVoice előtt is meglepett a ChatGPT hangbevitelének átírási minősége. Volt, hogy csak azért nyitottam meg a ChatGPT asztali appot, hogy belemondhassam, ami a Claude Code-nak kellett, majd a leírt szöveget átmásoljam — ilyen trükköket csináltam.
Aztán API-n elérhetővé vált az OpenAI gpt-4o-mini-transcribe modellje. „Ezzel akár magam is megépíthetném?” — ez volt a kulcspillanat.
A Speech-to-Text modellek bejárása
A koedesk fejlesztése során egy csomó STT modellt kipróbáltam.
Groq Whisper Large v3 Turbo — gyors. De néha hallucinál.
OpenAI GPT-4o Transcribe — magas pontosság, de a csendben fellépő hallucinációk zavarók. Japánban és angolban erős, viszont amikor vietnami beszéd közé angol keveredik, kifekszik. Vietnamban fejlesztünk rendszereket, úgyhogy ez nálunk valódi probléma volt.
Mistral (Voxtral) — közepes.
Gemini — amikor mindent rábíztam (STT + utófeldolgozás), túl bátran normalizált, és olyat is hallucinált, amit nem mondtam. Vad ló.
Az LLM-utófeldolgozás nehézségei
Hogy pótoljuk azt, amit az STT egyedül nem old meg, az LLM-alapú utófeldolgozást is leteszteltük (töltelékszók eltávolítása, szótár alkalmazása, formázás). 6 modellen és 20 mintán futtatott benchmark után kiderült: minden modellnek határozott „személyisége” van.
- OpenAI-féle modellek: óvatosak, konzervatívak. A szótárat alkalmazzák, de ismeretlen szóhoz nem nyúlnak. Hallucináció: 0.
- Gemini-féle modellek: aktívak, merészek. A szótár alkalmazásában a legjobbak, de az ismert szavakat is önkényesen „helyesebbre” írják át. „Gemini 3 Flash”-t mondasz, ő javítja „Gemini 1.5 Flash”-re — minél ismertebb egy szó, annál veszélyesebb a hallucináció.
- Claude-féle modellek: szerények, biztonságosak. Nem rontanak el semmit, de a szótár alkalmazásában bátortalanok.
A tanulság: az utófeldolgozás voltaképpen kényszer, ami a maguk az STT modellek fejlődésével el fog tűnni.
Találkozás az ElevenLabs Scribe V2-vel
És itt jött az ElevenLabs Scribe V2.
Korábban nem ismertem ezt a céget, de ez a modell sokkoló volt. Vietnami, japán, angol — nyelvtől függetlenül kiváló átírási minőség. Még japán nyelven is, szubjektív érzésem szerint, az OpenAI modelljeit is felülmúlja.
A szótárhoz is van paraméter, fejlesztőbarát kialakítás. Utófeldolgozás nélkül is bőven elég a minőség. A koedeskben jelenleg ez a Scribe V2 az alapértelmezett modell.
Utófeldolgozás nélkül sikerült más alkalmazásokat túlszárnyaló minőséget elérnünk — legalábbis japánul ez a meggyőződésünk.
A jelenlegi fejlesztői környezetem
Ezen az úton végigjárva, valójában nincs sok AI eszköz, amit napi szinten használok. Claude Code és koedesk. Ez a kettős.
Másfelől — ha a Claude Code elszáll, egyetlen pull requestet sem tudok már magam összerakni. Ennyire függőek vagyunk.
Ennek a cikknek a workflow-ja
Ez a cikk önmagában is a hangbevitel demonstrációja.
- Belemondom a koedeskbe, és lediktálom az átírást
- A Claude Code finomítja a szöveget
- A Claude Code műveli a Git repót, és pushol
- A Zenn Connect (GitHub integráció) automatikusan közzéteszi
A billentyűzethez alig nyúltam.
Kipróbálnád a hangbevitelt?
Aki ismeri az AquaVoice-t, talán azt mondja: „aha, az az élmény”. De sokan közületek talán még nem próbálták a hangbevitelt.
Különösen a japánul használók figyelmébe ajánlom, hogy próbálják ki a koedesk alapértelmezett modelljének, az ElevenLabs Scribe V2-nek a japán átírási minőségét. A koedesk napi 5 percig, lejárati idő nélkül és bankkártya nélkül ingyenesen használható, örökre. Ha megtetszik, a havi $10-os Pro csomaggal korlátlan az átírás.
Örülnék, ha ez a cikk lenne számodra a löket, hogy belekóstolj a hangbevitelbe mint új beviteli felületbe.
Visszatérve a bevezetőre — van egy halk ambícióm. Szeretném, ha a koedesk a hangbeviteli világ Happy Hacking Keyboard-ja lenne. ……Vicc, bocsánat. De félig komolyan gondolom.
Végszó
A jövőben is szeretnék írni a koedesk frissítéseiről és a Speech-to-Text aktuális helyzetéről.
Emellett, ha hasznosnak találjátok, szívesen megosztom azokat a technikákat is, amelyeket napi munkám során az AI-ügynökökkel használok.
Ha kedvetek van, örülnék, ha továbbra is olvasnátok.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app