esszé

Használsz hangbevitelt? — A billentyűzet „következő” beviteli felülete

2026. április 4. · by Masaki Kondo · 5 min read

Bevezető — „kényesnek lenni” a beviteli felületre

Te használsz hangbevitelt?

Mostanában heves AI paradigmaváltás zajlik, és az AI-bevitel — bármilyen beviteli felület — szintjén a Speech-to-Text (beszéd-szöveg átírás) új beviteli módként éppen most lép a gyakorlati használhatóság szakaszába. Úgy érzem, ez egy nagy fordulópont.

Egyébként a mérnökök között sokan használnak 20–30 ezer jenes billentyűzetet, mint amilyen a PFU Happy Hacking Keyboard. Magam is közéjük tartoztam; egy ideig komolyan beleástam magam a billentyűzetekbe. Mostanában az otthon készített billentyűzetek világa is virágzik.

Ahogy a billentyűzetnél, mint beviteli felületnél tudunk kényesek lenni, a hangbevitelnél miért ne tehetnénk ugyanezt? Ezzel a gondolattal írom ezt a cikket.

Bemutatkozás

Masaki Kondo vagyok. A vietnami Guide Inc. Vietnam nevű IT-vállalatnál vagyok CEO. Naponta foglalkozom rendszerfejlesztéssel, és újabban a Claude Code-ot tettem a munkám központi eszközévé.

Konkrétan: csináltam egy privát repót kondo-daily-ops néven, és gyakorlatilag mindent — a Backlogon át történő ügyfélkommunikációt, a céges csapatommal való egyeztetést, a munkanaplók kezelését — a Claude Code-ra bízok. API-n keresztül lekérni a ticket hátterét, kihúzni a kontextust a régi logokból, a beépített „skill”-ekkel megfogalmazni a választ — ilyen utasításokat adok neki naponta.

Ahogy sejthető, ezek az utasítások természetes nyelven, és gyakran elég hosszan szólnak. Billentyűzetről begépelni eléggé fárasztó.

Találkozás az AquaVoice-szal

2025 vége felé kezdtem el használni az AquaVoice nevű hangbeviteli alkalmazást.

A Claude Code-nak szóló hosszú utasításaimat egyszerűen kimondhattam. Sokkal jobban a kezemhez állt, mint vártam, és a hangbevitel rövid idő alatt nélkülözhetetlenné vált. „Nézd meg ezt a ticketet, a régi logokból vedd a kontextust, és ezzel a skillel fogalmazz választ.” — kényelmesen, csak kimondva ilyen utasítást adni. Ha egyszer megtapasztaltad, nincs visszaút.

Miért akartam magam megépíteni

Legyek őszinte: az AquaVoice-szal semmi bajom nem volt, elégedett voltam vele.

Akkor miért csináltam magam? A válasz a tiszta szellemi kíváncsiság.

Először is régóta szerettem volna valamit Rustban írni. Korábban is építettem magamnak munkaeszközöket — például a Guidebook-ot (Rustban írt statikus oldal-generátor) vagy a céges VPN-t (Headscale). A saját szerszámot magamnak megcsiszolni — ez nálam tisztán élvezet.

Másodszor, kíváncsi voltam az AquaVoice technikai felépítésére. Speech-to-Text átír, az LLM utófeldolgozza — ez a többlépcsős pipeline izgatta a fantáziámat.

Igazából, már az AquaVoice előtt is meglepett a ChatGPT hangbevitelének átírási minősége. Volt, hogy csak azért nyitottam meg a ChatGPT asztali appot, hogy belemondhassam, ami a Claude Code-nak kellett, majd a leírt szöveget átmásoljam — ilyen trükköket csináltam.

Aztán API-n elérhetővé vált az OpenAI gpt-4o-mini-transcribe modellje. „Ezzel akár magam is megépíthetném?” — ez volt a kulcspillanat.

A Speech-to-Text modellek bejárása

A koedesk fejlesztése során egy csomó STT modellt kipróbáltam.

Groq Whisper Large v3 Turbo — gyors. De néha hallucinál.

OpenAI GPT-4o Transcribe — magas pontosság, de a csendben fellépő hallucinációk zavarók. Japánban és angolban erős, viszont amikor vietnami beszéd közé angol keveredik, kifekszik. Vietnamban fejlesztünk rendszereket, úgyhogy ez nálunk valódi probléma volt.

Mistral (Voxtral) — közepes.

Gemini — amikor mindent rábíztam (STT + utófeldolgozás), túl bátran normalizált, és olyat is hallucinált, amit nem mondtam. Vad ló.

Az LLM-utófeldolgozás nehézségei

Hogy pótoljuk azt, amit az STT egyedül nem old meg, az LLM-alapú utófeldolgozást is leteszteltük (töltelékszók eltávolítása, szótár alkalmazása, formázás). 6 modellen és 20 mintán futtatott benchmark után kiderült: minden modellnek határozott „személyisége” van.

OpenAI-féle modellek: óvatosak, konzervatívak. A szótárat alkalmazzák, de ismeretlen szóhoz nem nyúlnak. Hallucináció: 0.
Gemini-féle modellek: aktívak, merészek. A szótár alkalmazásában a legjobbak, de az ismert szavakat is önkényesen „helyesebbre” írják át. „Gemini 3 Flash”-t mondasz, ő javítja „Gemini 1.5 Flash”-re — minél ismertebb egy szó, annál veszélyesebb a hallucináció.
Claude-féle modellek: szerények, biztonságosak. Nem rontanak el semmit, de a szótár alkalmazásában bátortalanok.

A tanulság: az utófeldolgozás voltaképpen kényszer, ami a maguk az STT modellek fejlődésével el fog tűnni.

Találkozás az ElevenLabs Scribe V2-vel

És itt jött az ElevenLabs Scribe V2.

Korábban nem ismertem ezt a céget, de ez a modell sokkoló volt. Vietnami, japán, angol — nyelvtől függetlenül kiváló átírási minőség. Még japán nyelven is, szubjektív érzésem szerint, az OpenAI modelljeit is felülmúlja.

A szótárhoz is van paraméter, fejlesztőbarát kialakítás. Utófeldolgozás nélkül is bőven elég a minőség. A koedeskben jelenleg ez a Scribe V2 az alapértelmezett modell.

Utófeldolgozás nélkül sikerült más alkalmazásokat túlszárnyaló minőséget elérnünk — legalábbis japánul ez a meggyőződésünk.

A jelenlegi fejlesztői környezetem

Ezen az úton végigjárva, valójában nincs sok AI eszköz, amit napi szinten használok. Claude Code és koedesk. Ez a kettős.

Másfelől — ha a Claude Code elszáll, egyetlen pull requestet sem tudok már magam összerakni. Ennyire függőek vagyunk.

Ennek a cikknek a workflow-ja

Ez a cikk önmagában is a hangbevitel demonstrációja.

Belemondom a koedeskbe, és lediktálom az átírást
A Claude Code finomítja a szöveget
A Claude Code műveli a Git repót, és pushol
A Zenn Connect (GitHub integráció) automatikusan közzéteszi

A billentyűzethez alig nyúltam.

Kipróbálnád a hangbevitelt?

Aki ismeri az AquaVoice-t, talán azt mondja: „aha, az az élmény”. De sokan közületek talán még nem próbálták a hangbevitelt.

Különösen a japánul használók figyelmébe ajánlom, hogy próbálják ki a koedesk alapértelmezett modelljének, az ElevenLabs Scribe V2-nek a japán átírási minőségét. A koedesk napi 5 percig, lejárati idő nélkül és bankkártya nélkül ingyenesen használható, örökre. Ha megtetszik, a havi $10-os Pro csomaggal korlátlan az átírás.

Örülnék, ha ez a cikk lenne számodra a löket, hogy belekóstolj a hangbevitelbe mint új beviteli felületbe.

Visszatérve a bevezetőre — van egy halk ambícióm. Szeretném, ha a koedesk a hangbeviteli világ Happy Hacking Keyboard-ja lenne. ……Vicc, bocsánat. De félig komolyan gondolom.