Эсэ

Ці карыстаецеся вы галасавым уводам? — Пра «наступны» інтэрфейс уводу пасля клавіятуры

4 красавіка 2026 г. · by Masaki Kondo · 5 min read

Уступ — пра стаўленне да інтэрфейсу ўводу

Ці карыстаецеся вы галасавым уводам?

Апошнім часам парадыгма ШІ мяняецца імкліва, але мне здаецца, што не менш цікавыя зрухі адбываюцца на самым пачатку канвеера — на баку уводу. Speech-to-Text нарэшце перайшоў у катэгорыю практычнага, штодзённага спосабу ўводу. Для мяне гэта сапраўдны пералом.

Сярод інжынераў напэўна шмат тых, хто без сумненняў выкладае дзвесце-трыста долараў на клавіятуру — Happy Hacking Keyboard ад PFU, кастомныя механікі і таму падобнае. Я таксама з такіх: быў перыяд, калі клавіятуры захаплялі мяне больш за ўсё. Зараз, дарэчы, актыўна развіваюцца мітапы па кастомнай клавіятуры.

Калі мы так клапатліва ставімся да клавіятуры як да інтэрфейсу ўводу, то і да галасавога ўводу як да новага інтэрфейсу варта паставіцца не менш сур'ёзна. Менавіта пра гэта і гэта эсэ.

Некалькі слоў пра сябе

Мяне завуць Masaki Kondo. Я CEO кампаніі Guide Inc. Vietnam — IT-кампаніі ў В'етнаме. Штодня займаюся распрацоўкай ПЗ, і апошнім часам паставіў Claude Code у самы цэнтр свайго працэсу.

Канкрэтна — у мяне ёсць прыватны рэпазіторый kondo-daily-ops, у якім Claude Code дапамагае мне працаваць з кліенцкімі тыкетамі ў Backlog, весці ўнутраную камунікацыю каманды і штодзённыя рабочыя журналы — практычна з усім. Ён падцягвае кантэкст тыкета праз API, паднімае гісторыю з мінулых логаў, запускае мае захаваныя навыкі, каб скласці чарнавік адказу, і гэтак далей. Кірую я ўсім гэтым інструкцыямі на натуральнай мове.

Як вы разумееце, такія інструкцыі — гэта доўгія сказы на натуральнай мове. Набіраць іх з клавіятуры — даволі стомна.

Знаёмства з AquaVoice

Дзесьці ў канцы 2025 года я пачаў карыстацца дадаткам галасавога ўводу пад назвай AquaVoice.

Магчымасць дыктаваць доўгія інструкцыі для Claude Code аказалася значна зручней, чым я чакаў. Галасавы ўвод вельмі хутка стаў тым, без чаго я ўжо не ўяўляю свайго дня. «Прачытай гэты тыкет, падыми кантэкст з мінулых логаў, выкарыстай вось гэты навык і складзі адказ» — магчымасць прамовіць гэта ўголас неверагодна камфортная. Дастаткова адзін раз адчуць — і назад ужо не вернешся.

Чаму я вырашыў зрабіць сваё

Скажу шчыра: да AquaVoice у мяне не было ніякіх прэтэнзій. Я быў ім цалкам задаволены.

Тады навошта я ўзяўся пісаць сваё? З чыстай інтэлектуальнай цікаўнасці.

Па-першае, мне даўно хацелася зрабіць штосьці на Rust. Падобнае ў мяне ўжо было: Guidebook (генератар статычных сайтаў на Rust), унутраны карпаратыўны VPN на Headscale і гэтак далей — інструменты, якімі я сам карыстаюся ў працы і якія зрабіў сваімі рукамі. Вастрыць свае ўласныя інструменты — гэта проста вельмі захапляльна.

Паралельна мне было цікава тэхнічнае «нутро» AquaVoice. Спачатку Speech-to-Text, потым постапрацоўка праз LLM — гэты шматступенны канвеер мяне зачапіў.

Яшчэ да знаёмства з AquaVoice мяне ўражвала дакладнасць распазнання голасу ў ChatGPT. Я нават займаўся даволі дзіўнай рэччу: дыктаваў у дэсктопны дадатак ChatGPT, потым капіяваў тэкст і ўстаўляў яго ў Claude Code. Вось такі быў рабочы працэс.

І тут OpenAI выпусцілі gpt-4o-mini-transcribe як API. «Стоп, я ж магу сабраць гэта сам» — вось тая самая іскра.

Вандроўка мадэлямі Speech-to-Text

У працэсе распрацоўкі koedesk я перапрабаваў безліч STT-мадэляў.

Groq Whisper Large v3 Turbo — хуткі. Але крыху галюцынуе.

OpenAI GPT-4o Transcribe — дакладны, але галюцынацыі ў моманты цішыні замінаюць. Японскую і англійскую трымае ўпэўнена, аднак варта падмяшаць англійскую ў в'етнамскую — імгненна рассыпаецца. Мы робім распрацоўку ў В'етнаме, таму для нас гэта быў балючы момант.

Mistral (Voxtral) — так сабе.

Gemini — спрабаваў прымусіць яго адначасова рабіць STT і постапрацоўку. Ён так агрэсіўна нармалізаваў, што пачаў галюцынаваць тым, чаго я наогул не казаў. Дзікі конь.

Складанасць постапрацоўкі праз LLM

Каб закрыць тое, з чым STT у адзіночку не спраўляецца, я таксама правяраў постапрацоўку праз LLM (выдаленне філераў, прымяненне слоўнікаў, фарматаванне тэксту). Прагнаў 20 бенчмарк-сцэнарыяў на 6 мадэлях і ўбачыў, што ў кожнай свой яркі «характар».

Сямейства OpenAI: кансерватыўнае і асцярожнае. Слоўнік прымяняе, але незнаёмых слоў не чапае. Нуль галюцынацый.
Сямейства Gemini: агрэсіўнае і смелае. Па якасці прымянення слоўніка — найлепшае, але перапісвае словы, якія яму здаюцца знаёмымі, на штосьці «правільнейшае». Скажаш «Gemini 3 Flash» — а яно становіцца «Gemini 1.5 Flash». Чым звычней слова, тым небяспечней галюцынацыя.
Сямейства Claude: сціплае і бяспечнае. Нічога не ламае, але няўпэўненае ў прымяненні слоўніка.

Мой вывад: постапрацоўка па сутнасці не павінна быць патрэбнай і паступова знікне па меры развіцця саміх STT-мадэляў.

Знаёмства з ElevenLabs Scribe V2

І тады я натрапіў на ElevenLabs Scribe V2.

Раней я наогул не чуў пра гэтую кампанію, але гэтая мадэль стала для мяне шокам. В'етнамская, японская, англійская — дакладнасць высокая на ўсіх мовах. Канкрэтна па японскай, чыста суб'ектыўна, мне здавалася, што яна апярэдзіла мадэлі OpenAI.

Да таго ж ёсць акуратны параметр для біясінгу праз слоўнік — дызайн, добразычлівы да распрацоўшчыкаў. Якасць вываду такая, што постапрацоўка наогул не патрэбна. Сёння ў koedesk Scribe V2 выкарыстоўваецца як мадэль па змаўчанні.

Без постапрацоўкі і з якасцю, што перавышае іншыя дадаткі — прынамсі па японскай я гатовы сцвярджаць гэта ўпэўнена.

Маё цяперашняе асяроддзе распрацоўкі

У выніку гэтага шляху ШІ-інструментаў, якімі я карыстаюся штодня, на дзіва няшмат. Claude Code і koedesk. Вось і ўвесь склад.

Іншымі словамі, калі Claude Code ляжыць — я не магу нават самастойна адкрыць пул-рэквест. Вось наколькі я ад яго залежу.

Як напісаны сам гэты артыкул

Насамрэч гэты артыкул — дэманстрацыя галасавога ўводу.

Дыктую ў koedesk для расшыфроўкі
Прашу Claude Code прычасаць тэкст
Claude Code працуе з Git-рэпазіторыем і робіць push
Zenn Connect (інтэграцыя з GitHub) аўтаматычна публікуе

Да клавіятуры я амаль не дакранаўся.

Можа, паспрабуеце галасавы ўвод?

Тыя, хто ўжо ведае AquaVoice, напэўна, падумаюць: «А, той самы вопыт». Але многія яшчэ ніводнага разу не спрабавалі галасавы ўвод па-сапраўднаму.

Асабліва мне хочацца, каб японскамоўныя карыстальнікі адчулі якасць японскай у ElevenLabs Scribe V2 — мадэлі па змаўчанні ў koedesk. У koedesk ёсць бясплатны план — 5 хвілін у дзень, без абмежавання тэрміну і без банкаўскай карты. Калі спадабаецца — тарыф Pro за $10 на месяц здымае ўсе абмежаванні.

Буду рады, калі гэты артыкул стане для кагосьці першым дотыкам да галасавога ўводу як да новага інтэрфейсу ўводу.

І вяртаючыся да пачатку: мая маленькая таемная амбіцыя — хочацца зрабіць koedesk «Happy Hacking Keyboard» у свеце галасавога ўводу. …Жартую, прабачце. Але, напэўна, напалову сур'ёзна.