Ці карыстаецеся вы галасавым уводам? — Пра «наступны» інтэрфейс уводу пасля клавіятуры
Уступ — пра стаўленне да інтэрфейсу ўводу
Ці карыстаецеся вы галасавым уводам?
Апошнім часам парадыгма ШІ мяняецца імкліва, але мне здаецца, што не менш цікавыя зрухі адбываюцца на самым пачатку канвеера — на баку уводу. Speech-to-Text нарэшце перайшоў у катэгорыю практычнага, штодзённага спосабу ўводу. Для мяне гэта сапраўдны пералом.
Сярод інжынераў напэўна шмат тых, хто без сумненняў выкладае дзвесце-трыста долараў на клавіятуру — Happy Hacking Keyboard ад PFU, кастомныя механікі і таму падобнае. Я таксама з такіх: быў перыяд, калі клавіятуры захаплялі мяне больш за ўсё. Зараз, дарэчы, актыўна развіваюцца мітапы па кастомнай клавіятуры.
Калі мы так клапатліва ставімся да клавіятуры як да інтэрфейсу ўводу, то і да галасавога ўводу як да новага інтэрфейсу варта паставіцца не менш сур’ёзна. Менавіта пра гэта і гэта эсэ.
Некалькі слоў пра сябе
Мяне завуць Masaki Kondo. Я CEO кампаніі Guide Inc. Vietnam — IT-кампаніі ў В’етнаме. Штодня займаюся распрацоўкай ПЗ, і апошнім часам паставіў Claude Code у самы цэнтр свайго працэсу.
Канкрэтна — у мяне ёсць прыватны рэпазіторый kondo-daily-ops, у якім Claude Code дапамагае мне працаваць з кліенцкімі тыкетамі ў Backlog, весці ўнутраную камунікацыю каманды і штодзённыя рабочыя журналы — практычна з усім. Ён падцягвае кантэкст тыкета праз API, паднімае гісторыю з мінулых логаў, запускае мае захаваныя навыкі, каб скласці чарнавік адказу, і гэтак далей. Кірую я ўсім гэтым інструкцыямі на натуральнай мове.
Як вы разумееце, такія інструкцыі — гэта доўгія сказы на натуральнай мове. Набіраць іх з клавіятуры — даволі стомна.
Знаёмства з AquaVoice
Дзесьці ў канцы 2025 года я пачаў карыстацца дадаткам галасавога ўводу пад назвай AquaVoice.
Магчымасць дыктаваць доўгія інструкцыі для Claude Code аказалася значна зручней, чым я чакаў. Галасавы ўвод вельмі хутка стаў тым, без чаго я ўжо не ўяўляю свайго дня. «Прачытай гэты тыкет, падыми кантэкст з мінулых логаў, выкарыстай вось гэты навык і складзі адказ» — магчымасць прамовіць гэта ўголас неверагодна камфортная. Дастаткова адзін раз адчуць — і назад ужо не вернешся.
Чаму я вырашыў зрабіць сваё
Скажу шчыра: да AquaVoice у мяне не было ніякіх прэтэнзій. Я быў ім цалкам задаволены.
Тады навошта я ўзяўся пісаць сваё? З чыстай інтэлектуальнай цікаўнасці.
Па-першае, мне даўно хацелася зрабіць штосьці на Rust. Падобнае ў мяне ўжо было: Guidebook (генератар статычных сайтаў на Rust), унутраны карпаратыўны VPN на Headscale і гэтак далей — інструменты, якімі я сам карыстаюся ў працы і якія зрабіў сваімі рукамі. Вастрыць свае ўласныя інструменты — гэта проста вельмі захапляльна.
Паралельна мне было цікава тэхнічнае «нутро» AquaVoice. Спачатку Speech-to-Text, потым постапрацоўка праз LLM — гэты шматступенны канвеер мяне зачапіў.
Яшчэ да знаёмства з AquaVoice мяне ўражвала дакладнасць распазнання голасу ў ChatGPT. Я нават займаўся даволі дзіўнай рэччу: дыктаваў у дэсктопны дадатак ChatGPT, потым капіяваў тэкст і ўстаўляў яго ў Claude Code. Вось такі быў рабочы працэс.
І тут OpenAI выпусцілі gpt-4o-mini-transcribe як API. «Стоп, я ж магу сабраць гэта сам» — вось тая самая іскра.
Вандроўка мадэлямі Speech-to-Text
У працэсе распрацоўкі koedesk я перапрабаваў безліч STT-мадэляў.
Groq Whisper Large v3 Turbo — хуткі. Але крыху галюцынуе.
OpenAI GPT-4o Transcribe — дакладны, але галюцынацыі ў моманты цішыні замінаюць. Японскую і англійскую трымае ўпэўнена, аднак варта падмяшаць англійскую ў в’етнамскую — імгненна рассыпаецца. Мы робім распрацоўку ў В’етнаме, таму для нас гэта быў балючы момант.
Mistral (Voxtral) — так сабе.
Gemini — спрабаваў прымусіць яго адначасова рабіць STT і постапрацоўку. Ён так агрэсіўна нармалізаваў, што пачаў галюцынаваць тым, чаго я наогул не казаў. Дзікі конь.
Складанасць постапрацоўкі праз LLM
Каб закрыць тое, з чым STT у адзіночку не спраўляецца, я таксама правяраў постапрацоўку праз LLM (выдаленне філераў, прымяненне слоўнікаў, фарматаванне тэксту). Прагнаў 20 бенчмарк-сцэнарыяў на 6 мадэлях і ўбачыў, што ў кожнай свой яркі «характар».
- Сямейства OpenAI: кансерватыўнае і асцярожнае. Слоўнік прымяняе, але незнаёмых слоў не чапае. Нуль галюцынацый.
- Сямейства Gemini: агрэсіўнае і смелае. Па якасці прымянення слоўніка — найлепшае, але перапісвае словы, якія яму здаюцца знаёмымі, на штосьці «правільнейшае». Скажаш «Gemini 3 Flash» — а яно становіцца «Gemini 1.5 Flash». Чым звычней слова, тым небяспечней галюцынацыя.
- Сямейства Claude: сціплае і бяспечнае. Нічога не ламае, але няўпэўненае ў прымяненні слоўніка.
Мой вывад: постапрацоўка па сутнасці не павінна быць патрэбнай і паступова знікне па меры развіцця саміх STT-мадэляў.
Знаёмства з ElevenLabs Scribe V2
І тады я натрапіў на ElevenLabs Scribe V2.
Раней я наогул не чуў пра гэтую кампанію, але гэтая мадэль стала для мяне шокам. В’етнамская, японская, англійская — дакладнасць высокая на ўсіх мовах. Канкрэтна па японскай, чыста суб’ектыўна, мне здавалася, што яна апярэдзіла мадэлі OpenAI.
Да таго ж ёсць акуратны параметр для біясінгу праз слоўнік — дызайн, добразычлівы да распрацоўшчыкаў. Якасць вываду такая, што постапрацоўка наогул не патрэбна. Сёння ў koedesk Scribe V2 выкарыстоўваецца як мадэль па змаўчанні.
Без постапрацоўкі і з якасцю, што перавышае іншыя дадаткі — прынамсі па японскай я гатовы сцвярджаць гэта ўпэўнена.
Маё цяперашняе асяроддзе распрацоўкі
У выніку гэтага шляху ШІ-інструментаў, якімі я карыстаюся штодня, на дзіва няшмат. Claude Code і koedesk. Вось і ўвесь склад.
Іншымі словамі, калі Claude Code ляжыць — я не магу нават самастойна адкрыць пул-рэквест. Вось наколькі я ад яго залежу.
Як напісаны сам гэты артыкул
Насамрэч гэты артыкул — дэманстрацыя галасавога ўводу.
- Дыктую ў koedesk для расшыфроўкі
- Прашу Claude Code прычасаць тэкст
- Claude Code працуе з Git-рэпазіторыем і робіць push
- Zenn Connect (інтэграцыя з GitHub) аўтаматычна публікуе
Да клавіятуры я амаль не дакранаўся.
Можа, паспрабуеце галасавы ўвод?
Тыя, хто ўжо ведае AquaVoice, напэўна, падумаюць: «А, той самы вопыт». Але многія яшчэ ніводнага разу не спрабавалі галасавы ўвод па-сапраўднаму.
Асабліва мне хочацца, каб японскамоўныя карыстальнікі адчулі якасць японскай у ElevenLabs Scribe V2 — мадэлі па змаўчанні ў koedesk. У koedesk ёсць бясплатны план — 5 хвілін у дзень, без абмежавання тэрміну і без банкаўскай карты. Калі спадабаецца — тарыф Pro за $10 на месяц здымае ўсе абмежаванні.
Буду рады, калі гэты артыкул стане для кагосьці першым дотыкам да галасавога ўводу як да новага інтэрфейсу ўводу.
І вяртаючыся да пачатку: мая маленькая таемная амбіцыя — хочацца зрабіць koedesk «Happy Hacking Keyboard» у свеце галасавога ўводу. …Жартую, прабачце. Але, напэўна, напалову сур’ёзна.
Напрыканцы
Надалей таксама хочу пісаць пра абнаўленні koedesk і пра бягучы стан спраў у Speech-to-Text.
А яшчэ, калі будзе чым падзяліцца карысным, буду расказваць пра прыёмы, якімі я штодня працую з ШІ-агентамі.
Буду рады, калі вы застанецеся са мной і далей.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app