Есеј

Користите ли гласовен внес? — За „следниот” интерфејс за внес по тастатурата

4 април 2026 г. · by Masaki Kondo · 6 min read

Вовед — посветеноста кон интерфејсите за внес

Дали користите гласовен внес?

Парадигмите околу вештачката интелигенција денес се менуваат со забележителна брзина. Во сè што се однесува на внес кон AI — во сите можни интерфејси за внес — Speech-to-Text (транскрипцијата) станува навистина употреблив начин на работа. Чувствувам дека тука се крие голема пресвртница.

Меѓу инженерите не е малку оние што користат тастатури како Happy Hacking Keyboard од PFU — тастатури што чинат 200 или 300 долари. И јас сум еден од нив и едно време прилично се посветував на тастатурите. Во последно време и настаните за рачно изработени тастатури стануваат сè попопуларни.

Ако веќе се посветуваме на тастатурата како интерфејс за внес, зошто да не се посветиме исто така и на гласовниот внес? Приближно со таа мисла го пишувам овој текст.

Кратко претставување

Се викам Masaki Kondo. Сум извршен директор на виетнамската IT компанија Guide Inc. Vietnam. Секојдневно се занимавам со развој на софтвер, а во последно време Claude Code го ставив во самото срце на својата работа.

Поконкретно, направив приватно складиште kondo-daily-ops во кое комуникацијата со клиенти преку Backlog, разговорите со членовите на тимот, водењето работни дневници — речиси сè — се одвива со помош на Claude Code. Секој ден му давам упатства како: преку API земи го контекстот на тикетот, собери контекст од старите логови, состави одговор користејќи ја оваа вештина и така натаму.

Како што може да претпоставите, овие упатства се на природен јазик и не се баш кратки. Куцањето на тастатура за нив не е угодно.

Средбата со AquaVoice

Кон крајот на 2025 година почнав да ја користам апликацијата за гласовен внес AquaVoice.

Долгите упатства за Claude Code можев едноставно да ги изговорам. Тоа ми легна изненадливо удобно и за миг веќе не можев да се одделам од гласовниот внес. „Погледни го овој тикет, собери контекст од старите логови и со оваа вештина состави одговор" — кога еднаш ќе го искусиш колку е угодно тоа просто да го кажеш, нема враќање.

Зошто решив да направам сопствена алатка

Искрено, немав никаков приговор кон AquaVoice, бев задоволен.

Зошто тогаш ја развив сопствената? Одговорот е чисто интелектуално љубопитство.

Прво, одамна сакав да направам некоја апликација во Rust. Веќе имав искуство со сопствени алатки што ги користам на работа — Guidebook (генератор на статични сајтови во Rust), внатрешен VPN (Headscale) и слично. Сам да си ја шлајфам и градам сопствената алатка — тоа едноставно ме весели.

Покрај тоа, ме интересираше и техничката шема на AquaVoice. Го транскрибираш гласот со Speech-to-Text модел, а потоа текстот го дотеруваш со LLM — таа повеќеслојна цевка ме привлече.

Всушност, уште пред да дознаам за AquaVoice, бев изненаден од точноста на транскрипцијата при гласовниот внес на ChatGPT. Толку што за да внесам нешто во Claude Code, одев заобиколен пат: диктирав во десктоп апликацијата на ChatGPT, па транскрибираниот текст го копирав во Claude Code.

И тогаш OpenAI овозможи gpt-4o-mini-transcribe како API. „А ако со ова сам си направам алатка?" — тоа беше пресудниот миг.

Патување низ STT моделите

Во текот на развојот на koedesk испробав најразлични STT модели.

Groq Whisper Large v3 Turbo — брз. Но малку халуцинира.

OpenAI GPT-4o Transcribe — висока точност, но халуцинациите во тишина пречат. На јапонски и англиски е силен, но штом во говорот се вмеша англиска фраза, на пример среде виетнамски, нештото почнува да се распаѓа. Ние развиваме во Виетнам, па за нас тоа беше сериозен проблем.

Mistral (Voxtral) — слаб.

Gemini — кога му го доверив STT и пост-обработката одеднаш, нормализираше премногу смело и дури халуцинираше работи што воопшто не сум ги кажал. Вистински дивеч.

Тешкотиите на LLM пост-обработката

За да го дополнам тоа што STT сам не може, испробав и LLM пост-обработка (отстранување на пополнувачи, примена на речник, обликување на текстот). По бенчмарк во 20 шаблони врз 6 модели, јасно се покажа дека секој модел има свој „карактер".

Семејството OpenAI: конзервативно и претпазливо. Го применува речникот, но не ги допира непознатите зборови. Нула халуцинации.
Семејството Gemini: смело и агресивно. Најсилно е во примената на речник, но самоиницијативно ги заменува познатите зборови со „поправилни". Кажуваш „Gemini 3 Flash", а тоа ти го поправа во „Gemini 1.5 Flash" — колку познат збор, толку поопасна халуцинација.
Семејството Claude: скромно и безбедно. Ништо не расипува, но не е баш сигурно во примената на речникот.

Заклучокот ми е дека пост-обработката всушност и не е потребна и дека со развојот на самите STT модели постепено ќе исчезне.

Средбата со ElevenLabs Scribe V2

И тогаш налетав на ElevenLabs Scribe V2.

Дотогаш воопшто не ја знаев таа компанија, но моделот беше шокантно добар. Виетнамски, јапонски, англиски — без оглед на јазикот, точноста на транскрипцијата е висока. И за јапонскиот, по сопствено доживување, надминува модели на OpenAI.

Има и параметри за речник, дизајнот е пријателски кон програмерите. Квалитетот е доволен и без пост-обработка. Во koedesk сега го користиме како подразбран модел.

Без пост-обработка постигнавме квалитет што ги надминува другите апликации — барем за јапонскиот тоа го тврдиме без срам.

Моето тековно работно опкружување

По сето тоа, AI алатките што ги користам секојдневно всушност не се многу. Claude Code и koedesk. Двојка.

Со други зборови, ако Claude Code тргне нагло, не можам сам да направам ни еден pull request. Толку зависам од него.

Работен тек на самиов текст

Всушност и овој текст е демонстрација на гласовен внес.

Диктирам и транскрибирам во koedesk
Claude Code го дотерува текстот
Claude Code работи со Git складиштето и прави push
Zenn Connect (поврзување со GitHub) автоматски го објавува

Тастатурата речиси не сум ја допрел.

Ќе пробате ли гласовен внес?

На запознаените со AquaVoice веднаш им паѓа на ум тоа доживување. Но и многумина сѐ уште не пробале гласовен внес.

Особено им се обраќам на корисниците на јапонски: вреди да се искуси квалитетот на подразбраниот модел во koedesk — ElevenLabs Scribe V2. koedesk е бесплатен до 5 минути дневно, без рок и без картичка — може да се користи бесконечно. Ако ви се допадне, Pro планот за 10 долари месечно ја прави транскрипцијата неограничена.

Би било убаво ако овој текст ви послужи како прв повод да го запознаете гласовниот внес како нов интерфејс за внес.

Враќајќи се на почетокот — имам и една тивка амбиција. Сакам koedesk да стане Happy Hacking Keyboard на светот на гласовен внес. … Се шегувам, извинете. Но половина шега, половина не.