Есе

Използвате ли гласово въвеждане? — За „следващия” интерфейс за въвеждане след клавиатурата

4 април 2026 г. · by Masaki Kondo · 6 min read

Въведение — придирчивостта към интерфейсите за въвеждане

Използвате ли гласово въвеждане?

В днешно време парадигмите около изкуствения интелект се сменят с впечатляваща скорост. В целия спектър от входни интерфейси към AI, Speech-to-Text (транскрипцията) се превръща в реално приложим начин на въвеждане. Усещам, че тук има голяма повратна точка.

Сред инженерите не са малко тези, които използват клавиатури като Happy Hacking Keyboard на PFU — клавиатури за 200 или 300 долара. И аз съм един от тях и през един период бях доста придирчив към клавиатурите си. Напоследък и събитията около саморъчно изработени клавиатури стават все по-популярни.

Щом сме толкова придирчиви към клавиатурата като интерфейс за въвеждане, защо да не сме същевременно придирчиви и към гласовия вход? С приблизително тази мисъл пиша този текст.

Кратко представяне

Казвам се Masaki Kondo. Аз съм CEO на виетнамската IT компания Guide Inc. Vietnam. Всекидневно се занимавам с разработка на софтуер, а напоследък поставих Claude Code в самия център на работата си.

По-конкретно, направих частен репозиторий kondo-daily-ops, в който комуникацията с клиенти през Backlog, разговорите с членовете на екипа и воденето на работни дневници — почти всичко — се случва с помощта на Claude Code. Всеки ден му давам указания от рода на: вземи фона на тикета през API, събери контекст от старите логове, изготви отговор чрез тази вещина и т.н.

Както се досещате, тези инструкции са на естествен език и са доста дълги. Да ги набирам на клавиатура е тежка работа.

Срещата с AquaVoice

В края на 2025 г. започнах да използвам приложението за гласов вход AquaVoice.

Дългите инструкции към Claude Code можех просто да изговарям. Това ми легна изненадващо удобно и за нула време вече не можех да се откъсна от гласовото въвеждане. „Виж този тикет, вземи контекст от старите логове и с тази вещина съчини отговор" — щом веднъж усетиш колко удобно е такова нещо просто да го кажеш, връщане назад няма.

Защо реших да направя свой инструмент

Честно — нямах никакви оплаквания от AquaVoice, бях напълно доволен.

Тогава защо го разработих сам? Отговорът е чисто интелектуално любопитство.

Първо, отдавна исках да направя приложение на Rust. Вече имах опит със собствени инструменти, които използвам в работата си — Guidebook (генератор на статични сайтове на Rust), вътрешен VPN (Headscale) и т.н. Сам да си изпилявам и изграждам инструмент — това просто ми доставя радост.

В допълнение, любопитна ми беше и техническата схема на AquaVoice. Транскрибираш гласа чрез Speech-to-Text модел, а после доразкрасяваш текста с LLM — този многослоен пайплайн ме интригуваше.

Всъщност и преди да науча за AquaVoice бях впечатлен от точността на транскрипцията при гласовия вход в ChatGPT. Дотам, че за да въвеждам в Claude Code, си правех заобиколен път: диктувах в десктоп приложението на ChatGPT и после копирах транскрибирания текст в Claude Code.

А след това OpenAI пусна gpt-4o-mini-transcribe като API. „А ако с него аз си направя сам инструмент?" — това беше решаващият момент.

Пътуване през STT моделите

В хода на разработката на koedesk изпробвах най-различни STT модели.

Groq Whisper Large v3 Turbo — бърз. Но халюцинира леко.

OpenAI GPT-4o Transcribe — висока точност, но халюцинациите при тишина пречат. На японски и английски е силен, но щом в речта се вмеси английска фраза например насред виетнамски, всичко започва да се разпада. Ние разработваме във Виетнам, така че това е сериозен проблем за нас.

Mistral (Voxtral) — слаб.

Gemini — когато му поверих STT и пост-обработката накуп, нормализира прекалено смело и дори халюцинираше неща, които изобщо не съм казвал. Истински необязден кон.

Трудностите на LLM пост-обработката

За да допълня това, което STT сам не може, изпробвах и LLM пост-обработка (премахване на запълващи звуци, прилагане на речник, оформяне на текста). След бенчмарк по 20 шаблона върху 6 модела ясно се очерта, че всеки модел има свой „характер".

Семейство OpenAI: консервативно и предпазливо. Прилага речника, но не пипа непознатите думи. Нула халюцинации.
Семейство Gemini: смело и агресивно. Най-силно е в прилагането на речник, но самоинициативно подменя познатите думи с такива, които смята за „по-правилни". Казал си „Gemini 3 Flash", а то ти го поправя на „Gemini 1.5 Flash" — колкото по-позната е думата, толкова по-опасна е халюцинацията.
Семейство Claude: скромно и безопасно. Нищо не разваля, но не е сигурно при прилагане на речника.

Заключението ми е, че пост-обработката всъщност не е необходима и че с напредъка на самите STT модели тя постепенно ще отпадне.

Срещата с ElevenLabs Scribe V2

И тогава попаднах на ElevenLabs Scribe V2.

Дотогава не познавах въобще тази компания, но моделът беше шокиращо добър. Виетнамски, японски, английски — независимо от езика, точността на транскрипцията е висока. И за японския усещането ми е, че надминава моделите на OpenAI.

Има и параметри за речник, дизайнът е приятелски настроен към разработчиците. Качеството е достатъчно дори без пост-обработка. В koedesk сега го използваме като модел по подразбиране.

Без пост-обработка постигнахме качество, което надминава другите приложения — поне за японския го заявяваме спокойно.

Моята настояща работна среда

След цялото това пътуване всекидневно използваните от мен AI инструменти всъщност не са много. Claude Code и koedesk. Двойката.

С други думи, ако Claude Code тръгне нещо, не мога сам да направя дори един pull request. Толкова съм зависим от него.

Работният поток на самия този текст

Всъщност и този текст е демонстрация на гласово въвеждане.

Диктувам и транскрибирам в koedesk
Claude Code дооформя текста
Claude Code работи с Git репозитория и прави push
Zenn Connect (връзка с GitHub) автоматично публикува

Клавиатурата почти не съм я докосвал.

Ще опитате ли гласов вход?

На запознатите с AquaVoice вероятно веднага им изниква това усещане. Но и много хора още не са пробвали гласово въвеждане.

Особено към потребителите на японски се обръщам: качеството на модела по подразбиране в koedesk — ElevenLabs Scribe V2 — си струва да се изпита. koedesk е безплатен до 5 минути на ден, без срок и без банкова карта — може да се ползва безкрайно. Ако ви хареса, Pro планът за 10 долара на месец прави транскрипцията неограничена.

Ще се радвам, ако този текст ви послужи като повод да се запознаете с гласовото въвеждане като нов интерфейс за въвеждане.

Връщайки се към началото — имам и една тиха амбиция. Искам koedesk да стане Happy Hacking Keyboard на света на гласовото въвеждане. … Шегувам се, извинявайте. Но наполовина се шегувам, наполовина — не.