Есей

Чи користуєтесь ви голосовим вводом? — Про «наступний» інтерфейс введення після клавіатури

4 квітня 2026 р. · by Masaki Kondo · 5 min read

Вступ — про ставлення до інтерфейсу введення

Чи користуєтесь ви голосовим вводом?

Останнім часом парадигма ШІ змінюється шалено швидко, але мені здається, що не менш цікаві зрушення відбуваються на самому початку конвеєра — на стороні введення. Speech-to-Text нарешті перейшов у категорію практичного, щоденного способу введення. Для мене це справжній переломний момент.

Серед інженерів напевно багато тих, хто без сумнівів витрачає двісті-триста доларів на клавіатуру — Happy Hacking Keyboard від PFU, кастомні механіки і таке інше. Я теж із цього табору: був період, коли клавіатури мене захоплювали понад усе. Зараз, до речі, активно ростуть мітапи з кастомної клавіатури.

Якщо ми так дбайливо ставимося до клавіатури як до інтерфейсу введення, то й до голосового вводу як до нового інтерфейсу варто поставитися не менш серйозно. Саме про це й цей есей.

Кілька слів про себе

Мене звати Masaki Kondo. Я CEO компанії Guide Inc. Vietnam — IT-компанії у В'єтнамі. Щодня займаюся розробкою ПЗ, і останнім часом поставив Claude Code в самий центр свого робочого процесу.

Конкретно — у мене є приватний репозиторій kondo-daily-ops, в якому Claude Code допомагає мені працювати з клієнтськими тикетами у Backlog, вести внутрішню комунікацію команди й щоденні робочі журнали — практично з усім. Він підтягує контекст тикета через API, піднімає історію з минулих логів, запускає мої збережені навички, щоб скласти чернетку відповіді, і так далі. Керую я цим інструкціями природною мовою.

Як ви розумієте, такі інструкції — це довгі речення природною мовою. Набирати їх із клавіатури — досить виснажливо.

Знайомство з AquaVoice

Десь наприкінці 2025 року я почав користуватися застосунком голосового вводу під назвою AquaVoice.

Можливість диктувати довгі інструкції для Claude Code виявилася значно зручнішою, ніж я очікував. Голосовий ввід дуже швидко став тим, без чого я вже не уявляю свого дня. «Прочитай цей тикет, підніми контекст із минулих логів, використай ось цей навик і склади відповідь» — можливість вимовити це вголос неймовірно комфортна. Достатньо один раз відчути — і назад уже не повернешся.

Чому я вирішив зробити своє

Скажу чесно: до AquaVoice у мене не було жодних претензій. Я був ним цілком задоволений.

Тоді навіщо я взявся писати своє? З чистої інтелектуальної цікавості.

По-перше, мені давно хотілося зробити щось на Rust. Подібне у мене вже було: Guidebook (генератор статичних сайтів на Rust), внутрішній корпоративний VPN на Headscale тощо — інструменти, якими я сам користуюся в роботі і які зробив власноруч. Гострити свої власні інструменти — це просто дуже захопливо.

Паралельно мені було цікаво технічне «нутро» AquaVoice. Спочатку Speech-to-Text, потім післяобробка через LLM — цей багатоступеневий конвеєр мене зачепив.

Ще до знайомства з AquaVoice мене вражала точність розпізнавання голосу в ChatGPT. Я навіть займався доволі дивною річчю: диктував у десктопний застосунок ChatGPT, потім копіював текст і вставляв його у Claude Code. Ось такий був робочий процес.

І тут OpenAI випустили gpt-4o-mini-transcribe як API. «Стоп, я ж можу зібрати це сам» — ось та сама іскра.

Мандрівка моделями Speech-to-Text

У процесі розробки koedesk я перепробував безліч STT-моделей.

Groq Whisper Large v3 Turbo — швидкий. Але трохи галюцинує.

OpenAI GPT-4o Transcribe — точний, але галюцинації в моменти тиші заважають. Японську й англійську тримає впевнено, проте варто домішати англійську у в'єтнамську — миттєво розсипається. Ми робимо розробку у В'єтнамі, тож для нас це був болючий момент.

Mistral (Voxtral) — так собі.

Gemini — пробував змусити його одночасно робити STT і післяобробку. Він так агресивно нормалізував, що почав галюцинувати тим, чого я взагалі не казав. Дикий кінь.

Складність післяобробки через LLM

Щоб закрити те, з чим STT поодинці не справляється, я також перевіряв післяобробку через LLM (видалення філерів, застосування словників, форматування тексту). Прогнав 20 бенчмарк-сценаріїв на 6 моделях і побачив, що кожна має свій яскраво виражений «характер».

Сімейство OpenAI: консервативне й обережне. Словник застосовує, але незнайомих слів не торкається. Нуль галюцинацій.
Сімейство Gemini: агресивне і сміливе. За якістю застосування словника — найкраще, але переписує слова, які йому здаються знайомими, на щось «правильніше». Скажеш «Gemini 3 Flash» — а воно стає «Gemini 1.5 Flash». Чим звичніше слово, тим небезпечніша галюцинація.
Сімейство Claude: скромне й безпечне. Нічого не ламає, але невпевнене в застосуванні словника.

Мій висновок: післяобробка по суті не повинна бути потрібною і поступово зникне в міру розвитку самих STT-моделей.

Знайомство з ElevenLabs Scribe V2

І тоді я натрапив на ElevenLabs Scribe V2.

Раніше я взагалі не чув про цю компанію, але ця модель стала для мене шоком. В'єтнамська, японська, англійська — точність висока на всіх мовах. Конкретно по японській, чисто суб'єктивно, мені здавалося, що вона випередила моделі OpenAI.

До того ж є акуратний параметр для біасингу через словник — дизайн, доброзичливий до розробників. Якість виводу така, що післяобробка взагалі не потрібна. Сьогодні в koedesk Scribe V2 використовується як модель за замовчуванням.

Без післяобробки і з якістю, що перевершує інші застосунки — принаймні за японською я готовий стверджувати це впевнено.

Моє нинішнє середовище розробки

В результаті цього шляху ШІ-інструментів, якими я користуюся щодня, на диво небагато. Claude Code і koedesk. Ось і весь склад.

Іншими словами, якщо Claude Code лежить — я не можу навіть самостійно відкрити пулл-реквест. Ось наскільки я від нього залежу.

Як написана сама ця стаття

Насправді ця стаття — демонстрація голосового вводу.

Диктую в koedesk для розшифровки
Прошу Claude Code причесати текст
Claude Code працює з Git-репозиторієм і робить push
Zenn Connect (інтеграція з GitHub) автоматично публікує

До клавіатури я майже не торкався.

Може, спробуєте голосовий ввід?

Ті, хто вже знає AquaVoice, мабуть, подумають: «А, той самий досвід». Але багато хто ще жодного разу не пробував голосовий ввід по-справжньому.

Особливо мені хочеться, щоб японськомовні користувачі відчули якість японської у ElevenLabs Scribe V2 — моделі за замовчуванням у koedesk. У koedesk є безкоштовний план — 5 хвилин на день, без обмеження за строком і без банківської картки. Якщо сподобається — тариф Pro за $10 на місяць знімає всі обмеження.

Буду радий, якщо ця стаття стане для когось першим дотиком до голосового вводу як до нового інтерфейсу введення.

І повертаючись до початку: моя маленька таємна амбіція — хочеться зробити koedesk «Happy Hacking Keyboard» у світі голосового вводу. …Жартую, перепрошую. Але, мабуть, наполовину серйозно.