Чи користуєтесь ви голосовим вводом? — Про «наступний» інтерфейс введення після клавіатури
Вступ — про ставлення до інтерфейсу введення
Чи користуєтесь ви голосовим вводом?
Останнім часом парадигма ШІ змінюється шалено швидко, але мені здається, що не менш цікаві зрушення відбуваються на самому початку конвеєра — на стороні введення. Speech-to-Text нарешті перейшов у категорію практичного, щоденного способу введення. Для мене це справжній переломний момент.
Серед інженерів напевно багато тих, хто без сумнівів витрачає двісті-триста доларів на клавіатуру — Happy Hacking Keyboard від PFU, кастомні механіки і таке інше. Я теж із цього табору: був період, коли клавіатури мене захоплювали понад усе. Зараз, до речі, активно ростуть мітапи з кастомної клавіатури.
Якщо ми так дбайливо ставимося до клавіатури як до інтерфейсу введення, то й до голосового вводу як до нового інтерфейсу варто поставитися не менш серйозно. Саме про це й цей есей.
Кілька слів про себе
Мене звати Masaki Kondo. Я CEO компанії Guide Inc. Vietnam — IT-компанії у В’єтнамі. Щодня займаюся розробкою ПЗ, і останнім часом поставив Claude Code в самий центр свого робочого процесу.
Конкретно — у мене є приватний репозиторій kondo-daily-ops, в якому Claude Code допомагає мені працювати з клієнтськими тикетами у Backlog, вести внутрішню комунікацію команди й щоденні робочі журнали — практично з усім. Він підтягує контекст тикета через API, піднімає історію з минулих логів, запускає мої збережені навички, щоб скласти чернетку відповіді, і так далі. Керую я цим інструкціями природною мовою.
Як ви розумієте, такі інструкції — це довгі речення природною мовою. Набирати їх із клавіатури — досить виснажливо.
Знайомство з AquaVoice
Десь наприкінці 2025 року я почав користуватися застосунком голосового вводу під назвою AquaVoice.
Можливість диктувати довгі інструкції для Claude Code виявилася значно зручнішою, ніж я очікував. Голосовий ввід дуже швидко став тим, без чого я вже не уявляю свого дня. «Прочитай цей тикет, підніми контекст із минулих логів, використай ось цей навик і склади відповідь» — можливість вимовити це вголос неймовірно комфортна. Достатньо один раз відчути — і назад уже не повернешся.
Чому я вирішив зробити своє
Скажу чесно: до AquaVoice у мене не було жодних претензій. Я був ним цілком задоволений.
Тоді навіщо я взявся писати своє? З чистої інтелектуальної цікавості.
По-перше, мені давно хотілося зробити щось на Rust. Подібне у мене вже було: Guidebook (генератор статичних сайтів на Rust), внутрішній корпоративний VPN на Headscale тощо — інструменти, якими я сам користуюся в роботі і які зробив власноруч. Гострити свої власні інструменти — це просто дуже захопливо.
Паралельно мені було цікаво технічне «нутро» AquaVoice. Спочатку Speech-to-Text, потім післяобробка через LLM — цей багатоступеневий конвеєр мене зачепив.
Ще до знайомства з AquaVoice мене вражала точність розпізнавання голосу в ChatGPT. Я навіть займався доволі дивною річчю: диктував у десктопний застосунок ChatGPT, потім копіював текст і вставляв його у Claude Code. Ось такий був робочий процес.
І тут OpenAI випустили gpt-4o-mini-transcribe як API. «Стоп, я ж можу зібрати це сам» — ось та сама іскра.
Мандрівка моделями Speech-to-Text
У процесі розробки koedesk я перепробував безліч STT-моделей.
Groq Whisper Large v3 Turbo — швидкий. Але трохи галюцинує.
OpenAI GPT-4o Transcribe — точний, але галюцинації в моменти тиші заважають. Японську й англійську тримає впевнено, проте варто домішати англійську у в’єтнамську — миттєво розсипається. Ми робимо розробку у В’єтнамі, тож для нас це був болючий момент.
Mistral (Voxtral) — так собі.
Gemini — пробував змусити його одночасно робити STT і післяобробку. Він так агресивно нормалізував, що почав галюцинувати тим, чого я взагалі не казав. Дикий кінь.
Складність післяобробки через LLM
Щоб закрити те, з чим STT поодинці не справляється, я також перевіряв післяобробку через LLM (видалення філерів, застосування словників, форматування тексту). Прогнав 20 бенчмарк-сценаріїв на 6 моделях і побачив, що кожна має свій яскраво виражений «характер».
- Сімейство OpenAI: консервативне й обережне. Словник застосовує, але незнайомих слів не торкається. Нуль галюцинацій.
- Сімейство Gemini: агресивне і сміливе. За якістю застосування словника — найкраще, але переписує слова, які йому здаються знайомими, на щось «правильніше». Скажеш «Gemini 3 Flash» — а воно стає «Gemini 1.5 Flash». Чим звичніше слово, тим небезпечніша галюцинація.
- Сімейство Claude: скромне й безпечне. Нічого не ламає, але невпевнене в застосуванні словника.
Мій висновок: післяобробка по суті не повинна бути потрібною і поступово зникне в міру розвитку самих STT-моделей.
Знайомство з ElevenLabs Scribe V2
І тоді я натрапив на ElevenLabs Scribe V2.
Раніше я взагалі не чув про цю компанію, але ця модель стала для мене шоком. В’єтнамська, японська, англійська — точність висока на всіх мовах. Конкретно по японській, чисто суб’єктивно, мені здавалося, що вона випередила моделі OpenAI.
До того ж є акуратний параметр для біасингу через словник — дизайн, доброзичливий до розробників. Якість виводу така, що післяобробка взагалі не потрібна. Сьогодні в koedesk Scribe V2 використовується як модель за замовчуванням.
Без післяобробки і з якістю, що перевершує інші застосунки — принаймні за японською я готовий стверджувати це впевнено.
Моє нинішнє середовище розробки
В результаті цього шляху ШІ-інструментів, якими я користуюся щодня, на диво небагато. Claude Code і koedesk. Ось і весь склад.
Іншими словами, якщо Claude Code лежить — я не можу навіть самостійно відкрити пулл-реквест. Ось наскільки я від нього залежу.
Як написана сама ця стаття
Насправді ця стаття — демонстрація голосового вводу.
- Диктую в koedesk для розшифровки
- Прошу Claude Code причесати текст
- Claude Code працює з Git-репозиторієм і робить push
- Zenn Connect (інтеграція з GitHub) автоматично публікує
До клавіатури я майже не торкався.
Може, спробуєте голосовий ввід?
Ті, хто вже знає AquaVoice, мабуть, подумають: «А, той самий досвід». Але багато хто ще жодного разу не пробував голосовий ввід по-справжньому.
Особливо мені хочеться, щоб японськомовні користувачі відчули якість японської у ElevenLabs Scribe V2 — моделі за замовчуванням у koedesk. У koedesk є безкоштовний план — 5 хвилин на день, без обмеження за строком і без банківської картки. Якщо сподобається — тариф Pro за $10 на місяць знімає всі обмеження.
Буду радий, якщо ця стаття стане для когось першим дотиком до голосового вводу як до нового інтерфейсу введення.
І повертаючись до початку: моя маленька таємна амбіція — хочеться зробити koedesk «Happy Hacking Keyboard» у світі голосового вводу. …Жартую, перепрошую. Але, мабуть, наполовину серйозно.
Наостанок
Надалі теж хочу писати про оновлення koedesk і про поточний стан речей у Speech-to-Text.
А ще, якщо буде чим поділитися корисним, розповідатиму про прийоми, якими я щодня працюю з ШІ-агентами.
Буду радий, якщо ви залишитеся зі мною й далі.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app