Эссе

Пользуетесь ли вы голосовым вводом? — О «следующем» интерфейсе ввода после клавиатуры

4 апреля 2026 г. · by Masaki Kondo · 5 min read

Вступление — об отношении к интерфейсу ввода

Пользуетесь ли вы голосовым вводом?

В последнее время парадигма ИИ меняется стремительно, но мне кажется, что не менее интересные сдвиги происходят и в самом начале конвейера — на стороне ввода. Speech-to-Text наконец перешёл в категорию практичного, повседневного способа ввода. Для меня это ощущается как настоящий переломный момент.

Среди инженеров наверняка немало тех, кто без сожаления тратит двести-триста долларов на клавиатуру — Happy Hacking Keyboard от PFU, кастомные механики и тому подобное. Я тоже из таких: был период, когда я был буквально одержим клавиатурами. Сейчас, кстати, активно развиваются митапы по кастомной клавиатуре.

Если уж мы так трепетно относимся к клавиатуре как к интерфейсу ввода, то и к голосовому вводу как к новому интерфейсу стоит относиться не менее серьёзно. Именно об этом и эта статья.

Немного о себе

Меня зовут Masaki Kondo. Я CEO компании Guide Inc. Vietnam — IT-компании во Вьетнаме. Каждый день занимаюсь разработкой ПО, и в последнее время поставил Claude Code в самый центр своего рабочего процесса.

Если конкретно, у меня есть приватный репозиторий kondo-daily-ops, в котором Claude Code помогает мне работать с тикетами клиентов в Backlog, вести внутреннюю коммуникацию команды и журналы ежедневных работ — практически всё. Он подтягивает контекст тикета через API, поднимает историю из старых логов, запускает мои сохранённые навыки, чтобы набросать ответ, и так далее. Управляю я этим инструкциями на естественном языке.

Как вы понимаете, такие инструкции — это длинные фразы на естественном языке. Набирать их с клавиатуры — то ещё удовольствие.

Знакомство с AquaVoice

Где-то в конце 2025 года я начал пользоваться приложением голосового ввода под названием AquaVoice.

Возможность надиктовывать длинные инструкции для Claude Code оказалась куда удобнее, чем я ожидал. Голосовой ввод очень быстро стал тем, без чего я уже не могу обойтись. «Прочитай этот тикет, подними контекст из старых логов, используй вот этот навык и набросай ответ» — возможность проговорить это вслух удивительно комфортна. Стоит один раз почувствовать — и пути назад уже нет.

Почему я решил сделать своё

Скажу честно: к AquaVoice у меня не было никаких претензий. Я был им полностью доволен.

Тогда зачем я взялся писать своё? Из чистого интеллектуального любопытства.

Во-первых, мне давно хотелось сделать что-то на Rust. Подобное у меня уже было: Guidebook (генератор статических сайтов на Rust), внутрикорпоративный VPN на Headscale и так далее — инструменты, которыми я сам пользуюсь в работе и которые сделал своими руками. Точить свои собственные инструменты — это просто очень увлекательно.

Параллельно мне был интересен технический «потрох» AquaVoice. Сначала Speech-to-Text, потом постобработка через LLM — этот многоступенчатый конвейер меня заинтриговал.

Ещё до того, как я узнал об AquaVoice, меня впечатляла точность распознавания голоса в ChatGPT. Я даже занимался довольно странной вещью: диктовал в десктопное приложение ChatGPT, потом копировал текст и вставлял его в Claude Code. Вот таким был мой рабочий процесс.

И тут OpenAI выкатили gpt-4o-mini-transcribe как API. «Подожди-ка, я ведь могу собрать это сам» — вот тот самый момент-искра.

Путешествие по моделям Speech-to-Text

При разработке koedesk я перепробовал самые разные STT-модели.

Groq Whisper Large v3 Turbo — быстрый. Но немного галлюцинирует.

OpenAI GPT-4o Transcribe — точный, но галлюцинации в моменты тишины раздражают. Японский и английский тянет уверенно, но стоит подмешать английский во вьетнамский — рассыпается мгновенно. Мы делаем разработку во Вьетнаме, так что для нас это была реальная боль.

Mistral (Voxtral) — так себе.

Gemini — пробовал делать STT и постобработку одним рывком. Он так агрессивно нормализовал, что начал галлюцинировать содержимое, которого я вообще не говорил. Дикий конь.

Сложность постобработки через LLM

Чтобы компенсировать то, с чем STT в одиночку не справляется, я также проверял постобработку через LLM (удаление филлеров, применение словарей, форматирование текста). Прогнал 20 бенчмарк-сценариев на 6 моделях и увидел, что у каждой свой ярко выраженный «характер».

Семейство OpenAI: консервативно и аккуратно. Словарь применяет, но незнакомые слова не трогает. Ноль галлюцинаций.
Семейство Gemini: агрессивно и смело. По применению словаря — лучший, но переписывает знакомые ему слова на что-то «более правильное». Скажешь «Gemini 3 Flash» — а оно становится «Gemini 1.5 Flash». Чем привычнее слово, тем опаснее галлюцинация.
Семейство Claude: скромно и безопасно. Ничего не ломает, но в применении словаря не уверено.

Мой вывод: постобработка в принципе не должна быть нужна и будет сходить на нет по мере развития самих STT-моделей.

Знакомство с ElevenLabs Scribe V2

И тут я наткнулся на ElevenLabs Scribe V2.

Раньше я о компании вообще ничего не слышал, но эта модель стала для меня шоком. Вьетнамский, японский, английский — точность высока на всех языках. Конкретно по японскому, чисто субъективно, мне казалось, что она опередила модели OpenAI.

К тому же у неё есть аккуратный параметр для биасинга по словарю — дизайн, дружелюбный к разработчикам. Качество вывода такое, что постобработка вообще не нужна. Сегодня в koedesk Scribe V2 используется как модель по умолчанию.

Без постобработки и с качеством, обходящим другие приложения — по крайней мере по японскому я готов это утверждать уверенно.

Моя текущая среда разработки

В результате этого пути ИИ-инструментов, которыми я пользуюсь ежедневно, на удивление мало. Claude Code и koedesk. Вот и весь состав.

Другими словами, если Claude Code лежит — я не могу даже самостоятельно открыть пулл-реквест. Вот насколько я от него завишу.

Как написана сама эта статья

На самом деле эта статья — демонстрация голосового ввода.

Надиктовываю в koedesk для расшифровки
Прошу Claude Code причесать текст
Claude Code работает с Git-репозиторием и делает push
Zenn Connect (интеграция с GitHub) автоматически публикует

К клавиатуре я почти не прикасался.

Не попробовать ли вам голосовой ввод?

Те, кто уже знаком с AquaVoice, наверное, подумают: «А, тот самый опыт». Но многие ещё ни разу не пробовали голосовой ввод по-настоящему.

Особенно мне хочется, чтобы японскоязычные пользователи прочувствовали качество японского у ElevenLabs Scribe V2 — модели по умолчанию в koedesk. У koedesk есть бесплатный план — 5 минут в день, без срока действия и без банковской карты. Если понравится, тариф Pro за $10 в месяц снимает все ограничения.

Буду рад, если эта статья станет для кого-то первым прикосновением к голосовому вводу как к новому интерфейсу ввода.

И возвращаясь к началу: моя маленькая тайная амбиция — хочется сделать koedesk «Happy Hacking Keyboard» в мире голосового ввода. …Шучу, прошу прощения. Но, наверное, наполовину всерьёз.