Пользуетесь ли вы голосовым вводом? — О «следующем» интерфейсе ввода после клавиатуры
Вступление — об отношении к интерфейсу ввода
Пользуетесь ли вы голосовым вводом?
В последнее время парадигма ИИ меняется стремительно, но мне кажется, что не менее интересные сдвиги происходят и в самом начале конвейера — на стороне ввода. Speech-to-Text наконец перешёл в категорию практичного, повседневного способа ввода. Для меня это ощущается как настоящий переломный момент.
Среди инженеров наверняка немало тех, кто без сожаления тратит двести-триста долларов на клавиатуру — Happy Hacking Keyboard от PFU, кастомные механики и тому подобное. Я тоже из таких: был период, когда я был буквально одержим клавиатурами. Сейчас, кстати, активно развиваются митапы по кастомной клавиатуре.
Если уж мы так трепетно относимся к клавиатуре как к интерфейсу ввода, то и к голосовому вводу как к новому интерфейсу стоит относиться не менее серьёзно. Именно об этом и эта статья.
Немного о себе
Меня зовут Masaki Kondo. Я CEO компании Guide Inc. Vietnam — IT-компании во Вьетнаме. Каждый день занимаюсь разработкой ПО, и в последнее время поставил Claude Code в самый центр своего рабочего процесса.
Если конкретно, у меня есть приватный репозиторий kondo-daily-ops, в котором Claude Code помогает мне работать с тикетами клиентов в Backlog, вести внутреннюю коммуникацию команды и журналы ежедневных работ — практически всё. Он подтягивает контекст тикета через API, поднимает историю из старых логов, запускает мои сохранённые навыки, чтобы набросать ответ, и так далее. Управляю я этим инструкциями на естественном языке.
Как вы понимаете, такие инструкции — это длинные фразы на естественном языке. Набирать их с клавиатуры — то ещё удовольствие.
Знакомство с AquaVoice
Где-то в конце 2025 года я начал пользоваться приложением голосового ввода под названием AquaVoice.
Возможность надиктовывать длинные инструкции для Claude Code оказалась куда удобнее, чем я ожидал. Голосовой ввод очень быстро стал тем, без чего я уже не могу обойтись. «Прочитай этот тикет, подними контекст из старых логов, используй вот этот навык и набросай ответ» — возможность проговорить это вслух удивительно комфортна. Стоит один раз почувствовать — и пути назад уже нет.
Почему я решил сделать своё
Скажу честно: к AquaVoice у меня не было никаких претензий. Я был им полностью доволен.
Тогда зачем я взялся писать своё? Из чистого интеллектуального любопытства.
Во-первых, мне давно хотелось сделать что-то на Rust. Подобное у меня уже было: Guidebook (генератор статических сайтов на Rust), внутрикорпоративный VPN на Headscale и так далее — инструменты, которыми я сам пользуюсь в работе и которые сделал своими руками. Точить свои собственные инструменты — это просто очень увлекательно.
Параллельно мне был интересен технический «потрох» AquaVoice. Сначала Speech-to-Text, потом постобработка через LLM — этот многоступенчатый конвейер меня заинтриговал.
Ещё до того, как я узнал об AquaVoice, меня впечатляла точность распознавания голоса в ChatGPT. Я даже занимался довольно странной вещью: диктовал в десктопное приложение ChatGPT, потом копировал текст и вставлял его в Claude Code. Вот таким был мой рабочий процесс.
И тут OpenAI выкатили gpt-4o-mini-transcribe как API. «Подожди-ка, я ведь могу собрать это сам» — вот тот самый момент-искра.
Путешествие по моделям Speech-to-Text
При разработке koedesk я перепробовал самые разные STT-модели.
Groq Whisper Large v3 Turbo — быстрый. Но немного галлюцинирует.
OpenAI GPT-4o Transcribe — точный, но галлюцинации в моменты тишины раздражают. Японский и английский тянет уверенно, но стоит подмешать английский во вьетнамский — рассыпается мгновенно. Мы делаем разработку во Вьетнаме, так что для нас это была реальная боль.
Mistral (Voxtral) — так себе.
Gemini — пробовал делать STT и постобработку одним рывком. Он так агрессивно нормализовал, что начал галлюцинировать содержимое, которого я вообще не говорил. Дикий конь.
Сложность постобработки через LLM
Чтобы компенсировать то, с чем STT в одиночку не справляется, я также проверял постобработку через LLM (удаление филлеров, применение словарей, форматирование текста). Прогнал 20 бенчмарк-сценариев на 6 моделях и увидел, что у каждой свой ярко выраженный «характер».
- Семейство OpenAI: консервативно и аккуратно. Словарь применяет, но незнакомые слова не трогает. Ноль галлюцинаций.
- Семейство Gemini: агрессивно и смело. По применению словаря — лучший, но переписывает знакомые ему слова на что-то «более правильное». Скажешь «Gemini 3 Flash» — а оно становится «Gemini 1.5 Flash». Чем привычнее слово, тем опаснее галлюцинация.
- Семейство Claude: скромно и безопасно. Ничего не ломает, но в применении словаря не уверено.
Мой вывод: постобработка в принципе не должна быть нужна и будет сходить на нет по мере развития самих STT-моделей.
Знакомство с ElevenLabs Scribe V2
И тут я наткнулся на ElevenLabs Scribe V2.
Раньше я о компании вообще ничего не слышал, но эта модель стала для меня шоком. Вьетнамский, японский, английский — точность высока на всех языках. Конкретно по японскому, чисто субъективно, мне казалось, что она опередила модели OpenAI.
К тому же у неё есть аккуратный параметр для биасинга по словарю — дизайн, дружелюбный к разработчикам. Качество вывода такое, что постобработка вообще не нужна. Сегодня в koedesk Scribe V2 используется как модель по умолчанию.
Без постобработки и с качеством, обходящим другие приложения — по крайней мере по японскому я готов это утверждать уверенно.
Моя текущая среда разработки
В результате этого пути ИИ-инструментов, которыми я пользуюсь ежедневно, на удивление мало. Claude Code и koedesk. Вот и весь состав.
Другими словами, если Claude Code лежит — я не могу даже самостоятельно открыть пулл-реквест. Вот насколько я от него завишу.
Как написана сама эта статья
На самом деле эта статья — демонстрация голосового ввода.
- Надиктовываю в koedesk для расшифровки
- Прошу Claude Code причесать текст
- Claude Code работает с Git-репозиторием и делает push
- Zenn Connect (интеграция с GitHub) автоматически публикует
К клавиатуре я почти не прикасался.
Не попробовать ли вам голосовой ввод?
Те, кто уже знаком с AquaVoice, наверное, подумают: «А, тот самый опыт». Но многие ещё ни разу не пробовали голосовой ввод по-настоящему.
Особенно мне хочется, чтобы японскоязычные пользователи прочувствовали качество японского у ElevenLabs Scribe V2 — модели по умолчанию в koedesk. У koedesk есть бесплатный план — 5 минут в день, без срока действия и без банковской карты. Если понравится, тариф Pro за $10 в месяц снимает все ограничения.
Буду рад, если эта статья станет для кого-то первым прикосновением к голосовому вводу как к новому интерфейсу ввода.
И возвращаясь к началу: моя маленькая тайная амбиция — хочется сделать koedesk «Happy Hacking Keyboard» в мире голосового ввода. …Шучу, прошу прощения. Но, наверное, наполовину всерьёз.
Завершая
В дальнейшем тоже хочу писать про апдейты koedesk и про текущее положение дел в Speech-to-Text.
А ещё, если найдётся что-то полезное, буду рассказывать о приёмах, которыми я ежедневно работаю с ИИ-агентами.
Буду рад, если останетесь со мной и дальше.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app