音声入力、使っていますか? — キーボードの「次」の入力インターフェースの話
はじめに — 入力インターフェースへの「こだわり」
皆さんは、音声入力を使っていますか?
AIのパラダイムシフトが激しい昨今ですが、AIへの入力 — ありとあらゆる入力のインターフェースにおいて、Speech-to-Text(文字起こし)という新しい入力手段が実用段階に入ってきています。ここには大きな転換点があると、私は感じています。
ところで、エンジニアの皆さんの中には、PFUのHappy Hacking Keyboardをはじめ、2万円、3万円するようなキーボードを使っている方も多いのではないでしょうか。私もその一人で、一時期はキーボードにかなりこだわっていました。最近では自作キーボードのイベントも盛り上がっていますよね。
キーボードという入力インターフェースにこだわるのと同じように、音声入力という入力インターフェースにも、こだわってみてもいいんじゃないか。そんなことを思い、この記事を書いています。
自己紹介
近藤政貴と申します。Guide Inc. VietnamというベトナムのIT企業でCEOをしています。日常的にシステム開発に携わっていて、最近はClaude Codeを業務の中心に据えて仕事をしています。
具体的には、kondo-daily-opsというプライベートリポジトリを作って、Backlogでのお客様とのやりとりや、社内メンバーとのコミュニケーション、作業ログの管理まで、基本的に全部Claude Codeに手伝ってもらっています。チケットの背景をAPIで取得して、過去のログからコンテキストを拾って、スキル化した処理で回答を作って……といった指示を日々出しています。
お察しの通り、これらの指示は自然言語で、しかも結構長い文章になります。キーボードで打つには、なかなか大変です。
AquaVoiceとの出会い
2025年末頃、AquaVoiceという音声入力アプリを使い始めました。
Claude Codeへの長い指示を、喋るだけで入力できる。これが思った以上に手馴染みがよくて、あっという間に音声入力が手放せなくなりました。「このチケットを見て、過去ログからコンテキストを拾って、このスキルを使って回答を作ってほしい」——こういった指示が、喋るだけで出せる快適さ。一度体験すると、もう戻れません。
なぜ自分で作ろうと思ったのか
正直に言います。AquaVoiceには全く不満がなかったし、満足していました。
じゃあなぜ自分で作ったのか。答えは、純粋な知的好奇心です。
まず、私はRustで何かアプリケーションを作りたいと思っていました。これまでにもGuidebook(Rust製の静的サイトジェネレータ)や社内VPN(Headscale)の構築など、自分が業務で使うものを自分で作ってきた経験があります。自分の道具を自分で磨いて作る。これがとにかく楽しいんです。
加えて、AquaVoiceの技術的な仕組みにも興味がありました。Speech-to-Textで文字起こしして、LLMで後処理して綺麗にする——この多段パイプラインへの好奇心です。
実はAquaVoiceを知る以前から、ChatGPTの音声入力の文字起こし精度の高さには驚いていました。Claude Codeに入力するためにわざわざChatGPTのデスクトップアプリで喋って、文字起こしされたテキストをコピーしてClaude Codeに貼り付ける——そんなトリッキーなことまでやっていたくらいです。
そこにOpenAIのgpt-4o-mini-transcribeがAPIとして使えるようになった。「これを使って自分で作れるのでは?」——これが決定的なきっかけでした。
Speech-to-Textモデルの旅
koedeskの開発では、さまざまなSTTモデルを試しました。
Groq Whisper Large v3 Turbo — 速い。ただ、少しハルシネーション(幻覚)がある。
OpenAI GPT-4o Transcribe — 精度は高いが、無音時のハルシネーションが気になる。日本語や英語は強いけれど、例えばベトナム語の中に英語が混ざるようなケースでは途端に壊れる。私たちはベトナムでシステム開発をしているので、これは切実な問題でした。
Mistral (Voxtral) — 少しイマイチ。
Gemini — STTと後処理を一気にやらせてみたところ、大胆に正規化しすぎて、言っていないことまでハルシネーションしてしまう。暴れ馬でした。
LLM後処理の難しさ
STT単独では難しい部分を補うため、LLMによる後処理(フィラー除去、辞書適用、テキスト整形)も検証しました。6つのモデルで20パターンのベンチマークを実施した結果、各モデルに明確な「性格」があることがわかりました。
- OpenAI系: 保守的で慎重。辞書は適用するが、知らない単語は触らない。ハルシネーション0件
- Gemini系: 積極的で大胆。辞書適用は最強だが、知っている単語を「より正しい」ものに勝手に書き換える。「Gemini 3 Flash」と言ったのに「Gemini 1.5 Flash」に修正されるような、知っている単語ほど危険なハルシネーションが発生
- Claude系: 謙虚で安全。壊しはしないが、辞書適用に自信がない
結論として、後処理は本来不要なもので、STTモデル自体の発展に伴って不要になっていくだろうと考えました。
ElevenLabs Scribe V2との出会い
そして出会ったのが、ElevenLabs Scribe V2です。
それまで全く知らない会社だったのですが、このモデルは衝撃的でした。ベトナム語、日本語、英語——言語を問わず文字起こし精度が高い。日本語においても、体感ベースではありますが、OpenAIのモデルを凌駕していると感じるレベルでした。
辞書用のパラメータも用意されていて、開発者にとって扱いやすい設計。後処理を入れなくても十分な品質が出る。koedeskでは現在、このScribe V2をデフォルトモデルとして採用しています。
後処理なしで、他のアプリを凌駕する品質のものができた——少なくとも日本語においては、そう自負しています。
今の私の開発環境
こういった経緯を経て、今の私の日常で使うAIツールは、実はそんなに多くありません。Claude Codeとkoedesk。この2本立てです。
逆に言うと、Claude Codeがこけたらプルリクエスト1つ自力で作れない。それくらい依存しています。
この記事自体のワークフロー
実はこの記事自体が、音声入力のデモンストレーションになっています。
- koedeskで喋って文字起こし
- Claude Codeで文面を清書
- Claude CodeがGitリポジトリを操作してpush
- Zenn Connect(GitHub連携)で自動公開
キーボードはほとんど触っていません。
音声入力、試してみませんか
AquaVoiceをご存知の方なら「ああ、あの体験ね」とピンとくるかもしれません。でも、まだ音声入力を体験したことがない方も多いのではないでしょうか。
特に日本語ユーザーの方には、koedeskのデフォルトモデルであるElevenLabs Scribe V2の日本語品質をぜひ体感していただきたいです。koedeskは1日5分まで、期限なし・クレジットカード不要でずっと無料で使えます。気に入っていただけたら、月10ドルのProプランで文字起こしが無制限になります。
この記事が、音声入力という新しい入力インターフェースに触れるきっかけになれたら嬉しいです。
冒頭の話に戻りますが、私の密かな野望を一つ。koedeskを、音声入力界のHappy Hacking Keyboardにしたい。……冗談です、すみません。でも、半分は本気です。
おわりに
今後もkoedeskのアップデート情報や、昨今のSpeech-to-Textの状況などを紹介する記事を書いていきたいと思っています。
また、私が普段の業務でAIエージェントを使う際のテクニックなども、何か皆さんに有用なものがあれば、こういった形でお話ししていきたいと思っています。
もしよろしければ、今後ともお付き合いいただけると嬉しいです。
近藤政貴 — Guide Inc. Vietnam CEO https://koedesk.app