Esai

Sudah pakai input suara? — Tentang antarmuka input "berikutnya" setelah keyboard

4 April 2026 · by Masaki Kondo · 6 min read

Pembuka — Soal "ketelatenan" pada antarmuka input

Apakah Anda menggunakan input suara?

Di tengah pergeseran paradigma AI yang begitu cepat, pada sisi input ke AI — pada segala bentuk antarmuka input — metode Speech-to-Text (transkripsi otomatis) sudah memasuki tahap yang benar-benar bisa dipakai sehari-hari. Bagi saya pribadi, ini terasa seperti titik belok yang besar.

Sebagai catatan, di kalangan engineer mungkin tidak sedikit yang memakai keyboard seharga dua atau tiga ratus dolar seperti Happy Hacking Keyboard dari PFU. Saya salah satunya, dan sempat sangat tergila-gila pada keyboard. Belakangan acara untuk keyboard rakitan juga makin ramai.

Kalau kita sebegitu telatennya pada keyboard sebagai antarmuka input, rasanya wajar juga jika kita telaten pada input suara sebagai antarmuka input baru. Itulah pemikiran yang melandasi tulisan ini.

Sedikit tentang saya

Nama saya Masaki Kondo. Saya CEO Guide Inc. Vietnam, sebuah perusahaan IT yang berbasis di Vietnam. Sehari-hari saya masih terlibat langsung dalam pengembangan sistem, dan belakangan saya menaruh Claude Code sebagai pusat dari cara saya bekerja.

Konkretnya, saya membuat repo privat bernama kondo-daily-ops. Mulai dari komunikasi dengan pelanggan di Backlog, komunikasi internal dengan anggota tim, sampai pengelolaan catatan kerja — pada dasarnya semuanya saya kerjakan dengan bantuan Claude Code. Saya memintanya menarik konteks tiket lewat API, mengambil konteks dari log lama, lalu menyusun balasan menggunakan skill yang sudah saya siapkan.

Seperti yang bisa Anda bayangkan, instruksi-instruksi ini berupa bahasa alami yang cukup panjang. Mengetiknya dari keyboard cukup melelahkan.

Perjumpaan dengan AquaVoice

Sekitar akhir 2025, saya mulai memakai aplikasi input suara bernama AquaVoice.

Bisa mendiktekan instruksi panjang untuk Claude Code hanya dengan berbicara. Rasanya jauh lebih nyaman dari yang saya kira, dan tak lama kemudian saya tidak bisa lepas dari input suara. "Baca tiket ini, ambil konteks dari log lama, lalu pakai skill ini untuk menyusun balasan" — kenyamanan menyampaikan instruksi seperti itu hanya dengan suara, sekali dirasakan susah balik.

Mengapa saya memutuskan membuat sendiri

Jujur saja: saya sama sekali tidak punya keluhan terhadap AquaVoice, dan saya puas dengannya.

Lalu kenapa saya membuat sendiri? Murni karena rasa ingin tahu intelektual.

Pertama, saya memang ingin membuat sesuatu dengan Rust. Sebelumnya saya sudah pernah membangun beberapa hal yang saya pakai untuk pekerjaan, misalnya Guidebook (static site generator berbasis Rust) dan VPN internal kami yang dibangun dengan Headscale. Mengasah alat sendiri, membangun alat sendiri — itu menyenangkan luar biasa.

Selain itu, saya juga penasaran dengan mekanisme teknis di balik AquaVoice. Speech-to-Text dulu, lalu post-processing oleh LLM untuk membersihkan hasilnya — pipeline berlapis itu memancing rasa ingin tahu saya.

Sebenarnya, jauh sebelum tahu AquaVoice, saya sudah terkesan dengan akurasi transkripsi input suara ChatGPT. Sampai-sampai saya pernah melakukan hal aneh: berbicara di aplikasi desktop ChatGPT, lalu menyalin teks hasil transkripsi dan menempelkannya ke Claude Code — hanya demi memasukkan instruksi ke Claude Code.

Lalu OpenAI membuka gpt-4o-mini-transcribe sebagai API. "Berarti saya bisa membuat ini sendiri?" — itulah pemicu definitifnya.

Perjalanan menjelajahi model Speech-to-Text

Selama membangun koedesk, saya mencoba berbagai model STT.

Groq Whisper Large v3 Turbo — Cepat. Tetapi ada sedikit halusinasi.

OpenAI GPT-4o Transcribe — Akurasinya tinggi, tapi halusinasi saat hening cukup mengganggu. Kuat di bahasa Jepang dan Inggris, tetapi langsung amburadul ketika ada bahasa Inggris diselipkan di tengah bahasa Vietnam. Kami mengembangkan sistem di Vietnam, jadi ini masalah yang sangat nyata bagi kami.

Mistral (Voxtral) — Agak kurang.

Gemini — Saya coba memintanya melakukan STT dan post-processing sekaligus. Ia menormalisasi dengan begitu agresif sampai berhalusinasi hal-hal yang tidak pernah saya ucapkan. Benar-benar seperti kuda liar.

Sulitnya post-processing dengan LLM

Untuk menambal bagian yang tidak bisa ditangani STT saja, saya juga menguji post-processing berbasis LLM (menghilangkan filler, menerapkan kamus, merapikan teks). Setelah menjalankan 20 pola benchmark dengan 6 model, terlihat bahwa setiap model punya "kepribadian" yang jelas.

Keluarga OpenAI: Konservatif dan hati-hati. Menerapkan kamus, tapi tidak menyentuh kata yang tidak dikenalnya. Nol halusinasi.
Keluarga Gemini: Aktif dan berani. Penerapan kamus paling tajam, tapi suka menulis ulang kata yang ia kira ia kenal menjadi sesuatu yang dianggapnya "lebih benar". Saya bilang "Gemini 3 Flash" malah diubah jadi "Gemini 1.5 Flash" — justru kata-kata yang ia kira ia tahu menjadi halusinasi paling berbahaya.
Keluarga Claude: Rendah hati dan aman. Tidak merusak apa-apa, tapi kurang percaya diri saat menerapkan kamus.

Kesimpulan saya: post-processing seharusnya tidak diperlukan, dan akan memudar seiring berkembangnya model STT itu sendiri.

Perjumpaan dengan ElevenLabs Scribe V2

Lalu saya bertemu ElevenLabs Scribe V2.

Sebelumnya saya sama sekali tidak tahu perusahaan ini, tetapi modelnya sangat mengejutkan. Bahasa Vietnam, Jepang, Inggris — akurasinya tinggi tanpa pandang bahasa. Khusus untuk bahasa Jepang, secara subjektif saya merasa ia sudah melampaui model-model OpenAI.

Tersedia juga parameter untuk kamus — desain yang ramah pengembang. Tanpa post-processing pun kualitasnya sudah lebih dari cukup. Saat ini koedesk memakai Scribe V2 sebagai model default.

Tanpa post-processing, kualitas yang melampaui aplikasi lain — setidaknya untuk bahasa Jepang, dengan percaya diri saya bisa mengatakan demikian.

Setup pengembangan saya sekarang

Setelah semua jalan panjang itu, ternyata alat AI yang saya pakai sehari-hari tidak terlalu banyak. Claude Code dan koedesk. Hanya dua itu.

Sebaliknya, kalau Claude Code mati saya bahkan tidak sanggup membuat satu pull request sendirian. Sebesar itulah ketergantungan saya.

Alur kerja dari artikel ini sendiri

Sebenarnya artikel ini sendiri adalah demonstrasi input suara.

Berbicara ke koedesk untuk ditranskripsi
Claude Code merapikan teksnya
Claude Code mengoperasikan repositori Git lalu push
Zenn Connect (integrasi GitHub) menerbitkan otomatis

Saya nyaris tidak menyentuh keyboard.

Bagaimana kalau mencoba input suara?

Bagi yang sudah tahu AquaVoice mungkin akan langsung paham, "Oh, pengalaman itu." Tetapi mungkin juga banyak yang belum pernah mencoba input suara.

Khususnya untuk pengguna bahasa Jepang, saya ingin sekali Anda merasakan langsung kualitas bahasa Jepang dari ElevenLabs Scribe V2, model default koedesk. koedesk bisa dipakai gratis selamanya dengan batas 5 menit per hari, tanpa kedaluwarsa, tanpa kartu kredit. Kalau Anda suka, paket Pro seharga 10 dolar per bulan memberi Anda transkripsi tanpa batas.

Saya akan senang sekali jika artikel ini menjadi sentuhan pertama Anda dengan input suara sebagai antarmuka input baru.

Kembali ke pembuka — sebuah ambisi diam-diam saya: saya ingin menjadikan koedesk sebagai Happy Hacking Keyboard di dunia input suara. ...Saya bercanda, maaf. Tapi setengahnya saya serius.