Esei

Anda guna input suara? — Tentang antara muka input "seterusnya" selepas papan kekunci

4 April 2026 · by Masaki Kondo · 6 min read

Pendahuluan — Mengambil berat tentang antara muka input

Adakah anda menggunakan input suara?

Di tengah anjakan paradigma AI yang sangat pantas hari ini, di pihak input kepada AI — pada segala bentuk antara muka input — kaedah Speech-to-Text (transkripsi suara) telah memasuki tahap yang benar-benar boleh digunakan secara praktikal. Saya rasa di sinilah titik perubahan yang besar berlaku.

Bagi maklumat tambahan, dalam kalangan jurutera mungkin ramai juga yang menggunakan papan kekunci berharga dua atau tiga ratus dolar seperti Happy Hacking Keyboard dari PFU. Saya juga salah seorangnya, dan pernah sangat taasub dengan papan kekunci. Akhir-akhir ini acara papan kekunci buat sendiri pun semakin meriah.

Jika kita mengambil berat sebegitu terhadap papan kekunci sebagai antara muka input, agaknya wajar juga jika kita mengambil berat terhadap input suara sebagai antara muka input baru. Daripada pemikiran itulah saya menulis artikel ini.

Sedikit tentang saya

Nama saya Masaki Kondo. Saya CEO Guide Inc. Vietnam, sebuah syarikat IT yang berpangkalan di Vietnam. Setiap hari saya masih terlibat dalam pembangunan sistem, dan baru-baru ini saya meletakkan Claude Code sebagai pusat cara saya bekerja.

Lebih khusus, saya membuat satu repositori peribadi bernama kondo-daily-ops. Daripada urusan dengan pelanggan melalui Backlog, komunikasi dalaman bersama ahli pasukan, sehingga pengurusan log kerja — pada dasarnya semuanya dibantu oleh Claude Code. Saya memintanya menarik konteks tiket melalui API, mengambil konteks daripada log lalu, kemudian menyusun jawapan menggunakan skill yang telah disediakan.

Seperti yang anda bayangkan, arahan-arahan ini ialah ayat bahasa tabii yang agak panjang. Mengetiknya menggunakan papan kekunci agak meletihkan.

Perjumpaan dengan AquaVoice

Sekitar penghujung tahun 2025, saya mula menggunakan satu aplikasi input suara bernama AquaVoice.

Dapat mendiktekan arahan panjang kepada Claude Code hanya dengan bercakap. Rasanya jauh lebih selesa daripada jangkaan saya, dan tidak lama kemudian saya benar-benar tidak boleh lepas daripada input suara. "Baca tiket ini, ambil konteks dari log lama, dan gunakan skill ini untuk menyusun jawapan" — keselesaan menyampaikan arahan begitu hanya melalui suara, sekali dirasai sukar untuk kembali ke kaedah lama.

Mengapa saya memutuskan untuk membinanya sendiri

Sejujurnya: saya tidak ada sebarang aduan terhadap AquaVoice, dan saya sangat berpuas hati dengannya.

Jadi mengapa saya membinanya sendiri? Jawapannya, semata-mata kerana keingintahuan intelektual.

Pertama, saya memang ingin membina sesuatu menggunakan Rust. Sebelum ini saya pernah membina beberapa alat yang saya guna untuk kerja seperti Guidebook (penjana laman web statik berasaskan Rust) dan VPN dalaman (Headscale). Mengasah alat sendiri, membina alat sendiri — itu menyeronokkan tiada tolok bandingnya.

Selain itu, saya juga ingin tahu tentang mekanisme teknikal di sebalik AquaVoice. Speech-to-Text dahulu, kemudian post-processing oleh LLM untuk membersihkan teks — saluran berlapis itu memang menggerakkan rasa ingin tahu saya.

Sebenarnya, jauh sebelum mengenal AquaVoice, saya sudah terpegun dengan ketepatan transkripsi input suara ChatGPT. Sehinggakan saya pernah melakukan perkara yang agak pelik: bercakap kepada aplikasi desktop ChatGPT, kemudian menyalin teks hasil transkripsi dan menampalkannya ke dalam Claude Code — hanya kerana mahu memasukkan arahan kepada Claude Code.

Kemudian OpenAI membuka gpt-4o-mini-transcribe sebagai API. "Ini bermakna saya boleh bina sendiri, bukan?" — itulah pencetus yang menentukan.

Perjalanan menjelajahi model Speech-to-Text

Sepanjang membangunkan koedesk, saya telah mencuba pelbagai model STT.

Groq Whisper Large v3 Turbo — Pantas. Tetapi ada sedikit halusinasi.

OpenAI GPT-4o Transcribe — Ketepatannya tinggi, tetapi halusinasi semasa senyap agak mengganggu. Kuat untuk bahasa Jepun dan Inggeris, tetapi serta-merta hancur apabila ada perkataan Inggeris bercampur dalam ayat Vietnam. Kami membangunkan sistem di Vietnam, jadi ini masalah yang sangat nyata bagi kami.

Mistral (Voxtral) — Agak kurang memuaskan.

Gemini — Saya cuba memintanya melakukan STT dan post-processing sekali gus. Ia menormalkan dengan terlalu agresif sehingga berhalusinasi perkara yang tidak pernah saya sebut. Benar-benar seperti kuda liar.

Kesukaran post-processing menggunakan LLM

Untuk menampung apa yang tidak mampu ditangani oleh STT semata-mata, saya juga menguji post-processing berasaskan LLM (membuang filler, menerapkan kamus, mengemas teks). Selepas menjalankan 20 corak penanda aras dengan 6 model, ternyata setiap model mempunyai "perwatakan" yang jelas.

Keluarga OpenAI: Konservatif dan berhati-hati. Menerapkan kamus, tetapi tidak menyentuh perkataan yang tidak dikenalinya. Sifar halusinasi.
Keluarga Gemini: Aktif dan berani. Penerapan kamus paling kuat, tetapi suka menulis semula perkataan yang ia sangka dikenalinya kepada sesuatu yang dianggapnya "lebih betul". Saya sebut "Gemini 3 Flash" tetapi ia tukar menjadi "Gemini 1.5 Flash" — perkataan yang ia sangka dikenalinya itulah yang menjadi halusinasi paling bahaya.
Keluarga Claude: Merendah diri dan selamat. Tidak merosakkan apa-apa, tetapi kurang yakin semasa menerapkan kamus.

Kesimpulan saya: post-processing pada asalnya tidak sepatutnya diperlukan, dan akan luput seiring dengan kemajuan model STT itu sendiri.

Perjumpaan dengan ElevenLabs Scribe V2

Kemudian, saya bertemu dengan ElevenLabs Scribe V2.

Sebelum ini saya langsung tidak pernah mendengar tentang syarikat ini, tetapi model mereka sangat mengejutkan. Bahasa Vietnam, Jepun, Inggeris — ketepatannya tinggi tanpa mengira bahasa. Khusus untuk bahasa Jepun, secara subjektif, saya rasa ia sudah melepasi model-model OpenAI.

Tersedia juga parameter untuk kamus — reka bentuk yang mesra pembangun. Tanpa post-processing pun kualitinya sudah lebih daripada mencukupi. Kini koedesk menggunakan Scribe V2 sebagai model lalai.

Tanpa post-processing dan dengan kualiti yang melepasi aplikasi lain — sekurang-kurangnya untuk bahasa Jepun, saya berani berkata begitu.

Persekitaran pembangunan saya kini

Selepas semua perjalanan itu, alat AI yang saya guna setiap hari sebenarnya tidak banyak. Claude Code dan koedesk. Hanya dua sahaja.

Sebaliknya, jika Claude Code tumbang, saya tidak mampu membuat satu pun pull request secara bersendirian. Sebesar itulah pergantungan saya.

Aliran kerja artikel ini sendiri

Sebenarnya artikel ini sendiri pun adalah satu demonstrasi input suara.

Bercakap kepada koedesk untuk ditranskripsi
Claude Code mengemas teksnya
Claude Code mengendalikan repositori Git lalu push
Zenn Connect (integrasi GitHub) menerbitkannya secara automatik

Saya hampir tidak menyentuh papan kekunci.

Apa kata cuba input suara?

Mereka yang sudah mengenali AquaVoice mungkin akan terus berkata, "Ah, pengalaman itu." Tetapi mungkin juga masih ramai yang belum pernah mencuba input suara.

Khusus untuk pengguna bahasa Jepun, saya benar-benar mahu anda merasakan sendiri kualiti bahasa Jepun ElevenLabs Scribe V2, model lalai koedesk. koedesk boleh digunakan secara percuma selamanya dengan had 5 minit sehari, tanpa tarikh luput, tanpa kad kredit. Jika anda menyukainya, pelan Pro pada harga 10 dolar sebulan memberi anda transkripsi tanpa had.

Saya akan sangat gembira jika artikel ini menjadi sentuhan pertama anda dengan input suara sebagai antara muka input baru.

Kembali kepada pembukaan — sebuah cita-cita rahsia saya: saya ingin menjadikan koedesk sebagai Happy Hacking Keyboard untuk dunia input suara. ...Saya bergurau, maaf. Tetapi separuhnya saya serius.