Tản văn

Bạn đã dùng nhập liệu bằng giọng nói chưa? — Về giao diện nhập liệu "kế tiếp" sau bàn phím

4 tháng 4, 2026 · by Masaki Kondo · 7 min read

Mở đầu — Sự "kén chọn" với giao diện nhập liệu

Mọi người có dùng nhập liệu bằng giọng nói không?

Giữa lúc AI đang thay đổi mạnh mẽ từng ngày, ở đầu vào của AI — tức ở mọi loại giao diện nhập liệu — phương thức Speech-to-Text (chuyển giọng nói thành văn bản) đã bước sang giai đoạn thực sự dùng được. Cá nhân tôi cảm thấy đây là một bước ngoặt lớn.

Nhân tiện, trong giới kỹ sư hẳn không ít người đang dùng những bàn phím trị giá hai, ba trăm đô như Happy Hacking Keyboard của PFU. Tôi cũng là một trong số đó, đã có một thời mê bàn phím đến mức kỹ tính. Gần đây các sự kiện về bàn phím tự ráp cũng đang rất sôi động.

Nếu chúng ta kén chọn với bàn phím như một giao diện nhập liệu đến vậy, thì cũng đáng để kén chọn với nhập liệu bằng giọng nói chứ nhỉ. Đó là lý do tôi viết bài này.

Đôi nét về tôi

Tôi là Masaki Kondo. Tôi đang làm CEO của Guide Inc. Vietnam, một công ty IT tại Việt Nam. Hằng ngày tôi vẫn trực tiếp tham gia phát triển hệ thống, và gần đây tôi đặt Claude Code vào vị trí trung tâm của công việc.

Cụ thể, tôi tạo một repo riêng tên là kondo-daily-ops, để Claude Code phụ trách gần như toàn bộ: trao đổi với khách hàng trên Backlog, giao tiếp nội bộ với thành viên trong công ty, quản lý nhật ký công việc... Tôi giao việc cho nó hằng ngày — kéo bối cảnh ticket qua API, lấy ngữ cảnh từ các log cũ, dùng các kỹ năng đã được đóng gói để soạn câu trả lời.

Như mọi người đoán, các chỉ thị đó là ngôn ngữ tự nhiên, mà lại còn khá dài. Gõ bàn phím thì khá vất vả.

Lần gặp gỡ AquaVoice

Khoảng cuối năm 2025, tôi bắt đầu dùng một ứng dụng nhập liệu giọng nói tên là AquaVoice.

Có thể đọc các chỉ thị dài cho Claude Code chỉ bằng cách nói. Cảm giác vừa tay vượt cả mong đợi, và chẳng mấy chốc tôi không thể rời nhập liệu giọng nói nữa. "Hãy xem ticket này, lấy ngữ cảnh từ log cũ, dùng kỹ năng này để soạn câu trả lời" — cái thoải mái khi giao kiểu chỉ thị đó chỉ bằng giọng nói, một khi đã trải qua thì khó mà quay lại.

Vì sao tôi quyết định tự làm

Thành thật mà nói: tôi hoàn toàn không có gì để chê AquaVoice, và rất hài lòng với nó.

Vậy thì tại sao tự làm? Câu trả lời là tò mò tri thức thuần túy.

Trước hết, tôi vẫn muốn tự làm một ứng dụng gì đó bằng Rust. Trước đây tôi đã làm những thứ mình dùng cho công việc như Guidebook (trình sinh trang tĩnh viết bằng Rust) hay VPN nội bộ (Headscale). Tự mài sắc, tự tạo nên công cụ của mình — điều đó vui không gì bằng.

Thêm nữa, tôi cũng tò mò về cơ chế kỹ thuật bên trong AquaVoice. Speech-to-Text rồi tới hậu xử lý bằng LLM để làm sạch — sự tò mò với pipeline nhiều tầng đó.

Thực ra, từ trước khi biết tới AquaVoice, tôi đã sửng sốt vì độ chính xác của nhập liệu giọng nói trong ChatGPT. Tôi từng làm cái việc khá kỳ cục là mở ứng dụng desktop của ChatGPT để nói, rồi copy phần văn bản đã chuyển và dán vào Claude Code — chỉ vì muốn nhập cho Claude Code.

Rồi gpt-4o-mini-transcribe của OpenAI được mở qua API. "Vậy mình có thể tự làm cái này được mà?" — đó là tia lửa quyết định.

Cuộc dạo chơi qua các mô hình Speech-to-Text

Trong quá trình phát triển koedesk, tôi đã thử rất nhiều mô hình STT.

Groq Whisper Large v3 Turbo — Nhanh. Nhưng hơi ảo giác (hallucination).

OpenAI GPT-4o Transcribe — Độ chính xác cao, nhưng ảo giác khi yên lặng thì khó chịu. Mạnh ở tiếng Nhật và tiếng Anh, nhưng vỡ trận ngay khi có tiếng Anh trộn vào câu tiếng Việt. Chúng tôi phát triển hệ thống ở Việt Nam, nên đây là vấn đề nóng bỏng.

Mistral (Voxtral) — Hơi đuối.

Gemini — Tôi thử để nó vừa làm STT vừa hậu xử lý trong một lần. Nó chuẩn hóa mạnh tay đến mức ảo giác cả những thứ tôi không nói. Như một con ngựa hoang.

Cái khó của hậu xử lý bằng LLM

Để bù phần STT đơn thuần không kham nổi, tôi cũng kiểm chứng hậu xử lý bằng LLM (loại bỏ từ đệm, áp từ điển, định dạng văn bản). Sau khi chạy 20 mẫu benchmark với 6 mô hình, tôi nhận ra mỗi mô hình có một "tính cách" rất rõ.

Họ OpenAI: Bảo thủ và cẩn trọng. Có áp từ điển, nhưng những từ không biết thì không đụng vào. 0 ca ảo giác.
Họ Gemini: Chủ động và bạo dạn. Áp từ điển mạnh nhất, nhưng tự ý viết lại những từ nó "biết" thành thứ "đúng hơn". Tôi nói "Gemini 3 Flash" mà nó sửa thành "Gemini 1.5 Flash" — những từ mà mô hình tưởng là biết lại càng dễ sinh ra ảo giác nguy hiểm.
Họ Claude: Khiêm tốn và an toàn. Không phá hỏng gì, nhưng kém tự tin khi áp từ điển.

Kết luận của tôi: hậu xử lý vốn là thứ không nên cần đến, và sẽ dần mất đi khi bản thân các mô hình STT tiếp tục phát triển.

Gặp ElevenLabs Scribe V2

Rồi tôi gặp ElevenLabs Scribe V2.

Trước đó tôi chưa từng nghe tới công ty này, vậy mà mô hình của họ làm tôi choáng. Tiếng Việt, tiếng Nhật, tiếng Anh — không kén ngôn ngữ, độ chính xác đều cao. Riêng với tiếng Nhật, theo cảm nhận chủ quan, tôi thấy nó đã vượt qua các mô hình của OpenAI.

Nó còn có sẵn tham số cho từ điển — thiết kế thân thiện với lập trình viên. Không cần hậu xử lý mà chất lượng vẫn dư dùng. Hiện tại koedesk dùng Scribe V2 làm mô hình mặc định.

Không cần hậu xử lý mà chất lượng vẫn vượt các app khác — ít nhất với tiếng Nhật, tôi tự tin nói như vậy.

Môi trường phát triển hiện tại của tôi

Sau tất cả những đoạn đường đó, các công cụ AI tôi thực sự dùng hằng ngày bây giờ ít một cách bất ngờ. Claude Code và koedesk. Chỉ có hai.

Nói ngược lại, nếu Claude Code mà hỏng thì tôi không tự mở nổi lấy một pull request. Tôi phụ thuộc tới mức đó.

Quy trình viết chính bài này

Thực ra bài viết này chính là một màn trình diễn của nhập liệu giọng nói.

Nói vào koedesk để chuyển thành văn bản
Nhờ Claude Code chỉnh trang câu chữ
Claude Code thao tác kho Git rồi push
Zenn Connect (liên kết GitHub) tự động xuất bản

Hầu như tôi không động vào bàn phím.

Thử dùng nhập liệu giọng nói chứ?

Người đã biết AquaVoice có lẽ sẽ "À, cái trải nghiệm đó". Nhưng chắc cũng có nhiều người chưa từng thử nhập liệu giọng nói.

Đặc biệt với người dùng tiếng Nhật, tôi rất muốn các bạn tự cảm nhận chất lượng tiếng Nhật của ElevenLabs Scribe V2 — mô hình mặc định của koedesk. koedesk có thể dùng miễn phí mãi mãi với giới hạn 5 phút mỗi ngày, không hết hạn, không cần thẻ tín dụng. Nếu thấy thích, gói Pro 10 đô/tháng cho phép chuyển giọng nói không giới hạn.

Nếu bài viết này trở thành cú chạm tay đầu tiên của ai đó với giao diện nhập liệu mới mang tên nhập liệu giọng nói, tôi sẽ rất vui.

Quay lại câu chuyện ở đầu bài, một tham vọng thầm kín của tôi: tôi muốn biến koedesk thành Happy Hacking Keyboard của giới nhập liệu giọng nói. ...Tôi đùa thôi, xin lỗi. Nhưng cũng nghiêm túc một nửa.