Czy używasz wprowadzania głosowego? — O „następnym po klawiaturze” interfejsie wprowadzania
Wstęp — „przywiązanie” do interfejsu wprowadzania
Czy używasz wprowadzania głosowego?
W czasach gwałtownej zmiany paradygmatu związanej z AI, w warstwie wprowadzania danych do AI — w każdej możliwej formie wprowadzania — Speech-to-Text (transkrypcja mowy) wchodzi w fazę praktycznej użyteczności jako nowy sposób komunikacji z komputerem. Czuję, że to wielki punkt zwrotny.
Przy okazji — wielu inżynierów pewnie używa klawiatur za 20 czy 30 tysięcy jenów, jak chociażby Happy Hacking Keyboard od PFU. Ja też do nich należałem; przez jakiś czas naprawdę przywiązywałem się do klawiatur. Ostatnio kwitnie też scena klawiatur własnoręcznie składanych.
Skoro tak bardzo przywiązujemy się do klawiatury jako interfejsu wprowadzania, to może warto przywiązać się również do wprowadzania głosowego. Z taką myślą piszę ten tekst.
O mnie
Nazywam się Masaki Kondo. Pełnię funkcję CEO w Guide Inc. Vietnam, wietnamskiej firmie IT. Codziennie zajmuję się tworzeniem systemów, a ostatnio postawiłem Claude Code w samym centrum mojego warsztatu pracy.
Konkretnie: stworzyłem prywatne repozytorium kondo-daily-ops, w którym zasadniczo wszystko — komunikację z klientami w Backlogu, rozmowy z zespołem, prowadzenie logów pracy — powierzam Claude Code. Pobieranie kontekstu zgłoszenia przez API, wyciąganie kontekstu z poprzednich logów, generowanie odpowiedzi z pomocą wcześniej skodyfikowanych „umiejętności” — takie polecenia wydaję codziennie.
Jak łatwo się domyślić, te polecenia są w języku naturalnym i bywają dość długie. Wpisywanie ich z klawiatury robi się męczące.
Spotkanie z AquaVoice
Pod koniec 2025 roku zacząłem używać aplikacji do wprowadzania głosowego o nazwie AquaVoice.
Długie polecenia dla Claude Code mogłem po prostu wypowiedzieć. To okazało się o wiele wygodniejsze, niż się spodziewałem, i błyskawicznie nie mogłem już bez tego żyć. „Spójrz na to zgłoszenie, wyciągnij kontekst z poprzednich logów i przygotuj odpowiedź, używając tej umiejętności” — tego typu instrukcje wystarczy wypowiedzieć na głos. Kiedy raz tego doświadczysz, nie ma odwrotu.
Dlaczego postanowiłem zrobić to sam
Powiem szczerze: do AquaVoice nie miałem żadnych zastrzeżeń, byłem zadowolony.
Więc dlaczego zrobiłem własny? Odpowiedź: czysta intelektualna ciekawość.
Po pierwsze, od dawna chciałem napisać jakąś aplikację w Ruście. Wcześniej sam zbudowałem na własny użytek między innymi Guidebook (statyczny generator stron w Ruście) oraz wewnątrzfirmowe VPN (Headscale). Szlifowanie i budowanie własnych narzędzi — to jest po prostu świetna zabawa.
Po drugie, interesowała mnie sama architektura AquaVoice. Speech-to-Text robi transkrypcję, a potem LLM doszlifowuje wynik — ta wielostopniowa pipeline budziła moją ciekawość.
Prawdę mówiąc, jeszcze zanim poznałem AquaVoice, byłem pod wrażeniem jakości transkrypcji w wprowadzaniu głosowym ChatGPT. Posuwałem się nawet do takich sztuczek, jak mówienie do aplikacji desktopowej ChatGPT tylko po to, by skopiować transkrybowany tekst i wkleić go do Claude Code.
I właśnie wtedy gpt-4o-mini-transcribe od OpenAI stał się dostępny przez API. „Skoro tak — to może zrobię to sam?” — to był ten przełomowy moment.
Wędrówka przez modele Speech-to-Text
W trakcie pracy nad koedesk wypróbowałem wiele różnych modeli STT.
Groq Whisper Large v3 Turbo — szybki. Ale lekko halucynuje.
OpenAI GPT-4o Transcribe — wysoka dokładność, ale halucynacje w ciszy są irytujące. Jest mocny w japońskim i angielskim, ale przy mieszance wietnamskiego z angielskim — pęka. Tworzymy systemy w Wietnamie, więc dla nas to był realny problem.
Mistral (Voxtral) — średnio.
Gemini — gdy próbowałem powierzyć mu STT i postprocessing naraz, normalizował zbyt brawurowo i halucynował rzeczy, których nigdy nie powiedziałem. Dziki rumak.
Trudności z postprocessingiem przez LLM
Aby załatać to, czego nie da się zrobić samym STT, przetestowałem także postprocessing przez LLM (usuwanie wypełniaczy, stosowanie słownika, formatowanie tekstu). Przy benchmarku obejmującym 6 modeli i 20 scenariuszy okazało się, że każdy model ma wyraźny „charakter”.
- Modele OpenAI: ostrożne i zachowawcze. Stosują słownik, ale nieznanych słów nie ruszają. Halucynacje: 0.
- Modele Gemini: agresywne i odważne. Najlepsze w stosowaniu słownika, ale samowolnie „poprawiają” znane słowa na „bardziej poprawne”. Powiedzieć „Gemini 3 Flash” i dostać poprawkę na „Gemini 1.5 Flash” — im bardziej znane słowo, tym groźniejsza halucynacja.
- Modele Claude: skromne i bezpieczne. Niczego nie psują, ale brakuje im pewności przy stosowaniu słownika.
Wniosek: postprocessing to właściwie zło konieczne, które wraz z rozwojem samych modeli STT powinno zniknąć.
Spotkanie z ElevenLabs Scribe V2
I wtedy trafiłem na ElevenLabs Scribe V2.
Wcześniej nie znałem tej firmy zupełnie, ale ten model był szokująco dobry. Wietnamski, japoński, angielski — niezależnie od języka transkrypcja jest na wysokim poziomie. Jeśli chodzi o japoński, to subiektywnie, ale wyraźnie wyprzedzał modele OpenAI.
Dostępne są też parametry słownikowe, więc projekt jest przyjazny developerowi. Jakość jest wystarczająca bez postprocessingu. W koedesk obecnie używamy Scribe V2 jako modelu domyślnego.
Bez postprocessingu udało nam się uzyskać jakość przewyższającą inne aplikacje — przynajmniej w języku japońskim mamy takie poczucie.
Moje obecne środowisko pracy
W rezultacie narzędzi AI, których używam na co dzień, jest tak naprawdę niewiele. Claude Code i koedesk. Tylko ten dwuelementowy zestaw.
Z drugiej strony — jeśli Claude Code padnie, nie zrobię samodzielnie nawet jednego pull requesta. Tak bardzo jestem od niego uzależniony.
Workflow samego tego artykułu
Ten artykuł jest jednocześnie demonstracją wprowadzania głosowego.
- Mówię do koedesk i dostaję transkrypcję
- Claude Code dopracowuje tekst
- Claude Code operuje repozytorium Git i robi push
- Zenn Connect (integracja z GitHub) automatycznie publikuje
Klawiatury prawie nie dotykałem.
Spróbujesz wprowadzania głosowego?
Osoby znające AquaVoice pewnie pomyślą „aha, to to przeżycie”. Ale wielu z Was pewnie nigdy nie próbowało wprowadzania głosowego.
Szczególnie polecam użytkownikom języka japońskiego, by przekonali się o jakości japońskiej transkrypcji ElevenLabs Scribe V2, który jest modelem domyślnym koedesk. koedesk pozwala korzystać do 5 minut dziennie, bez terminu wygaśnięcia i bez karty kredytowej — i to za darmo na zawsze. Jeśli się spodoba, w planie Pro za $10/miesiąc dostajesz nieograniczoną transkrypcję.
Mam nadzieję, że ten artykuł stanie się dla Was pretekstem do spróbowania nowego interfejsu wprowadzania, jakim jest wprowadzanie głosowe.
Wracając do początku — moja skromna ambicja. Chciałbym, by koedesk stał się Happy Hacking Keyboardem świata wprowadzania głosowego. ……Żartuję, przepraszam. Ale w połowie mówię to całkiem poważnie.
Na koniec
W przyszłości chciałbym dalej pisać o aktualizacjach koedesk i o aktualnym stanie rzeczy w świecie Speech-to-Text.
Chciałbym też dzielić się technikami, których używam na co dzień podczas pracy z agentami AI — jeśli okażą się dla kogoś przydatne.
Jeśli macie ochotę, zapraszam do dalszej lektury.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app