Essay

Nutzt du eigentlich Spracheingabe? — Über die nächste Eingabeschnittstelle nach der Tastatur

4. April 2026 · by Masaki Kondo · 5 min read

Einleitung — Über die Liebe zur Eingabeschnittstelle

Nutzt ihr eigentlich Spracheingabe?

Der KI-Paradigmenwechsel rast derzeit in atemberaubendem Tempo voran, aber ich glaube, etwas ebenso Spannendes passiert ganz am Anfang der Kette: auf der Eingabeseite. Speech-to-Text hat den Sprung in den Alltag geschafft und ist endlich ein wirklich brauchbares Eingabemittel. Für mich ist das ein echter Wendepunkt.

Viele Entwickler, die ich kenne, geben fröhlich zwei- oder dreihundert Euro für eine Tastatur aus — die Happy Hacking Keyboard von PFU, individuell gebaute Mechanicals, was auch immer. Ich gehöre dazu; eine Zeit lang war ich besessen von Tastaturen. Custom-Keyboard-Meetups boomen ja gerade.

Wenn wir die Tastatur als Eingabeschnittstelle so ernst nehmen, sollten wir Spracheingabe als neue Eingabeschnittstelle vielleicht genauso ernst nehmen. Darum geht es in diesem Essay.

Kurz zu mir

Mein Name ist Masaki Kondo. Ich bin CEO von Guide Inc. Vietnam, einem IT-Unternehmen mit Sitz in Vietnam. Ich arbeite täglich in der Softwareentwicklung mit, und seit Kurzem steht Claude Code im Zentrum meines Arbeitsalltags.

Konkret pflege ich ein privates Repository namens kondo-daily-ops, in dem Claude Code mir bei Backlog-Tickets von Kunden, der internen Kommunikation und meinen täglichen Arbeitsprotokollen hilft — im Grunde bei allem. Es holt sich Ticket-Kontext über die API, sammelt Historie aus alten Logs, ruft meine eingebauten Skills auf, um Antworten zu entwerfen, und so weiter. Ich orchestriere das Ganze mit natürlichsprachigen Anweisungen.

Wie ihr euch denken könnt, sind das lange, fließende Sätze. Die alle auf der Tastatur zu tippen ist ziemlich mühsam.

Wie ich AquaVoice entdeckt habe

Ende 2025 fing ich an, eine Spracheingabe-App namens AquaVoice zu nutzen.

Diese langen Anweisungen an Claude Code einfach zu sprechen fühlte sich besser an, als ich erwartet hatte. Spracheingabe wurde innerhalb kürzester Zeit unverzichtbar. „Lies dieses Ticket, hol dir Kontext aus den alten Logs, nimm diesen Skill und entwirf eine Antwort" — sowas einfach laut auszusprechen, ist unanständig bequem. Wenn man es einmal erlebt hat, geht man nicht mehr zurück.

Warum ich selbst etwas bauen wollte

Ganz ehrlich: Ich hatte überhaupt nichts an AquaVoice auszusetzen. Ich war zufrieden.

Warum also selbst entwickeln? Reine intellektuelle Neugier.

Erstens hatte ich Lust, in Rust eine Anwendung zu bauen. Sowas habe ich schon öfter gemacht: Guidebook (ein Static-Site-Generator in Rust), unser internes VPN mit Headscale und so weiter — Werkzeuge, die ich beruflich nutze, selbst gebaut. Sein eigenes Werkzeug zu schärfen, macht einfach Spaß.

Außerdem hat mich die technische Mechanik hinter AquaVoice interessiert. Zuerst Speech-to-Text, dann ein LLM-Cleanup — diese mehrstufige Pipeline hat mich fasziniert.

Schon vor AquaVoice war ich von der Genauigkeit beeindruckt, mit der ChatGPT japanische Spracheingaben transkribierte. Ich habe wirklich etwas Albernes getan: in die ChatGPT-Desktop-App diktiert, das Transkript kopiert und in Claude Code eingefügt. So lief mein Workflow.

Dann brachte OpenAI gpt-4o-mini-transcribe als API heraus. „Moment, das könnte ich doch selbst bauen" — das war der Funke.

Eine Tour durch die Speech-to-Text-Modelle

Im Laufe der Entwicklung von koedesk habe ich viele STT-Modelle ausprobiert.

Groq Whisper Large v3 Turbo — Schnell. Halluziniert aber ein bisschen.

OpenAI GPT-4o Transcribe — Genau, aber die Halluzinationen während stiller Phasen sind störend. Stark in Japanisch und Englisch, aber sobald in Vietnamesisch englische Wörter auftauchen, fällt es auseinander. Wir entwickeln in Vietnam, also war das ein echtes Problem für uns.

Mistral (Voxtral) — Nicht so toll.

Gemini — Ich habe es STT und Nachbearbeitung in einem Rutsch machen lassen. Es hat so aggressiv normalisiert, dass es Inhalte halluzinierte, die ich nie gesagt hatte. Ein ungezähmtes Pferd.

Die Tücken der LLM-Nachbearbeitung

Um auszugleichen, was STT allein nicht hinkriegt, habe ich auch LLM-basierte Nachbearbeitung getestet (Füllwörter entfernen, Wörterbuch anwenden, Formatierung). Bei 20 Benchmark-Mustern über 6 Modelle hatte jedes Modell klar seinen eigenen Charakter.

OpenAI-Familie: Konservativ und vorsichtig. Wendet das Wörterbuch an, lässt unbekannte Wörter aber in Ruhe. Null Halluzinationen.
Gemini-Familie: Selbstbewusst und mutig. Beste Wörterbuchanwendung im Test, aber schreibt Wörter, die es zu kennen glaubt, in etwas „Korrekteres" um. Sag „Gemini 3 Flash", und es wird zu „Gemini 1.5 Flash". Je vertrauter das Wort, desto gefährlicher die Halluzination.
Claude-Familie: Bescheiden und sicher. Zerstört nichts, aber traut sich beim Wörterbuch nicht recht heran.

Meine Schlussfolgerung: Nachbearbeitung sollte eigentlich gar nicht nötig sein und wird mit besseren STT-Modellen überflüssig werden.

Die Entdeckung von ElevenLabs Scribe V2

Und dann fand ich ElevenLabs Scribe V2.

Die Firma war mir vorher völlig unbekannt, aber das Modell hat mich umgehauen. Vietnamesisch, Japanisch, Englisch — sprachübergreifend hohe Genauigkeit. Speziell auf Japanisch hatte ich subjektiv das Gefühl, dass es die OpenAI-Modelle bereits hinter sich gelassen hat.

Es hat zudem einen sauberen Parameter für Wörterbuch-Bias — entwicklerfreundlich designt. Die Ausgabequalität ist gut genug, dass ich gar keine Nachbearbeitung mehr brauche. koedesk verwendet Scribe V2 heute als Standardmodell.

Ohne Nachbearbeitung eine Qualität liefern, die andere Apps übertrifft — zumindest auf Japanisch sage ich das mit ruhigem Gewissen.

Mein aktuelles Setup

Nach all dem benutze ich im Alltag erstaunlich wenige KI-Tools. Claude Code und koedesk. Das war's.

Anders ausgedrückt: Wenn Claude Code ausfällt, kriege ich nicht mal selbst einen Pull Request hin. So abhängig bin ich davon.

Wie dieser Artikel entstanden ist

Dieser Artikel selbst ist eine Demonstration der Spracheingabe.

In koedesk diktiert und transkribiert
Mit Claude Code den Text geschliffen
Claude Code bedient das Git-Repository und pusht
Zenn Connect (GitHub-Integration) veröffentlicht automatisch

Die Tastatur habe ich kaum angefasst.

Wollt ihr Spracheingabe mal ausprobieren?

Wer AquaVoice kennt, denkt vielleicht: „Ah, dieses Gefühl." Aber viele haben Spracheingabe schlicht noch nie erlebt.

Vor allem japanischsprachigen Nutzerinnen und Nutzern wünsche ich, dass sie die Japanisch-Qualität von ElevenLabs Scribe V2 — das Standardmodell in koedesk — selbst erleben. koedesk hat einen kostenlosen Plan mit 5 Minuten pro Tag, ohne Ablauf und ohne Kreditkarte. Wer mehr will, bekommt mit dem Pro-Plan für $10/Monat unbegrenzte Transkription.

Wenn dieser Artikel für jemanden der erste Kontakt mit Spracheingabe als neuer Eingabeschnittstelle ist, freut mich das sehr.

Zurück zum Anfang: Ein kleiner heimlicher Ehrgeiz von mir — ich möchte aus koedesk die Happy Hacking Keyboard der Spracheingabe machen. …War ein Witz, sorry. Naja, halber Witz.