Δοκίμιο

Χρησιμοποιείτε φωνητική εισαγωγή; — Μια κουβέντα για το «επόμενο» interface εισαγωγής μετά το πληκτρολόγιο

4 Απριλίου 2026 · by Masaki Kondo · 6 min read

Εισαγωγή — η εμμονή με τα interfaces εισαγωγής

Χρησιμοποιείτε φωνητική εισαγωγή;

Τα παραδείγματα γύρω από την τεχνητή νοημοσύνη αλλάζουν με εντυπωσιακή ταχύτητα. Σε όλα όσα αφορούν την είσοδο προς το AI — σε όλα τα δυνατά interfaces εισαγωγής — το Speech-to-Text (η αυτόματη απομαγνητοφώνηση) μπαίνει σε φάση πραγματικής χρήσης. Νιώθω πως εδώ κρύβεται ένα μεγάλο σημείο καμπής.

Ανάμεσα στους μηχανικούς δεν είναι λίγοι όσοι χρησιμοποιούν πληκτρολόγια όπως το Happy Hacking Keyboard της PFU, που κοστίζουν 200 ή 300 δολάρια. Είμαι κι εγώ ένας από αυτούς και μια περίοδο ήμουν αρκετά απαιτητικός με τα πληκτρολόγιά μου. Τελευταία τα events για ιδιοκατασκευές πληκτρολογίων είναι όλο και πιο δημοφιλή.

Αφού επιμένουμε τόσο στο πληκτρολόγιο ως interface εισαγωγής, γιατί να μην επιμείνουμε εξίσου και στη φωνητική εισαγωγή; Με αυτή τη σκέψη γράφω αυτό το κείμενο.

Λίγα λόγια για μένα

Με λένε Masaki Kondo. Είμαι CEO στη βιετναμέζικη εταιρεία πληροφορικής Guide Inc. Vietnam. Ασχολούμαι καθημερινά με ανάπτυξη λογισμικού και τελευταία έχω βάλει το Claude Code στο επίκεντρο της δουλειάς μου.

Πιο συγκεκριμένα, έχω φτιάξει ένα ιδιωτικό repository, το kondo-daily-ops, μέσα στο οποίο σχεδόν τα πάντα — η επικοινωνία με πελάτες μέσω Backlog, οι συζητήσεις με μέλη της ομάδας, η διαχείριση work logs — γίνονται με τη βοήθεια του Claude Code. Καθημερινά του δίνω οδηγίες του τύπου: φέρε το context του ticket μέσω API, μάζεψε context από παλιά logs, σύνταξε απάντηση χρησιμοποιώντας αυτή τη skill, και ούτω καθεξής.

Όπως φαντάζεστε, αυτές οι εντολές δίνονται σε φυσική γλώσσα και είναι αρκετά εκτενείς. Το να τις πληκτρολογείς δεν είναι ευχάριστη υπόθεση.

Η γνωριμία με το AquaVoice

Στα τέλη του 2025 ξεκίνησα να χρησιμοποιώ την εφαρμογή φωνητικής εισαγωγής AquaVoice.

Τις μακροσκελείς οδηγίες για το Claude Code μπορούσα απλώς να τις λέω. Αυτό μου ταίριαξε εκπληκτικά εύκολα και μέσα σε χρόνο μηδέν δεν μπορούσα να ξεκολλήσω από τη φωνητική εισαγωγή. «Κοίτα αυτό το ticket, μάζεψε context από παλιά logs και με αυτή τη skill γράψε απάντηση» — μόλις βιώσεις πόσο άνετο είναι κάτι τέτοιο απλώς να το πεις, δεν γυρίζεις πίσω.

Γιατί αποφάσισα να φτιάξω το δικό μου εργαλείο

Ειλικρινά, δεν είχα κανένα παράπονο από το AquaVoice, ήμουν ικανοποιημένος.

Γιατί τότε έφτιαξα το δικό μου; Η απάντηση είναι καθαρή πνευματική περιέργεια.

Από καιρό ήθελα να φτιάξω κάποια εφαρμογή σε Rust. Είχα ήδη εμπειρία από εργαλεία που έχω φτιάξει μόνος μου για τη δουλειά μου — όπως το Guidebook (static site generator σε Rust) και το εσωτερικό VPN (Headscale). Το να γυαλίζω και να φτιάχνω μόνος μου τα εργαλεία που χρησιμοποιώ — αυτό απλώς μου δίνει χαρά.

Επιπλέον, με ενδιέφερε και η τεχνική αρχιτεκτονική του AquaVoice. Κάνεις transcribe τη φωνή με Speech-to-Text μοντέλο και μετά καθαρίζεις το κείμενο με ένα LLM — αυτό το πολυεπίπεδο pipeline μου τράβηξε την προσοχή.

Στην πραγματικότητα, ακόμη και πριν μάθω για το AquaVoice, με εντυπωσίαζε η ποιότητα απομαγνητοφώνησης της φωνητικής εισαγωγής του ChatGPT. Τόσο πολύ που, για να εισάγω κάτι στο Claude Code, έκανα έναν παράδρομο: υπαγόρευα στη desktop εφαρμογή του ChatGPT και μετά αντέγραφα το κείμενο και το επικολλούσα στο Claude Code.

Και τότε η OpenAI έκανε διαθέσιμο το gpt-4o-mini-transcribe ως API. «Μπορώ μήπως να φτιάξω το δικό μου εργαλείο με αυτό;» — αυτή ήταν η καθοριστική στιγμή.

Ένα ταξίδι μέσα στα STT μοντέλα

Στην πορεία ανάπτυξης του koedesk δοκίμασα διάφορα STT μοντέλα.

Groq Whisper Large v3 Turbo — γρήγορο. Όμως έχει κάποιες ψευδαισθήσεις.

OpenAI GPT-4o Transcribe — υψηλή ακρίβεια, αλλά οι ψευδαισθήσεις στη σιωπή ενοχλούν. Είναι ισχυρό σε ιαπωνικά και αγγλικά, αλλά μόλις μπει π.χ. αγγλικά μέσα σε βιετναμέζικη ομιλία, καταρρέει. Εμείς αναπτύσσουμε στο Βιετνάμ, οπότε για εμάς ήταν σοβαρό πρόβλημα.

Mistral (Voxtral) — μέτριο.

Gemini — όταν του ανέθεσα STT και post-processing μαζί, κανονικοποίησε υπερβολικά τολμηρά και έφτασε να ψευδαισθάνεται πράγματα που ποτέ δεν είπα. Πραγματικό αδάμαστο άλογο.

Η δυσκολία του LLM post-processing

Για να συμπληρώσω ό,τι δεν μπορεί να κάνει μόνο του το STT, δοκίμασα και LLM post-processing (αφαίρεση filler λέξεων, εφαρμογή λεξικού, μορφοποίηση κειμένου). Μετά από benchmark σε 20 patterns πάνω σε 6 μοντέλα, φάνηκε καθαρά ότι κάθε μοντέλο έχει ξεκάθαρο «χαρακτήρα».

Οικογένεια OpenAI: συντηρητική και προσεκτική. Εφαρμόζει λεξικό αλλά δεν αγγίζει λέξεις που δεν γνωρίζει. Μηδέν ψευδαισθήσεις.
Οικογένεια Gemini: τολμηρή και επιθετική. Καλύτερη στην εφαρμογή λεξικού, αλλά αυτοβούλως αντικαθιστά γνωστές λέξεις με αυτές που θεωρεί «πιο σωστές». Λες «Gemini 3 Flash» και σου το διορθώνει σε «Gemini 1.5 Flash» — όσο πιο γνωστή η λέξη, τόσο πιο επικίνδυνη η ψευδαίσθηση.
Οικογένεια Claude: μετριοπαθής και ασφαλής. Δεν χαλάει τίποτα, αλλά δείχνει διστακτικότητα στην εφαρμογή λεξικού.

Συμπέρασμα: το post-processing είναι κατά βάθος περιττό και, με την εξέλιξη των ίδιων των STT μοντέλων, σταδιακά θα πάψει να χρειάζεται.

Η γνωριμία με το ElevenLabs Scribe V2

Και τότε έπεσα πάνω στο ElevenLabs Scribe V2.

Μέχρι τότε αυτή η εταιρεία ήταν εντελώς άγνωστη για μένα, αλλά το μοντέλο ήταν συγκλονιστικά καλό. Βιετναμέζικα, ιαπωνικά, αγγλικά — ασχέτως γλώσσας, η ακρίβεια απομαγνητοφώνησης είναι υψηλή. Και στα ιαπωνικά, υποκειμενικά τουλάχιστον, νιώθω πως ξεπερνά τα μοντέλα της OpenAI.

Έχει και παραμέτρους για λεξικό, ο σχεδιασμός είναι φιλικός προς τους developers. Η ποιότητα είναι επαρκής ακόμη και χωρίς post-processing. Στο koedesk χρησιμοποιείται πλέον ως default μοντέλο.

Χωρίς post-processing καταφέραμε ποιότητα που ξεπερνά άλλες εφαρμογές — τουλάχιστον για τα ιαπωνικά αυτό το λέμε χωρίς αμφιβολία.

Το σημερινό μου περιβάλλον εργασίας

Μετά από όλα αυτά, τα AI εργαλεία που χρησιμοποιώ καθημερινά δεν είναι τόσα πολλά. Claude Code και koedesk. Δίδυμο.

Με άλλα λόγια, αν το Claude Code πέσει, δεν μπορώ μόνος μου να φτιάξω ούτε ένα pull request. Τόσο εξαρτώμαι από αυτό.

Η ροή εργασίας πίσω από αυτό το ίδιο το κείμενο

Στην πραγματικότητα, αυτό το ίδιο το άρθρο είναι μια επίδειξη φωνητικής εισαγωγής.

Υπαγορεύω και κάνω transcribe στο koedesk
Το Claude Code καθαρογράφει το κείμενο
Το Claude Code διαχειρίζεται το Git repo και κάνει push
Το Zenn Connect (σύνδεση με GitHub) δημοσιεύει αυτόματα

Το πληκτρολόγιο σχεδόν δεν το άγγιξα.

Δοκιμάζετε φωνητική εισαγωγή;

Όσοι γνωρίζουν το AquaVoice θα πιάσουν αμέσως το νόημα — «α, ναι, αυτή η εμπειρία». Είναι όμως πολλοί αυτοί που δεν έχουν ακόμα δοκιμάσει φωνητική εισαγωγή.

Ειδικά στους χρήστες της ιαπωνικής γλώσσας θα ήθελα να συστήσω να βιώσουν την ποιότητα του default μοντέλου του koedesk, του ElevenLabs Scribe V2. Το koedesk είναι δωρεάν για 5 λεπτά την ημέρα, χωρίς λήξη και χωρίς κάρτα — μπορείτε να το χρησιμοποιείτε για πάντα. Αν σας αρέσει, το Pro plan των 10 δολαρίων τον μήνα δίνει απεριόριστη απομαγνητοφώνηση.

Θα χαρώ αν αυτό το άρθρο γίνει αφορμή να γνωρίσετε τη φωνητική εισαγωγή ως ένα νέο interface εισαγωγής.

Γυρνώντας στην αρχή — έχω και μια κρυφή φιλοδοξία. Θέλω να κάνω το koedesk το Happy Hacking Keyboard του κόσμου της φωνητικής εισαγωγής. … Αστειεύομαι, συγγνώμη. Μισό αστείο, μισό σοβαρό.