Deneme

Sesli giriş kullanıyor musunuz? — Klavyenin ardından gelen giriş arayüzü

4 Nisan 2026 · by Masaki Kondo · 5 min read

Giriş — giriş arayüzüne özen göstermek

Sesli girişi kullanıyor musunuz?

Yapay zekanın getirdiği paradigma değişikliklerinin ortasında, her türlü girdiye dair yeni bir yöntem — Speech-to-Text (yazıya dökme) — gerçekten kullanılabilir bir aşamaya geliyor. Burada büyük bir dönüm noktası olduğunu düşünüyorum.

Aklıma gelmişken, mühendisler arasında PFU'nun Happy Hacking Keyboard'u gibi 20.000 - 30.000 yen değerindeki klavyeleri kullananlar epey olsa gerek. Ben de bir dönem klavyelere ciddi ciddi takıntılıydım. Son yıllarda kendi klavyesini yapma etkinlikleri de oldukça popüler.

Klavyeye bir giriş arayüzü olarak bu kadar özen gösteriyorsak, sesli girişe de aynı özeni göstermek niye olmasın? Bu yazıyı işte böyle bir düşünceyle kaleme alıyorum.

Kendimi tanıtayım

Adım Masaki Kondo. Vietnam merkezli bir BT şirketi olan Guide Inc. Vietnam'da CEO olarak görev yapıyorum. Günlük olarak yazılım geliştirmenin içindeyim ve son zamanlarda Claude Code'u iş akışımın tam ortasına yerleştirdim.

Somut olarak, kondo-daily-ops adında özel bir depo oluşturdum ve Backlog üzerinden müşterilerle yazışmalardan ekip içi iletişime, iş günlüklerinin yönetimine kadar her şeyi temelde Claude Code'a yaptırıyorum. Ticket'ın arka planını API ile çekmek, eski kayıtlardan bağlam toplamak, beceri haline getirilmiş işleyişle yanıt hazırlamak… her gün ona böyle talimatlar veriyorum.

Tahmin edeceğiniz üzere bu talimatlar doğal dilde, üstelik bayağı uzun cümleler. Klavyede yazmak gerçekten meşakkatli.

AquaVoice ile tanışma

2025 sonlarına doğru AquaVoice adında bir sesli giriş uygulamasını kullanmaya başladım.

Claude Code'a vereceğim uzun talimatları sadece konuşarak yazdırabilmek beklediğimden çok daha doğal hissettirdi ve kısa sürede sesli giriş benim için vazgeçilmez hale geldi. "Bu ticket'a bak, eski kayıtlardan bağlamı topla ve şu beceriyi kullanarak bir yanıt hazırla" — bu tür talimatları sadece konuşarak verebilmenin rahatlığı eşsiz. Bir kere tattıktan sonra geri dönülmüyor.

Madem öyle, neden kendim yazdım?

Açıkça söyleyeyim: AquaVoice'tan en ufak bir şikayetim yoktu, oldukça memnundum.

Peki neden kendim yazdım? Cevap, saf entelektüel merak.

Bir yandan Rust ile bir şey yapmak istiyordum. Daha önce de Guidebook (Rust ile yazılmış bir statik site üreticisi) veya Headscale tabanlı şirket içi VPN gibi, kendi işimde kullandığım araçları kendim yazma deneyimim vardı. Kendi aletlerini cilalayıp inşa etmek — bu beni gerçekten mutlu ediyor.

Öte yandan AquaVoice'un teknik kurgusu da merakımı uyandırıyordu. Speech-to-Text ile yazıya dökmek, ardından LLM ile cilalamak — bu çok katmanlı boru hattı ilgimi çekiyordu.

Aslında AquaVoice'tan önce de ChatGPT'nin sesli moddaki yazıya dökme doğruluğu beni etkiliyordu. Claude Code'a girdi vermek için ChatGPT'nin masaüstü uygulamasına konuşup, yazıya dökülen metni kopyalayıp Claude Code'a yapıştırma gibi epey acayip bir akışı bile uygulamıştım.

Tam o sıralarda OpenAI'nin gpt-4o-mini-transcribe modeli API üzerinden kullanılabilir hale geldi. "Bunu kullanarak kendim de yapamaz mıyım?" — kararı veren kıvılcım buydu.

Speech-to-Text modelleri arasında bir yolculuk

Koedesk'i geliştirirken birçok STT modelini denedim.

Groq Whisper Large v3 Turbo — hızlı. Ama biraz halüsinasyonu var.

OpenAI GPT-4o Transcribe — doğruluk yüksek, ama sessizliklerde halüsinasyon görülüyor. Japonca ve İngilizce'de güçlü, ama mesela Vietnamca'nın içine İngilizce karıştığında bir anda bozuluyor. Geliştirmeyi Vietnam'da yaptığımız için bu bizim için ciddi bir sorundu.

Mistral (Voxtral) — pek tatmin edici değil.

Gemini — STT ve son işleme adımlarını tek seferde yaptırmaya çalıştığımda, normalizasyonu öyle cesur biçimde yapıyordu ki söylemediğim şeyleri bile halüsinasyonla ekleyebiliyordu. Vahşi bir at gibi.

LLM ile son işlemenin zorluğu

STT'nin tek başına eksik kaldığı yerleri tamamlamak için LLM ile son işleme (dolgu sözcüklerin temizlenmesi, sözlük uygulanması, metin düzenleme) de denedim. 6 modelde 20 senaryoluk bir karşılaştırma sonrasında her modelin belirgin bir "karakteri" olduğunu net biçimde gördüm.

OpenAI ailesi: muhafazakâr ve dikkatli. Sözlüğü uygular ama bilmediği sözcüklere dokunmaz. Sıfır halüsinasyon.
Gemini ailesi: cesur ve girişken. Sözlük uygulamada en güçlüsü, ama bildiği sözcükleri kendince "daha doğru" sandığı haline çevirir. "Gemini 3 Flash" dediğim halde "Gemini 1.5 Flash"a düzeltiyor — bildiği sözcükler en tehlikeli halüsinasyon kaynağı oluyor.
Claude ailesi: alçakgönüllü ve güvenli. Bir şeyi bozmuyor ama sözlüğü uygularken kendinden emin değil.

Sonuç olarak, son işleme aslında olmaması gereken bir yara bandı; STT modellerinin kendileri geliştikçe gereksiz hale gelecek.

ElevenLabs Scribe V2 ile tanışma

Ve karşıma ElevenLabs Scribe V2 çıktı.

O zamana kadar adını duymadığım bir şirketti, ama bu model gerçekten çarpıcıydı. Vietnamca, Japonca, İngilizce — dil fark etmiyor, yazıya dökme doğruluğu yüksek. Japoncada, hissiyatımla söylüyorum, OpenAI'nin modellerini geride bırakıyor.

Geliştirici dostu bir tasarımla özel sözlük için parametresi de mevcut. Hiçbir son işleme uygulamadan yeterli kalite çıkıyor. Koedesk'te şu an Scribe V2'yi varsayılan model olarak kullanıyoruz.

Son işleme olmadan diğer uygulamaları geride bırakan bir kalite ortaya çıktı — en azından Japonca için bunu rahatlıkla söyleyebilirim.

Şu anki geliştirme ortamım

Bu yolculuğun sonunda günlük hayatta kullandığım yapay zeka araçları aslında pek az. Claude Code ve koedesk. İkisi yetiyor.

Tersinden söylersem, Claude Code çökerse tek başıma bir pull request bile açamıyorum. Bağımlılık düzeyim bu kadar.

Bu yazının kendi iş akışı

Aslında bu yazının kendisi de bir sesli giriş gösterimi.

Koedesk'e konuşarak yazıya döktürüyorum
Claude Code ile metni cilalıyoruz
Claude Code Git deposunu yönetip push'u yapıyor
Zenn Connect (GitHub entegrasyonu) otomatik yayınlıyor

Klavyeye neredeyse hiç dokunmadım.

Sesli girişi denemek ister misiniz?

AquaVoice'u tanıyanlar "ha, o deneyim" diyebilir. Ama henüz sesli girişi tatmamış olanlar da bir hayli fazla.

Özellikle Japonca kullananlara, koedesk'in varsayılan modeli olan ElevenLabs Scribe V2'nin Japonca kalitesini bizzat deneyimlemenizi öneririm. Koedesk günde 5 dakika, son kullanma tarihi olmadan ve kredi kartı gerektirmeden ücretsiz kullanılabiliyor. Memnun kalırsanız aylık 10 dolarlık Pro planla yazıya dökme sınırı kalkıyor.

Bu yazının sesli giriş diye yeni bir giriş arayüzüyle tanışmanıza vesile olmasını dilerim.

Başa dönecek olursam, gizli bir hayalim var: koedesk'in sesli giriş dünyasının Happy Hacking Keyboard'u olmasını istiyorum. … Şaka, kusura bakmayın. Ama yarısı ciddi.

Kapanış

Bundan sonra da koedesk güncellemeleri ve Speech-to-Text'in günümüzdeki durumu hakkında yazılar yazmaya devam etmek istiyorum.

Ayrıca günlük işlerimde yapay zeka ajanlarıyla kullandığım teknikleri de, sizler için faydalı olacağını düşündüğüm her şeyi, bu şekilde paylaşmayı umuyorum.

İlginizi çekerse, bundan sonra da yolculuğa eşlik etmeniz beni mutlu eder.

Masaki Kondo — Guide Inc. Vietnam CEO'su https://koedesk.app

#sesli giriş #STT #ElevenLabs #Claude Code

Try koedesk

More accurate voice typing — on Mac, Windows, iOS, and Android.

Try koedesk →