ശബ്ദ ഇൻപുട്ട് ഉപയോഗിക്കുന്നുണ്ടോ? — കീബോർഡിന് ശേഷം "അടുത്ത" ഇൻപുട്ട് ഇന്റർഫേസിനെക്കുറിച്ച്
ആമുഖം — ഇൻപുട്ട് ഇന്റർഫേസിനോടുള്ള “ശ്രദ്ധ”
നിങ്ങൾ ശബ്ദ ഇൻപുട്ട് ഉപയോഗിക്കാറുണ്ടോ?
ഇന്ന് AI പാരഡൈം അതിവേഗം മാറുന്ന കാലത്ത്, AI-യിലേക്കുള്ള ഇൻപുട്ടിന്റെ വശത്ത് — എല്ലാത്തരം ഇൻപുട്ട് ഇന്റർഫേസുകളിലും — Speech-to-Text (ശബ്ദത്തിൽ നിന്ന് വാചകത്തിലേക്ക്) എന്ന പുതിയ ഇൻപുട്ട് രീതി ദൈനംദിന ഉപയോഗത്തിന് യഥാർത്ഥമായി പാകമായ ഘട്ടത്തിലെത്തിയിരിക്കുന്നു. ഇത് ഒരു വലിയ വഴിത്തിരിവാണെന്ന് എനിക്കു തോന്നുന്നു.
എഞ്ചിനീയർമാർക്കിടയിൽ PFU-വിന്റെ Happy Hacking Keyboard ഉൾപ്പെടെ രണ്ടും മൂന്നും നൂറ് ഡോളർ വിലയുള്ള കീബോർഡുകൾ ഉപയോഗിക്കുന്നവർ ഏറെയാണ്. ഞാനും അവരിലൊരാളാണ്, ഒരു കാലത്ത് കീബോർഡിനോട് വളരെയധികം ശ്രദ്ധ പുലർത്തിയിരുന്നു. ഈയിടെയായി സ്വന്തമായി കീബോർഡുകൾ ഉണ്ടാക്കുന്നതിന്റെ ഇവന്റുകളും ഉത്സാഹത്തോടെ നടക്കുന്നുണ്ട്.
കീബോർഡ് എന്ന ഇൻപുട്ട് ഇന്റർഫേസിനോട് നമ്മൾ ഇത്രയും ശ്രദ്ധ കാണിക്കുന്നുണ്ടെങ്കിൽ, ശബ്ദ ഇൻപുട്ട് എന്ന പുതിയ ഇൻപുട്ട് ഇന്റർഫേസിനോടും അതേ ശ്രദ്ധ കാണിക്കാമല്ലോ? ഈ ചിന്തയിൽ നിന്നാണ് ഈ ലേഖനം എഴുതുന്നത്.
ഞാനെക്കുറിച്ച് കുറച്ച്
എന്റെ പേര് Masaki Kondo. ഞാൻ വിയറ്റ്നാമിലെ ഒരു IT കമ്പനിയായ Guide Inc. Vietnam-ന്റെ CEO ആണ്. ദിവസവും സിസ്റ്റം വികസനത്തിൽ ഏർപ്പെടുന്നു, അടുത്തിടെ Claude Code-നെ എന്റെ ജോലിയുടെ കേന്ദ്രസ്ഥാനത്ത് നിർത്തി പ്രവർത്തിക്കുന്നു.
കൃത്യമായി പറഞ്ഞാൽ, kondo-daily-ops എന്ന ഒരു സ്വകാര്യ റിപ്പോസിറ്ററി ഉണ്ടാക്കി, Backlog-ലെ ഉപഭോക്താക്കളുമായുള്ള ഇടപാടുകൾ, കമ്പനിക്കുള്ളിലെ അംഗങ്ങളുമായുള്ള ആശയവിനിമയം, പ്രവർത്തന ലോഗ് മാനേജ്മെന്റ് — അടിസ്ഥാനപരമായി ഇതെല്ലാം Claude Code-ന്റെ സഹായത്തോടെ ചെയ്യുന്നു. ടിക്കറ്റിന്റെ പശ്ചാത്തലം API വഴി എടുക്കുക, പഴയ ലോഗുകളിൽ നിന്ന് സന്ദർഭം എടുക്കുക, സ്കില്ലാക്കിയ പ്രക്രിയ ഉപയോഗിച്ച് മറുപടി തയ്യാറാക്കുക — ഇത്തരത്തിലുള്ള നിർദ്ദേശങ്ങൾ ദിവസേന നൽകുന്നു.
ഊഹിക്കാം, ഈ നിർദ്ദേശങ്ങൾ സ്വാഭാവിക ഭാഷയിലുള്ളവയും വളരെ നീളമേറിയ വാചകങ്ങളുമാണ്. കീബോർഡിൽ ടൈപ്പ് ചെയ്യാൻ ശ്രമിച്ചാൽ വളരെ ബുദ്ധിമുട്ടാണ്.
AquaVoice-മായുള്ള കണ്ടുമുട്ടൽ
2025-ന്റെ അവസാന ഭാഗത്ത് AquaVoice എന്ന ശബ്ദ ഇൻപുട്ട് ആപ്പ് ഉപയോഗിക്കാൻ തുടങ്ങി.
Claude Code-ലേക്കുള്ള നീളമേറിയ നിർദ്ദേശങ്ങൾ പറഞ്ഞുമാത്രം ഇൻപുട്ട് ചെയ്യാൻ കഴിയും. ഇത് ഞാൻ പ്രതീക്ഷിച്ചതിലും കൂടുതൽ കൈയിലിണങ്ങി, അധികം വൈകാതെ ശബ്ദ ഇൻപുട്ട് ഇല്ലാതെ വയ്യാത്ത അവസ്ഥയിലെത്തി. “ഈ ടിക്കറ്റ് നോക്കി, പഴയ ലോഗുകളിൽ നിന്ന് സന്ദർഭം എടുത്ത്, ഈ സ്കിൽ ഉപയോഗിച്ച് മറുപടി തയ്യാറാക്കിത്തരൂ” — ഇത്തരം നിർദ്ദേശങ്ങൾ പറഞ്ഞുകൊടുക്കാൻ കിട്ടുന്ന സുഖം ഒരിക്കൽ അനുഭവിച്ചാൽ, പിന്നെ തിരിച്ചുപോകാൻ കഴിയില്ല.
എന്തുകൊണ്ടാണ് ഞാൻ സ്വയം ഉണ്ടാക്കാമെന്ന് കരുതിയത്
സത്യസന്ധമായി പറയാം. AquaVoice-നോട് എനിക്ക് യാതൊരു പരാതിയും ഉണ്ടായിരുന്നില്ല, ഞാൻ വളരെ സംതൃപ്തനായിരുന്നു.
പിന്നെ എന്തിന് സ്വയം ഉണ്ടാക്കി? ഉത്തരം ലളിതം — ശുദ്ധമായ ബുദ്ധിജീവിത ജിജ്ഞാസ.
ആദ്യമായി, Rust-ൽ എന്തെങ്കിലും ആപ്ലിക്കേഷൻ ഉണ്ടാക്കാൻ ഞാൻ ആഗ്രഹിച്ചിരുന്നു. മുമ്പും Guidebook (Rust-ൽ നിർമ്മിച്ച സ്റ്റാറ്റിക് സൈറ്റ് ജനറേറ്റർ), കമ്പനിക്കുള്ളിലെ VPN (Headscale) തുടങ്ങിയ — ജോലിയിൽ ഉപയോഗിക്കുന്ന ഉപകരണങ്ങൾ സ്വയം ഉണ്ടാക്കിയ അനുഭവം എനിക്കുണ്ട്. സ്വന്തം ഉപകരണം സ്വയം മൂർച്ച കൂട്ടി ഉണ്ടാക്കുക — ഇത് വളരെ രസകരമാണ്.
കൂടാതെ, AquaVoice-ന്റെ ആന്തരിക സാങ്കേതിക സംവിധാനത്തിലും എനിക്ക് താൽപര്യമുണ്ടായിരുന്നു. Speech-to-Text-ലൂടെ വാചകത്തിലേക്ക് മാറ്റി, പിന്നീട് LLM ഉപയോഗിച്ച് പോസ്റ്റ്-പ്രോസസ് ചെയ്ത് മനോഹരമാക്കുക — ഈ ബഹു-തലപൈപ്പ്ലൈനിനോടുള്ള കൗതുകം.
വാസ്തവത്തിൽ AquaVoice അറിയുന്നതിന് മുമ്പുതന്നെ, ChatGPT-യുടെ ശബ്ദ ഇൻപുട്ട് വാചക പരിവർത്തനത്തിന്റെ കൃത്യത എന്നെ അമ്പരപ്പിച്ചിരുന്നു. Claude Code-ലേക്ക് ഇൻപുട്ട് നൽകാൻ വേണ്ടി ChatGPT-യുടെ ഡെസ്ക്ടോപ്പ് ആപ്പിൽ പറഞ്ഞ്, പരിവർത്തനം ചെയ്ത വാചകം കോപ്പി ചെയ്ത് Claude Code-ലേക്ക് പേസ്റ്റ് ചെയ്യുക — ഇത്തരം വിചിത്ര കാര്യങ്ങൾ വരെ ഞാൻ ചെയ്തിരുന്നു.
അവിടെ OpenAI-യുടെ gpt-4o-mini-transcribe API ആയി ഉപയോഗിക്കാൻ കഴിയുന്ന സ്ഥിതിയിലെത്തി. “ഇത് ഉപയോഗിച്ച് സ്വയം ഉണ്ടാക്കാൻ കഴിയില്ലേ?” — ഇത് നിർണ്ണായക ഉണർവായി.
Speech-to-Text മോഡലുകളുടെ യാത്ര
koedesk-ന്റെ വികസനത്തിൽ ഞാൻ വിവിധ STT മോഡലുകൾ പരീക്ഷിച്ചു.
Groq Whisper Large v3 Turbo — വേഗത്തിലാണ്. പക്ഷേ കുറച്ച് ഹാലൂസിനേഷൻ (മായ) ഉണ്ട്.
OpenAI GPT-4o Transcribe — കൃത്യത ഉയർന്നതാണ്, പക്ഷേ നിശ്ശബ്ദ സമയത്തെ ഹാലൂസിനേഷൻ ശ്രദ്ധ വലിക്കും. ജാപ്പനീസിലും ഇംഗ്ലീഷിലും ശക്തമാണ്, പക്ഷേ വിയറ്റ്നാമീസിൽ ഇംഗ്ലീഷ് കലരുമ്പോൾ പെട്ടെന്ന് തകർന്നുപോകുന്നു. ഞങ്ങൾ വിയറ്റ്നാമിൽ സിസ്റ്റം വികസിപ്പിക്കുന്നതിനാൽ, ഇത് ഒരു ഗൗരവമേറിയ പ്രശ്നമായിരുന്നു.
Mistral (Voxtral) — ഒരൽപം മോശം.
Gemini — STT-യും പോസ്റ്റ്-പ്രോസസിംഗും ഒറ്റയടിക്ക് ചെയ്യിക്കാൻ ശ്രമിച്ചപ്പോൾ, വളരെ ധൈര്യപൂർവ്വം നോർമലൈസ് ചെയ്ത് ഞാൻ പറയാത്ത കാര്യങ്ങൾ വരെ ഹാലൂസിനേറ്റ് ചെയ്തു. ശരിക്കും കാട്ടു കുതിര.
LLM പോസ്റ്റ്-പ്രോസസിംഗിന്റെ ബുദ്ധിമുട്ട്
STT മാത്രംകൊണ്ട് ചെയ്യാൻ കഴിയാത്ത ഭാഗങ്ങൾ നികത്താൻ, LLM വഴിയുള്ള പോസ്റ്റ്-പ്രോസസിംഗും (ഫില്ലർ നീക്കൽ, നിഘണ്ടു പ്രയോഗം, വാചക ക്രമീകരണം) പരിശോധിച്ചു. 6 മോഡലുകളിൽ 20 പാറ്റേണുകൾ ഉപയോഗിച്ച് ബെഞ്ച്മാർക്ക് നടത്തിയ ഫലമായി, ഓരോ മോഡലിനും വ്യക്തമായ “സ്വഭാവം” ഉണ്ടെന്ന് മനസ്സിലായി.
- OpenAI കുടുംബം: യാഥാസ്ഥിതികവും ജാഗ്രതയോടെയും. നിഘണ്ടു പ്രയോഗിക്കും, പക്ഷേ അറിയാത്ത വാക്കുകൾ സ്പർശിക്കില്ല. ഹാലൂസിനേഷൻ 0.
- Gemini കുടുംബം: സജീവവും ധൈര്യശാലിയും. നിഘണ്ടു പ്രയോഗത്തിൽ ഏറ്റവും ശക്തം, പക്ഷേ താൻ അറിയുമെന്ന് കരുതുന്ന വാക്കുകൾ “കൂടുതൽ ശരി”യാക്കാൻ സ്വയം മാറ്റിയെഴുതും. “Gemini 3 Flash” എന്ന് പറഞ്ഞത് “Gemini 1.5 Flash” ആയി മാറ്റി — അറിയുന്ന വാക്കുകൾ തന്നെയാണ് ഏറ്റവും അപകടകരമായ ഹാലൂസിനേഷന് കാരണമാകുന്നത്.
- Claude കുടുംബം: വിനയശീലവും സുരക്ഷിതവും. ഒന്നും കേടാക്കില്ല, പക്ഷേ നിഘണ്ടു പ്രയോഗത്തിൽ ആത്മവിശ്വാസം കുറവ്.
നിഗമനം എന്നത് — പോസ്റ്റ്-പ്രോസസിംഗ് യഥാർത്ഥത്തിൽ ആവശ്യമില്ലാത്തതാണ്, STT മോഡലുകൾ തന്നെ വികസിക്കുന്നതോടെ ഇത് ആവശ്യമില്ലാതാകും എന്ന് ഞാൻ കരുതി.
ElevenLabs Scribe V2-മായുള്ള കണ്ടുമുട്ടൽ
പിന്നെ ഞാൻ കണ്ടുമുട്ടിയത് ElevenLabs Scribe V2.
അതുവരെ എനിക്കീ കമ്പനിയെ കുറിച്ച് ഒന്നും അറിയില്ലായിരുന്നു, പക്ഷേ ഈ മോഡൽ വളരെ അമ്പരപ്പിക്കുന്നതായിരുന്നു. വിയറ്റ്നാമീസ്, ജാപ്പനീസ്, ഇംഗ്ലീഷ് — ഭാഷയേതായാലും വാചക പരിവർത്തന കൃത്യത ഉയർന്നതാണ്. ജാപ്പനീസിലെങ്കിലും, എന്റെ വ്യക്തിപരമായ അനുഭവത്തിൽ, OpenAI-യുടെ മോഡലുകളെ കടത്തിവെട്ടുന്ന തലത്തിലാണ്.
നിഘണ്ടുവിനായുള്ള പാരാമീറ്ററുകളും ഉണ്ട് — ഡെവലപ്പർ സൗഹൃദ രൂപകൽപന. പോസ്റ്റ്-പ്രോസസിംഗ് കൂടാതെതന്നെ മതിയായ ഗുണനിലവാരം ലഭിക്കും. koedesk ഇപ്പോൾ Scribe V2 ഡിഫോൾട്ട് മോഡലായി ഉപയോഗിക്കുന്നു.
പോസ്റ്റ്-പ്രോസസിംഗ് ഇല്ലാതെ, മറ്റ് ആപ്പുകളെ കടത്തിവെട്ടുന്ന ഗുണനിലവാരം ഉണ്ടാക്കിയിരിക്കുന്നു — കുറഞ്ഞത് ജാപ്പനീസിലെങ്കിലും, അത് ഞാൻ ആത്മവിശ്വാസത്തോടെ പറയും.
ഇപ്പോഴത്തെ എന്റെ വികസന പരിസ്ഥിതി
ഇത്രയും യാത്രയ്ക്ക് ശേഷം, ഇപ്പോൾ ദൈനംദിന ജീവിതത്തിൽ ഞാൻ ഉപയോഗിക്കുന്ന AI ഉപകരണങ്ങൾ വളരെ കുറവാണ്. Claude Code-ഉം koedesk-ഉം. ഈ രണ്ടെണ്ണം മാത്രം.
മറ്റു വാക്കുകളിൽ, Claude Code തകർന്നുപോയാൽ ഞാൻ സ്വയം ഒരു പുൾ റിക്വസ്റ്റ് പോലും ഉണ്ടാക്കാൻ കഴിയില്ല. അത്രയും ആശ്രയിതനാണ്.
ഈ ലേഖനത്തിന്റെതന്നെ വർക്ക്ഫ്ലോ
വാസ്തവത്തിൽ ഈ ലേഖനംതന്നെ ശബ്ദ ഇൻപുട്ടിന്റെ ഒരു പ്രദർശനമാണ്.
- koedesk-ൽ പറഞ്ഞ് വാചകത്തിലേക്ക് മാറ്റുന്നു
- Claude Code-കൊണ്ട് വാചകം മിനുക്കിയെടുക്കുന്നു
- Claude Code Git റിപ്പോസിറ്ററി പ്രവർത്തിപ്പിച്ച് push ചെയ്യുന്നു
- Zenn Connect (GitHub ഇന്റഗ്രേഷൻ) സ്വയം പ്രസിദ്ധീകരിക്കുന്നു
കീബോർഡ് ഞാൻ ഏതാണ്ട് സ്പർശിച്ചിട്ടില്ല.
ശബ്ദ ഇൻപുട്ട് പരീക്ഷിച്ചുനോക്കാമോ?
AquaVoice അറിയാവുന്നവർക്ക് “ഓ, ആ അനുഭവം” എന്ന് പെട്ടെന്ന് മനസ്സിലാകും. പക്ഷേ ഇപ്പോഴും ശബ്ദ ഇൻപുട്ട് അനുഭവിച്ചിട്ടില്ലാത്തവർ ഏറെയുണ്ടാകും.
പ്രത്യേകിച്ച് ജാപ്പനീസ് ഉപയോക്താക്കൾക്ക്, koedesk-ന്റെ ഡിഫോൾട്ട് മോഡലായ ElevenLabs Scribe V2-യുടെ ജാപ്പനീസ് ഗുണനിലവാരം സ്വയം അനുഭവിച്ചറിയണമെന്ന് ഞാൻ ആഗ്രഹിക്കുന്നു. koedesk ഒരു ദിവസം 5 മിനിറ്റ് വരെ, കാലാവധി ഇല്ലാതെ, ക്രെഡിറ്റ് കാർഡ് ആവശ്യമില്ലാതെ എപ്പോഴും സൗജന്യമായി ഉപയോഗിക്കാം. ഇഷ്ടപ്പെട്ടാൽ, പ്രതിമാസം 10 ഡോളർ Pro പ്ലാനിൽ വാചക പരിവർത്തനം പരിധിയില്ലാത്തതാകും.
ഈ ലേഖനം ശബ്ദ ഇൻപുട്ട് എന്ന പുതിയ ഇൻപുട്ട് ഇന്റർഫേസുമായുള്ള നിങ്ങളുടെ ആദ്യ സ്പർശമാകുമെങ്കിൽ വളരെ സന്തോഷം.
തുടക്കത്തിലെ കാര്യത്തിലേക്ക് മടങ്ങാം — എന്റെ ഒരു രഹസ്യ അഭിലാഷം. koedesk-നെ ശബ്ദ ഇൻപുട്ട് ലോകത്തിലെ Happy Hacking Keyboard ആക്കാൻ ഞാൻ ആഗ്രഹിക്കുന്നു. …തമാശ, ക്ഷമിക്കണം. പക്ഷേ പകുതി ഗൗരവമാണ്.
ഉപസംഹാരം
ഇനിയും koedesk-ന്റെ അപ്ഡേറ്റ് വിവരങ്ങളും ഇന്നത്തെ Speech-to-Text-ന്റെ അവസ്ഥയും പരിചയപ്പെടുത്തുന്ന ലേഖനങ്ങൾ എഴുതണമെന്ന് ഞാൻ ആഗ്രഹിക്കുന്നു.
കൂടാതെ, ഞാൻ ദൈനംദിന ജോലിയിൽ AI ഏജന്റുകൾ ഉപയോഗിക്കുമ്പോഴുള്ള സാങ്കേതികതകൾ — നിങ്ങൾക്ക് ഉപകാരപ്രദമായ എന്തെങ്കിലും ഉണ്ടെങ്കിൽ — ഈ രീതിയിൽ പങ്കിടണമെന്ന് ആഗ്രഹിക്കുന്നു.
കഴിയുമെങ്കിൽ, ഇനിയും കൂടെ നിന്നാൽ വളരെ സന്തോഷം.
Masaki Kondo — CEO, Guide Inc. Vietnam https://koedesk.app