Skip to main content

Speech Recognition System क्या है ? इसकी शुरुआत कब हुई ?

Speech Recognition क्या है ? इसकी शुरुआत कब हुई ?





Speech Recognition कैसे काम करता है ?Speech Recognition or Voice Recognition इन दोनों का मतलब लगभग एक ही है। आज की डेट में सायद ही कोई ऐसा आदमी होगा जिसे स्पिच
रेकॉग्नीशन के बारे में पता न हो। आपका मोबाइल फ़ोन हो या लैपटॉप या आपका पर्सनल कंप्यूटर आप बिना कुछ टाइप किये सिर्फ बोलकर कमांड दे सकते हैं। जैसे कि अगर आपको अपने मोबाइल से किसी को
कॉल करना हो तो आप सिर्फ उस व्याक्ति का नाम लेकर उसको कॉल कर सकते हैं। अगर आप google पर कुछ सर्च करना चाहते हैं तो बिना keypad इस्तेमाल किये सिर्फ बोलकर आसानी से उसे सर्च कर सकते हैं। अगर आपको youtube पर  कोई वीडियो सर्च करनी हो तो सिर्फ बोलकर आप अपना वीडियो देख सकते हैं। आज कल बाजार में भी ऐसे कई हार्डवेयर डिवाइस आपको मिल जाएंगे जो सिर्फ आपकी आवाज सुनकर अपना काम करते हैं। जैसे कि अमेज़न की Alexa , गूगल Assistant , एप्पल की Siri, माइक्रोसॉफ्ट की Cortana . लेकिन क्या आप जानते है इसकी
शुरुआत कब और कैसे हुई ? ये काम कैसे करता है ?
आइए जानने कि कोशिश करते हैं।

speech recognition क्या है ?

स्पीच रिकग्निशन एक कंप्यूटर सॉफ्टवेयर प्रोग्राम या हार्डवेयर डिवाइस है जो मनुष्य की आवाज़ को डिकोड करता है। यह एक ऐसा technology है जो मनुष्य के द्वारा बोले गए शब्दों को इनपुट लेता है और उसे डिजिटल फॉर्म में कन्वर्ट करके उसके ऊपर action लेता है। इसका इस्तेमाल मोबाइल अथवा कंप्यूटर में बिना keypad इस्तेमाल किये अपने voice की मदद से निर्देश देने के लिए होता है। इसके  लिए जिस program का इस्तेमाल होता है उसे ASR ( Automatic Speech Recognition ) कहते है। इसमे ASR Program को सिखाना पड़ता है जिससे कि वह आपकी voice को recognize करके आपके सवालों का उत्तर दे सके। और आपके दिए गए command के ऊपर action लेगा और उसको करके दिखाएगा। जैसे कि अगर अपने बोला " Open Youtube " तो mobile आपके command को समझ जाएगा और on screeen यूट्यूब ओपन करेगा। इस Voice Recognition Technology का ज़्यादातर इस्तेमाल बड़े बड़े Laboratories , Biometrices तथा Medical में होता है।


Speech Recognition कैसे काम करता है ?

क्या अपने कभी सोचा है कि speech recognition कैसे काम करता है ? यह जानना भी मजेदार बात है। आप जब भी अपने फ़ोन या लैपटॉप को अपने voice के द्वारा कोई command देते है तो उसे उस command को
समझकर action में आने के लिए बहुत से complex स्टेप्स से गुजरना पड़ता है। आपने देखा होगा कि आप जब भी कुछ बोलते है तब एक vibration होता है इसी vibration को analog signal कहते है। computer हो या mobile दोनों analog waves को डिजिटल में convert करने के लिए ADC ट्रांसलेटर का उपयोग करता है। क्युकी computer सिर्फ डिजिटल सिग्नल ही समझ सकता है।

Analog को digital में कन्वर्ट करने केलिए ADC को बहोत से प्रोसेस से गुजरना पड़ता है। सबसे पहले साउंड को सैम्पल्स में divide करके उस साउंड को digitize करता है। फिर सिस्टम उस digitize साउंड wave को फ़िल्टर करके बेकार के noise को remove कर देता है। उसके बाद उसको normal sound में कन्वर्ट करके volume को constant लेवल तक ले जाता है। इसके बाद इन sounds को छोटे छोटे पार्ट्स में विभाजित कर देता है  ( 1 सेकंड का 100 या 1000वा हिस्सा ) जैसे कि M,U,S,I,C  क्युकि इसे समझना आसान हो जाता है।

सबसे आखिरी प्रोसेस में इन sounds के छोटे छोटे हिस्सों को अपने database से मैच करता है। अगर ऑनलाइन है तो अपने server से मैच करता है। मैच करते ही  वो application आपके सामने खुल जाता है चाहे वो Android का google assistant हो या apple की Siri हो या Windows की Cortana हो। जिस प्रकार से इन्हे कनेक्ट किया गया है उस प्रकार से वो अपना काम करना शुरू कर देते है। ठीक इसी तरह से ये Speech Recognition System काम करता है। Normally हम बोलते हैं जैसे कि अगर Android है तो hello google या Hi Google कुछ इस प्रकार के word बोलते है तो Google Assistant यहाँ पर open हो जाता है। यह स्मार्टफोन के
अंदर एक pre-recorded  query होती है।

Speech Recognition System की शुरुआत कब हुई ?

सबसे पहले इसकी शुरुआत 1952 में हुई थी। "Bells Laboratory" के अंदर  "Audrey" नाम के एक वैज्ञानिक ने Speech Recognition System  बनाया था लेकिन सिर्फ अंको यानि mathematical digit को ही समझ सकता था। 

उसके बाद 1962 में "Shoebox" नाम के एक कंपनी ने इसे Re-develope किया  जिससे कि ये System कुछ अंग्रेजी के शब्द भी समझने लगा। बाद में चलकर  ये कुछ consonants और vowel को समझने लगा। 

उसके बाद 1971 के अंदर US defence department ने जब इसे देखा तब इसका  नाम यहाँ पर Speech Recognition System रख दिया। 1977 में US ने इसपर एक नया Program शुरू किया जिसका नाम था DARPA  SUR ( speech understanding research ). बाद  में चलकर यह रिसर्च बहोत  सफल हुआ। 

सन 1980 में Markov Model नाम के एक व्यक्ति ने speech recognition  system बनाने के साथ साथ Sound समझने की प्रक्रिया को इसके अंदर निर्धारीत करना शुरू कर दिया। उसके बाद उन्हें समझ में आया कि Digital Data यहाँ पर इस्तेमाल किये जा सकते हैं। तो उसी के साथ साथ आज कि इस  टेक्नोलॉजी की शुरुआत हुई। 

इसी Technology की मदद से सन 1987 में एक "julie " नाम का छोटा सा एक  Robot बनाया गया जो बच्चों से बात कर सकता था। लेकिन उसमें एक ही कमी  थी कि वो एक बार बोलने के बाद कुछ देर के लिए रुक जाया करता था। क्युकि उसमे इतनी ही समझ थी। 

सन 1990 में "Dragon" नाम की एक कंपनी ने " Dragon Dictate For Mac "नाम से एक सॉफ्टवेयर बनाया जो दुनिया का पहला Voice Recognition System वाला सॉफ्टवेयर था। लेकिन उस वक़्त इसे बस एक ही आदमी इस्तेमाल कर सकता था। उसके कुछ सालों बाद यानि 1997 में कंपनी ने " Dragon Naturally Speaking " नाम की एक Software बना दिया जिसमे 100 Words को समझने की ताकत थी। 

सन 2000 के दसक में Google भी लॉन्च हो चूका था और उसने iphone के लिए Voice Search Application बनाई जो मानव द्वारा बोली गई बातों को एक server के साथ जोड़ दिया गया जिसका नाम था Data Center . ये application हमारी बोली गई बातों को Data Center से match करते हुए हमारे सवालों का जवाब देता था। 
मतलब अब Internet Connectivity की जरुरत पड़ने लगी थी।  

2010 में Google से Android शुरू कर ही दिया था। उसने अपना पर्सनल Speech Recognition एप्लीकेशन बना डाला। और उसके बाद उसने Voice को हर प्रकार से रिकॉर्ड करना शुरू कर दिया। जो भी हम बात करने के लिए शब्दों का इस्तेमाल करते हैं रात दिन। अपने घर वालों से बात करते हैं , दोस्तों से बात करते हैं , अपने customer से बात करते हैं या फिर दुनिया में जो भी चल रहा है Google का ये Application  वो सबकुछ record करने लगा। और पूरा का पूरा एक विशाल database बना लिया। और ये Database 2010 में 230 billion word  का बताया जाता है। मतलब इतने Words गूगल ने Add कर लिए थे। लोग Android को बहुत पसंद करने लगे। और कुछ समय बाद इसे Google Assistant का नाम दे दिया गया। 

उम्मीद करता हु जानकारी आपको पसंद आयी होगी। ...... 
Arihantas.in (Abhishek Dwivedi ).







Comments

Post a Comment