gujarati world: માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ

Friday, September 23, 2016

માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ

‘આવાઝકી દુનિયાકે દોસ્તોં’ --આ શબ્દપ્રયોગ વિચારતાં રેડિયોના કાર્યક્રમોની દુનિયા અને ઉદ્‌ઘોષકો-શ્રોતાઓ વચ્ચેની સંબંધસૃષ્ટિ તાજી થાય. સ્માર્ટ ફોનના જમાનામાં ‘માલિક’નો ટાઇપ કરેલો નહીં, પણ બોલાયેલો ‘હુકમ’ ઝીલતાં અને ખપજોગી વાત કરી જાણતાં વિવિધ સહાયકો ‘આવાઝકી દુનિયા’નો જ વિસ્તાર છે.

માણસ અને મશીન એકબીજા સાથે વાતો કરે અને મશીન તેને જેટલું પઢાવ્યું હોય તેટલું નહીં, પણ પોતાની મેળે બોલી શકે--એ સંશોધકોની બહુ જૂની કલ્પના રહી છે. પરંતુ કમ્પ્યુટર દ્વારા પેદા કરાયેલા અવાજ કૃત્રિમતાનો અમીટ ઠપ્પો ધરાવે છે. જૂના વખતની વિજ્ઞાનકથા આધારિત ફિલ્મોથી માંડીને કી-બોર્ડ જેવાં વાદ્યોમાં કમ્પ્યુટર કે રોબોટનો અવાજ ત્રૂટક અને માણસને બદલે મશીન બોલે છે એવું પહેલી જ તકે જાહેર કરી દેનારો હતો. ત્યાર પછી માણસના અવાજમાં વિવિધ શબ્દોનું ભંડોળ રેકોર્ડ કરીને, તેમાંથી મશીન પાસે જુદાં જુદાં વાક્યો બોલાવવાનું પ્રચલિત બન્યું. તેનું સૌથી ‘દેશી’ ઉદાહરણ રેલવે સ્ટેશન પર થતી ટ્રેનોની અવરજવર વિશેની જાહેરાતો છે. તેમાં ટ્રેનના નામ-નંબર-પ્લેટફોર્મ નંબરથી માંડીને આવવા-જવાના સમય જેવી અનેક વિગતોના ટુકડા અગાઉથી સાગમટે રેકોર્ડ કરી દેવાય છે. પછી જરૂર પ્રમાણે એ ટુકડાને જોડીને અર્થપૂર્ણ વાક્ય બનાવવામાં આવે છે. પરંતુ એ વાક્ય ‘પ્રસારિત’ થતું હોય ત્યારે તેની કૃત્રિમતા ઉડીને આંખે વળગે--કે કાનને વાગે--એવી હોય છે.

માણસનો અવાજ પેદા કરવાની નહીં, પણ માણસના રેકોર્ડ થયેલા શબ્દોમાંથી ઇચ્છિત વાક્યો બનાવવાની ટેક્‌નોલોજી ‘સ્પીચ સિન્થેસીસ’ તરીકે ઓળખાય છે. વધારે ટેક્‌નિકલ નામ છે TTS (ટેક્સ્ટ ટુ સ્પીચ) આ ટેક્‌નોલોજી આદર્શ કરતાં ઘણી દૂર એ રીતે હતી કે તેમાં ઇનપુટના ‘કૂવા’માં હોય, એટલું જ આઉટપુટના ‘હવાડા’માં આવે. ધારો કે ગુલઝાર જેવા કોઇના અવાજમાં એક હજાર શબ્દો રેકોર્ડ કરાવી દીધા હોય અથવા અમિતાભ બચ્ચનની એક ફિલ્મના બધા સંવાદનો શબ્દેશબ્દ છૂટો પાડી દેવામાં આવે તો? એટલા શબ્દોની મર્યાદાની અંદર તેમના અવાજમાં કોઇ પણ વાક્ય બોલાવી શકાય--એવું વાક્ય, જે એ કદી બોલ્યા જ ન હોય. છતાં અવાજ તો તેમનો અસલ જ રહે. પરંતુ એ શબ્દભંડોળની બહારનો એક પણ શબ્દ એ અવાજમાં બોલાવી શકાય નહીં.

પહેલી નજરે સહેલી અને અકસીર લાગતી આ ટેક્‌નોલોજી વિશે જરા વધારે વિચારતાં સમજાશે કે શબ્દ ભલે એક હોય, પણ વાક્યે વાક્યે તે જુદી રીતે, જુદા ભાવ અથવા વજન સાથે બોલાતો હોય છે. માણસનું વાક્ય મશીન જેવું લાગતું નથી, તેમાં ભાવની ભૂમિકા બહુ અગત્યની છે. રેકોર્ડ થઇ ચૂકેલા શબ્દના ભાવમાં ફેરફાર ન કરી શકાય, એટલે અવાજ અસલ હોવા છતાં, આખું વાક્ય કૃત્રિમ લાગે. તેનો રસ્તો કાઢવા માટે શબ્દો ઉપરાંત તેના ઉચ્ચારની લઢણ જેવી વિગતોનો સંગ્રહ કરવાની પદ્ધતિ અપનાવવામાં આવી. ત્યાર પછી કોઇ પણ વાક્ય બનાવવાનું થાય, ત્યારે મશીન પાસેથી શબ્દોની પસંદગી ઉપરાંત ભાવની-ઉચ્ચારની ઢબની પસંદગી પણ કરાવી શકાય, એ શક્ય બન્યું. ‘પેરામેટ્રિક TTS’ તરીકે જાણીતી આ પદ્ધતિ એક ડગલું આગળ હોવા છતાં, તેના થકી સાંભળવા મળતા અવાજની ગુણવત્તા વધારે કૃત્રિમ લાગતી હતી. બેઠેબેઠા શબ્દોને બદલે તેમાં ભાવ ઉમેરવાની પ્રક્રિયા વધી, એમાં છેવટના પરિણાની કૃત્રિમતા પણ વધી.

આમ, મશીન પાસેથી લગભગ માણસ જેવા અવાજમાં ધાર્યું બોલાવવાનો મામલો થોડો ગુંચવાયેલો ને થોડો અટકી પડેલો જણાતો હતો. ત્યાં ગયા સપ્તાહે ‘ગુગલ’ની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ પર કામ કરતી કંપની ‘ડીપમાઇન્ડ’ની એક જાહેરાત મથાળાંમાં ચમકી. આ કંપનીએ શબ્દોને અવાજમાં ફેરવતી વખતે કૃત્રિમતાનો જે પ્રશ્ન ઊભો થાય છે, તેને દૂર કરવા માટે આર્ટિફિશ્યલ ઇન્ટેલિજન્સની મદદ લીધી. એ માટે ‘ડીપમાઇન્ડ’ના સંશોધકોએ ‘વેવનેટ’/Wavenet નામે ક્રાંતિકારી સોફ્‌ટવેર વિકસાવ્યું છે. અગાઉની ટેક્‌નોલોજીમાં પહેલાં માણસ પાસેથી શબ્દો બોલાવીને તેની ‘બેન્ક’ બનાવવામાં આવતી હતી. તેમાંથી શબ્દો કે અક્ષરો છૂટા પાડીને, માણસના અવાજમાં નવાં વાક્યો બનાવી શકાતાં હતાં. મૂળભૂત રીતે એ ‘કોપી-પેસ્ટ’નું સુધરેલું સ્વરૂપ થયું, જ્યારે ‘વેવનેટ’નો અભિગમ સર્જન કરવા જેવો છે. તેમાં પણ માણસના અવાજની જરૂર પડે છે--અવાજને પ્રયોગશાળામાં ‘પેદા’ કરાતો નથી. પરંતુ માણસ દ્વારા બોલાયેલા શબ્દો કે અક્ષરોનો સંગ્રહ કરવાને બદલે, માણસના અવાજનાં મૂળભૂત મોજાંનું જ વિશ્લેષણ કરવામાં આવે છે. એટલે તેમાં ફક્ત શબ્દો કે અક્ષરો જ નહીં, બોલનારના ચઢાવઉતાર, લઢણો, શ્વાસોચ્છવાસ સહિતની અઢળક બારીક વિગતો કમ્પ્યુટર નોંધે છે. આટલું ઝીણું કાંતવું આર્ટિફિશ્યલ ઇન્ટેલિજન્સ વિના અશક્ય છે. કેમ કે, આર્ટિફિશ્યલ ઇન્ટેલિજન્સ ધરાવતાં કમ્પ્યુટર પાસે પ્રચંડ સંગ્રહક્ષમતા અને વિશ્લેષણક્ષમતા હોય છે. (આ જ ‘ડીપમાઇન્ડ’ કંપનીની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ સીસ્ટમે ચેસ કરતાં પણ પેચીદી ગણાતા ‘આલ્ફાગો’ રમતમાં વર્લ્ડ ચેમ્પિયન ખેલાડીને હરાવી દીધો હતો, એ સમાચાર બહુ જૂના નથી.)

લેખિત શબ્દોને અવાજમાં ફેરવવા માટે ‘વેવનેટ’નો અભિગમ મૂળગામી છે. તે શબ્દો કે અક્ષરોને નહીં, અવાજના મૂળભૂત ઘટકોને પકડે છે અને તેનું વિશ્લેષણ કરીને પુષ્કળ માહિતીનો સંગ્રહ કરે છે. આ કામ કેટલી બારીકીથી થાય છે, તેનો એક નમૂનો ‘ડીપમાઇન્ડ’ના બ્લોગ પર આપવામાં આવ્યો છે. આ ટેક્‌નોલોજીમાં અવાજની પ્રત્યેક સેકંડનું નહીં, એક-એક મિલી સેકન્ડનું એટલે કે એક સેકન્ડના હજારમા ભાગનું વિશ્લેષણ અને અંકન (રેકોર્ડિંગ) કરવામાં આવે છે. આ કામ ભારે કૂથાવાળું છે. ફક્ત એક જ સેકન્ડના રેકોર્ડિંગનાં ૧૬ હજારથી પણ વધારે સેમ્પલ મળે છે. એટલું જ નહીં, એ દરેક સેમ્પલ તેની આગળનાં બધાં સેમ્પલ સાથે સીધો સંબંધ ધરાવે છે. કારણ કે માણસ જ્યારે બોલે છે ત્યારે તેના માટે તો એ સળંગ, અવિરત પ્રક્રિયા છે. એટલે વિશ્લેષણ કરતી વખતે પૂર્વાપર સંબંધ સમજવો જરૂરી બને છે. એક મિલી સેકન્ડના સેમ્પલનો સ્વતંત્ર રીતે ભાગ્યે જ કશો અર્થ નીપજી શકે, પણ તેને આગળનાં બધાં સેમ્પલના સંદર્ભે સમજવામાં આવે, તો તે અર્થપૂર્ણ બની રહે.

કોઇ પણ ધ્વનિનું એક સેકન્ડના ૧૬ હજાર કે વધુ ટુકડામાં વિશ્લેષણ કરતી અને માહિતી મેળવતી આ ટેકનોલોજી ફક્ત બોલાયેલા શબ્દોને નહીં, સંગીત સહિતના કોઇ પણ અવાજને ‘સમજી’ શકે છે. આર્ટિફિશ્યલ ઇન્ટેલિજન્સની કમાલ એ છે કે અઢળક માહિતીના સંગ્રહના આધારે તે નવી માહિતી ‘પેદા’ કરી શકે છે. સિતારના સંગીતનાં અઢળક રેકોર્ડિંગ તેને ‘આપવામાં’ આવે, તો તેમાંથી એ પોતાની રીતે ‘મૌલિક’ સંગીત સર્જી શકે છે. ‘ડીપમાઇન્ડ’ના સંશોધકોએ જાહેર કર્યું છે કે ‘વેવનેટ’ના ઝીણવટભર્યા દ્વારા વિશ્લેષણના પ્રતાપે હવે શબ્દને અવાજમાં ફેરવવાથી મળતું પરિણામ અસલ સાથે ૫૦ ટકા જેટલું સામ્ય ધરાવે છે, જે બહુ મોટી સિદ્ધિ ગણાય. અંગ્રેજી અને ચીની મેન્ડેરિન ભાષાનાં વાક્યોનાં આ રીતે પેદા કરાયેલાં સેમ્પલ અને મશીને સર્જેલા પિયાનોસંગીતના નમૂના બ્લોગ પર મૂકવામાં આવ્યા છે.

આર્ટિફિશ્યલ ઇન્ટેલિજન્સ અને ટેક્સ્ટ-ટુ-સર્ચના સંગમે અનેક રોમાંચકારી સંભાવનાઓ જગાડી છે. કુમાર સાનુએ ગાયેલું કોઇ ગીત કિશોરકુમારના અવાજમાં કે લતા મંગેશકરે ગાયેલું કોઇ ગીત ગીતા દત્તના અવાજમાં સાંભળવા મળે એ ટેકનોલોજીની દૃષ્ટિએ હવે વિજ્ઞાનકથાનો નહીં, એકાદ દાયકા દૂરના ભવિષ્યનો મામલો લાગે છે.

1 comment:

Hiren Joshi8:04:00 PM
Gujarati Article on latest science and Technology; and that too on Artificial Intelligence is probably first and foremost. Reminded me of Nagendra Vijay and Vijaygupta Maurya I used to read in childhood.
ReplyDelete
Replies

Add comment

gujarati world

Friday, September 23, 2016

માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ

1 comment:

Contact Form

Search This Blog

Followers

Blog Archive

About Me

links

my fav blogs

Reading List: Old Editions

Live Traffic

Labels

Related Resources

Other Resources

tracker