gujarati world: માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ

‘આવાઝકી દુનિયાકે દોસ્તોં’ --આ શબ્દપ્રયોગ વિચારતાં રેડિયોના કાર્યક્રમોની દુનિયા અને ઉદ્‌ઘોષકો-શ્રોતાઓ વચ્ચેની સંબંધસૃષ્ટિ તાજી થાય. સ્માર્ટ ફોનના જમાનામાં ‘માલિક’નો ટાઇપ કરેલો નહીં, પણ બોલાયેલો ‘હુકમ’ ઝીલતાં અને ખપજોગી વાત કરી જાણતાં વિવિધ સહાયકો ‘આવાઝકી દુનિયા’નો જ વિસ્તાર છે.

માણસ અને મશીન એકબીજા સાથે વાતો કરે અને મશીન તેને જેટલું પઢાવ્યું હોય તેટલું નહીં, પણ પોતાની મેળે બોલી શકે--એ સંશોધકોની બહુ જૂની કલ્પના રહી છે. પરંતુ કમ્પ્યુટર દ્વારા પેદા કરાયેલા અવાજ કૃત્રિમતાનો અમીટ ઠપ્પો ધરાવે છે. જૂના વખતની વિજ્ઞાનકથા આધારિત ફિલ્મોથી માંડીને કી-બોર્ડ જેવાં વાદ્યોમાં કમ્પ્યુટર કે રોબોટનો અવાજ ત્રૂટક અને માણસને બદલે મશીન બોલે છે એવું પહેલી જ તકે જાહેર કરી દેનારો હતો. ત્યાર પછી માણસના અવાજમાં વિવિધ શબ્દોનું ભંડોળ રેકોર્ડ કરીને, તેમાંથી મશીન પાસે જુદાં જુદાં વાક્યો બોલાવવાનું પ્રચલિત બન્યું. તેનું સૌથી ‘દેશી’ ઉદાહરણ રેલવે સ્ટેશન પર થતી ટ્રેનોની અવરજવર વિશેની જાહેરાતો છે. તેમાં ટ્રેનના નામ-નંબર-પ્લેટફોર્મ નંબરથી માંડીને આવવા-જવાના સમય જેવી અનેક વિગતોના ટુકડા અગાઉથી સાગમટે રેકોર્ડ કરી દેવાય છે. પછી જરૂર પ્રમાણે એ ટુકડાને જોડીને અર્થપૂર્ણ વાક્ય બનાવવામાં આવે છે. પરંતુ એ વાક્ય ‘પ્રસારિત’ થતું હોય ત્યારે તેની કૃત્રિમતા ઉડીને આંખે વળગે--કે કાનને વાગે--એવી હોય છે.

માણસનો અવાજ પેદા કરવાની નહીં, પણ માણસના રેકોર્ડ થયેલા શબ્દોમાંથી ઇચ્છિત વાક્યો બનાવવાની ટેક્‌નોલોજી ‘સ્પીચ સિન્થેસીસ’ તરીકે ઓળખાય છે. વધારે ટેક્‌નિકલ નામ છે TTS (ટેક્સ્ટ ટુ સ્પીચ) આ ટેક્‌નોલોજી આદર્શ કરતાં ઘણી દૂર એ રીતે હતી કે તેમાં ઇનપુટના ‘કૂવા’માં હોય, એટલું જ આઉટપુટના ‘હવાડા’માં આવે. ધારો કે ગુલઝાર જેવા કોઇના અવાજમાં એક હજાર શબ્દો રેકોર્ડ કરાવી દીધા હોય અથવા અમિતાભ બચ્ચનની એક ફિલ્મના બધા સંવાદનો શબ્દેશબ્દ છૂટો પાડી દેવામાં આવે તો? એટલા શબ્દોની મર્યાદાની અંદર તેમના અવાજમાં કોઇ પણ વાક્ય બોલાવી શકાય--એવું વાક્ય, જે એ કદી બોલ્યા જ ન હોય. છતાં અવાજ તો તેમનો અસલ જ રહે. પરંતુ એ શબ્દભંડોળની બહારનો એક પણ શબ્દ એ અવાજમાં બોલાવી શકાય નહીં.

પહેલી નજરે સહેલી અને અકસીર લાગતી આ ટેક્‌નોલોજી વિશે જરા વધારે વિચારતાં સમજાશે કે શબ્દ ભલે એક હોય, પણ વાક્યે વાક્યે તે જુદી રીતે, જુદા ભાવ અથવા વજન સાથે બોલાતો હોય છે. માણસનું વાક્ય મશીન જેવું લાગતું નથી, તેમાં ભાવની ભૂમિકા બહુ અગત્યની છે. રેકોર્ડ થઇ ચૂકેલા શબ્દના ભાવમાં ફેરફાર ન કરી શકાય, એટલે અવાજ અસલ હોવા છતાં, આખું વાક્ય કૃત્રિમ લાગે. તેનો રસ્તો કાઢવા માટે શબ્દો ઉપરાંત તેના ઉચ્ચારની લઢણ જેવી વિગતોનો સંગ્રહ કરવાની પદ્ધતિ અપનાવવામાં આવી. ત્યાર પછી કોઇ પણ વાક્ય બનાવવાનું થાય, ત્યારે મશીન પાસેથી શબ્દોની પસંદગી ઉપરાંત ભાવની-ઉચ્ચારની ઢબની પસંદગી પણ કરાવી શકાય, એ શક્ય બન્યું. ‘પેરામેટ્રિક TTS’ તરીકે જાણીતી આ પદ્ધતિ એક ડગલું આગળ હોવા છતાં, તેના થકી સાંભળવા મળતા અવાજની ગુણવત્તા વધારે કૃત્રિમ લાગતી હતી. બેઠેબેઠા શબ્દોને બદલે તેમાં ભાવ ઉમેરવાની પ્રક્રિયા વધી, એમાં છેવટના પરિણાની કૃત્રિમતા પણ વધી.

આમ, મશીન પાસેથી લગભગ માણસ જેવા અવાજમાં ધાર્યું બોલાવવાનો મામલો થોડો ગુંચવાયેલો ને થોડો અટકી પડેલો જણાતો હતો. ત્યાં ગયા સપ્તાહે ‘ગુગલ’ની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ પર કામ કરતી કંપની ‘ડીપમાઇન્ડ’ની એક જાહેરાત મથાળાંમાં ચમકી. આ કંપનીએ શબ્દોને અવાજમાં ફેરવતી વખતે કૃત્રિમતાનો જે પ્રશ્ન ઊભો થાય છે, તેને દૂર કરવા માટે આર્ટિફિશ્યલ ઇન્ટેલિજન્સની મદદ લીધી. એ માટે ‘ડીપમાઇન્ડ’ના સંશોધકોએ ‘વેવનેટ’/Wavenet નામે ક્રાંતિકારી સોફ્‌ટવેર વિકસાવ્યું છે. અગાઉની ટેક્‌નોલોજીમાં પહેલાં માણસ પાસેથી શબ્દો બોલાવીને તેની ‘બેન્ક’ બનાવવામાં આવતી હતી. તેમાંથી શબ્દો કે અક્ષરો છૂટા પાડીને, માણસના અવાજમાં નવાં વાક્યો બનાવી શકાતાં હતાં. મૂળભૂત રીતે એ ‘કોપી-પેસ્ટ’નું સુધરેલું સ્વરૂપ થયું, જ્યારે ‘વેવનેટ’નો અભિગમ સર્જન કરવા જેવો છે. તેમાં પણ માણસના અવાજની જરૂર પડે છે--અવાજને પ્રયોગશાળામાં ‘પેદા’ કરાતો નથી. પરંતુ માણસ દ્વારા બોલાયેલા શબ્દો કે અક્ષરોનો સંગ્રહ કરવાને બદલે, માણસના અવાજનાં મૂળભૂત મોજાંનું જ વિશ્લેષણ કરવામાં આવે છે. એટલે તેમાં ફક્ત શબ્દો કે અક્ષરો જ નહીં, બોલનારના ચઢાવઉતાર, લઢણો, શ્વાસોચ્છવાસ સહિતની અઢળક બારીક વિગતો કમ્પ્યુટર નોંધે છે. આટલું ઝીણું કાંતવું આર્ટિફિશ્યલ ઇન્ટેલિજન્સ વિના અશક્ય છે. કેમ કે, આર્ટિફિશ્યલ ઇન્ટેલિજન્સ ધરાવતાં કમ્પ્યુટર પાસે પ્રચંડ સંગ્રહક્ષમતા અને વિશ્લેષણક્ષમતા હોય છે. (આ જ ‘ડીપમાઇન્ડ’ કંપનીની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ સીસ્ટમે ચેસ કરતાં પણ પેચીદી ગણાતા ‘આલ્ફાગો’ રમતમાં વર્લ્ડ ચેમ્પિયન ખેલાડીને હરાવી દીધો હતો, એ સમાચાર બહુ જૂના નથી.)

લેખિત શબ્દોને અવાજમાં ફેરવવા માટે ‘વેવનેટ’નો અભિગમ મૂળગામી છે. તે શબ્દો કે અક્ષરોને નહીં, અવાજના મૂળભૂત ઘટકોને પકડે છે અને તેનું વિશ્લેષણ કરીને પુષ્કળ માહિતીનો સંગ્રહ કરે છે. આ કામ કેટલી બારીકીથી થાય છે, તેનો એક નમૂનો ‘ડીપમાઇન્ડ’ના બ્લોગ પર આપવામાં આવ્યો છે. આ ટેક્‌નોલોજીમાં અવાજની પ્રત્યેક સેકંડનું નહીં, એક-એક મિલી સેકન્ડનું એટલે કે એક સેકન્ડના હજારમા ભાગનું વિશ્લેષણ અને અંકન (રેકોર્ડિંગ) કરવામાં આવે છે. આ કામ ભારે કૂથાવાળું છે. ફક્ત એક જ સેકન્ડના રેકોર્ડિંગનાં ૧૬ હજારથી પણ વધારે સેમ્પલ મળે છે. એટલું જ નહીં, એ દરેક સેમ્પલ તેની આગળનાં બધાં સેમ્પલ સાથે સીધો સંબંધ ધરાવે છે. કારણ કે માણસ જ્યારે બોલે છે ત્યારે તેના માટે તો એ સળંગ, અવિરત પ્રક્રિયા છે. એટલે વિશ્લેષણ કરતી વખતે પૂર્વાપર સંબંધ સમજવો જરૂરી બને છે. એક મિલી સેકન્ડના સેમ્પલનો સ્વતંત્ર રીતે ભાગ્યે જ કશો અર્થ નીપજી શકે, પણ તેને આગળનાં બધાં સેમ્પલના સંદર્ભે સમજવામાં આવે, તો તે અર્થપૂર્ણ બની રહે.

કોઇ પણ ધ્વનિનું એક સેકન્ડના ૧૬ હજાર કે વધુ ટુકડામાં વિશ્લેષણ કરતી અને માહિતી મેળવતી આ ટેકનોલોજી ફક્ત બોલાયેલા શબ્દોને નહીં, સંગીત સહિતના કોઇ પણ અવાજને ‘સમજી’ શકે છે. આર્ટિફિશ્યલ ઇન્ટેલિજન્સની કમાલ એ છે કે અઢળક માહિતીના સંગ્રહના આધારે તે નવી માહિતી ‘પેદા’ કરી શકે છે. સિતારના સંગીતનાં અઢળક રેકોર્ડિંગ તેને ‘આપવામાં’ આવે, તો તેમાંથી એ પોતાની રીતે ‘મૌલિક’ સંગીત સર્જી શકે છે. ‘ડીપમાઇન્ડ’ના સંશોધકોએ જાહેર કર્યું છે કે ‘વેવનેટ’ના ઝીણવટભર્યા દ્વારા વિશ્લેષણના પ્રતાપે હવે શબ્દને અવાજમાં ફેરવવાથી મળતું પરિણામ અસલ સાથે ૫૦ ટકા જેટલું સામ્ય ધરાવે છે, જે બહુ મોટી સિદ્ધિ ગણાય. અંગ્રેજી અને ચીની મેન્ડેરિન ભાષાનાં વાક્યોનાં આ રીતે પેદા કરાયેલાં સેમ્પલ અને મશીને સર્જેલા પિયાનોસંગીતના નમૂના બ્લોગ પર મૂકવામાં આવ્યા છે.

આર્ટિફિશ્યલ ઇન્ટેલિજન્સ અને ટેક્સ્ટ-ટુ-સર્ચના સંગમે અનેક રોમાંચકારી સંભાવનાઓ જગાડી છે. કુમાર સાનુએ ગાયેલું કોઇ ગીત કિશોરકુમારના અવાજમાં કે લતા મંગેશકરે ગાયેલું કોઇ ગીત ગીતા દત્તના અવાજમાં સાંભળવા મળે એ ટેકનોલોજીની દૃષ્ટિએ હવે વિજ્ઞાનકથાનો નહીં, એકાદ દાયકા દૂરના ભવિષ્યનો મામલો લાગે છે.

gujarati world

Friday, September 23, 2016

માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ

1 comment: