Friday, September 23, 2016
માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ
‘આવાઝકી દુનિયાકે
દોસ્તોં’ --આ શબ્દપ્રયોગ વિચારતાં
રેડિયોના કાર્યક્રમોની દુનિયા અને ઉદ્ઘોષકો-શ્રોતાઓ વચ્ચેની સંબંધસૃષ્ટિ તાજી
થાય. સ્માર્ટ ફોનના જમાનામાં ‘માલિક’નો ટાઇપ કરેલો નહીં, પણ બોલાયેલો ‘હુકમ’ ઝીલતાં અને ખપજોગી વાત
કરી જાણતાં વિવિધ સહાયકો ‘આવાઝકી દુનિયા’નો જ વિસ્તાર છે.
માણસ અને મશીન એકબીજા સાથે વાતો કરે અને મશીન તેને જેટલું
પઢાવ્યું હોય તેટલું નહીં, પણ પોતાની મેળે
બોલી શકે--એ સંશોધકોની બહુ જૂની કલ્પના રહી છે. પરંતુ કમ્પ્યુટર દ્વારા પેદા
કરાયેલા અવાજ કૃત્રિમતાનો અમીટ ઠપ્પો ધરાવે છે. જૂના વખતની વિજ્ઞાનકથા આધારિત
ફિલ્મોથી માંડીને કી-બોર્ડ જેવાં વાદ્યોમાં કમ્પ્યુટર કે રોબોટનો અવાજ ત્રૂટક અને
માણસને બદલે મશીન બોલે છે એવું પહેલી જ તકે જાહેર કરી દેનારો હતો. ત્યાર પછી
માણસના અવાજમાં વિવિધ શબ્દોનું ભંડોળ રેકોર્ડ કરીને, તેમાંથી મશીન પાસે જુદાં જુદાં વાક્યો બોલાવવાનું પ્રચલિત બન્યું. તેનું સૌથી ‘દેશી’ ઉદાહરણ રેલવે સ્ટેશન પર થતી ટ્રેનોની અવરજવર વિશેની જાહેરાતો છે. તેમાં
ટ્રેનના નામ-નંબર-પ્લેટફોર્મ નંબરથી માંડીને આવવા-જવાના સમય જેવી અનેક વિગતોના
ટુકડા અગાઉથી સાગમટે રેકોર્ડ કરી દેવાય છે. પછી જરૂર પ્રમાણે એ ટુકડાને જોડીને
અર્થપૂર્ણ વાક્ય બનાવવામાં આવે છે. પરંતુ એ વાક્ય ‘પ્રસારિત’ થતું હોય ત્યારે
તેની કૃત્રિમતા ઉડીને આંખે વળગે--કે કાનને વાગે--એવી હોય છે.
માણસનો અવાજ પેદા કરવાની નહીં, પણ માણસના રેકોર્ડ થયેલા શબ્દોમાંથી ઇચ્છિત વાક્યો બનાવવાની ટેક્નોલોજી ‘સ્પીચ સિન્થેસીસ’ તરીકે ઓળખાય છે. વધારે ટેક્નિકલ નામ છે TTS (ટેક્સ્ટ ટુ
સ્પીચ) આ ટેક્નોલોજી આદર્શ કરતાં ઘણી દૂર એ રીતે હતી કે તેમાં ઇનપુટના ‘કૂવા’માં હોય, એટલું જ આઉટપુટના
‘હવાડા’માં આવે. ધારો કે ગુલઝાર જેવા કોઇના અવાજમાં એક
હજાર શબ્દો રેકોર્ડ કરાવી દીધા હોય અથવા અમિતાભ બચ્ચનની એક ફિલ્મના બધા સંવાદનો
શબ્દેશબ્દ છૂટો પાડી દેવામાં આવે તો?
એટલા શબ્દોની
મર્યાદાની અંદર તેમના અવાજમાં કોઇ પણ વાક્ય બોલાવી શકાય--એવું વાક્ય, જે એ કદી બોલ્યા જ ન હોય. છતાં અવાજ તો તેમનો
અસલ જ રહે. પરંતુ એ શબ્દભંડોળની બહારનો એક પણ શબ્દ એ અવાજમાં બોલાવી શકાય નહીં.
પહેલી નજરે સહેલી અને અકસીર લાગતી આ ટેક્નોલોજી વિશે જરા
વધારે વિચારતાં સમજાશે કે શબ્દ ભલે એક હોય, પણ વાક્યે વાક્યે તે જુદી રીતે,
જુદા ભાવ અથવા
વજન સાથે બોલાતો હોય છે. માણસનું વાક્ય મશીન જેવું લાગતું નથી, તેમાં ભાવની ભૂમિકા બહુ અગત્યની છે. રેકોર્ડ થઇ
ચૂકેલા શબ્દના ભાવમાં ફેરફાર ન કરી શકાય, એટલે અવાજ અસલ હોવા છતાં, આખું વાક્ય
કૃત્રિમ લાગે. તેનો રસ્તો કાઢવા માટે શબ્દો ઉપરાંત તેના ઉચ્ચારની લઢણ જેવી વિગતોનો
સંગ્રહ કરવાની પદ્ધતિ અપનાવવામાં આવી. ત્યાર પછી કોઇ પણ વાક્ય બનાવવાનું થાય, ત્યારે મશીન પાસેથી શબ્દોની પસંદગી ઉપરાંત
ભાવની-ઉચ્ચારની ઢબની પસંદગી પણ કરાવી શકાય, એ શક્ય બન્યું. ‘પેરામેટ્રિક TTS’ તરીકે જાણીતી આ પદ્ધતિ એક
ડગલું આગળ હોવા છતાં, તેના થકી સાંભળવા
મળતા અવાજની ગુણવત્તા વધારે કૃત્રિમ લાગતી હતી. બેઠેબેઠા શબ્દોને બદલે તેમાં ભાવ ઉમેરવાની પ્રક્રિયા વધી, એમાં છેવટના પરિણાની કૃત્રિમતા પણ વધી.
આમ, મશીન પાસેથી લગભગ
માણસ જેવા અવાજમાં ધાર્યું બોલાવવાનો મામલો થોડો ગુંચવાયેલો ને થોડો અટકી પડેલો
જણાતો હતો. ત્યાં ગયા સપ્તાહે ‘ગુગલ’ની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ પર કામ કરતી કંપની ‘ડીપમાઇન્ડ’ની એક જાહેરાત મથાળાંમાં ચમકી. આ કંપનીએ શબ્દોને અવાજમાં ફેરવતી વખતે
કૃત્રિમતાનો જે પ્રશ્ન ઊભો થાય છે,
તેને દૂર કરવા
માટે આર્ટિફિશ્યલ ઇન્ટેલિજન્સની મદદ લીધી.
એ માટે ‘ડીપમાઇન્ડ’ના સંશોધકોએ ‘વેવનેટ’/Wavenet નામે ક્રાંતિકારી
સોફ્ટવેર વિકસાવ્યું છે. અગાઉની ટેક્નોલોજીમાં પહેલાં માણસ પાસેથી શબ્દો
બોલાવીને તેની ‘બેન્ક’ બનાવવામાં આવતી હતી. તેમાંથી શબ્દો કે અક્ષરો
છૂટા પાડીને, માણસના અવાજમાં
નવાં વાક્યો બનાવી શકાતાં હતાં. મૂળભૂત રીતે એ ‘કોપી-પેસ્ટ’નું સુધરેલું
સ્વરૂપ થયું, જ્યારે ‘વેવનેટ’નો અભિગમ સર્જન કરવા જેવો છે. તેમાં પણ માણસના અવાજની જરૂર પડે છે--અવાજને
પ્રયોગશાળામાં ‘પેદા’ કરાતો નથી. પરંતુ માણસ દ્વારા બોલાયેલા શબ્દો
કે અક્ષરોનો સંગ્રહ કરવાને બદલે, માણસના અવાજનાં
મૂળભૂત મોજાંનું જ વિશ્લેષણ કરવામાં આવે છે. એટલે તેમાં ફક્ત શબ્દો કે અક્ષરો જ
નહીં, બોલનારના ચઢાવઉતાર, લઢણો, શ્વાસોચ્છવાસ સહિતની અઢળક બારીક વિગતો કમ્પ્યુટર નોંધે છે. આટલું ઝીણું
કાંતવું આર્ટિફિશ્યલ ઇન્ટેલિજન્સ વિના અશક્ય છે. કેમ કે, આર્ટિફિશ્યલ ઇન્ટેલિજન્સ ધરાવતાં કમ્પ્યુટર
પાસે પ્રચંડ સંગ્રહક્ષમતા અને વિશ્લેષણક્ષમતા હોય છે. (આ જ ‘ડીપમાઇન્ડ’ કંપનીની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ સીસ્ટમે ચેસ કરતાં પણ પેચીદી ગણાતા ‘આલ્ફાગો’ રમતમાં વર્લ્ડ ચેમ્પિયન ખેલાડીને હરાવી દીધો હતો, એ સમાચાર બહુ જૂના નથી.)
લેખિત શબ્દોને અવાજમાં ફેરવવા માટે ‘વેવનેટ’નો અભિગમ મૂળગામી છે. તે શબ્દો કે અક્ષરોને નહીં, અવાજના મૂળભૂત ઘટકોને પકડે છે અને તેનું
વિશ્લેષણ કરીને પુષ્કળ માહિતીનો સંગ્રહ કરે છે. આ કામ કેટલી બારીકીથી થાય છે, તેનો એક નમૂનો ‘ડીપમાઇન્ડ’ના બ્લોગ પર
આપવામાં આવ્યો છે. આ ટેક્નોલોજીમાં અવાજની પ્રત્યેક સેકંડનું નહીં, એક-એક મિલી સેકન્ડનું એટલે કે એક સેકન્ડના
હજારમા ભાગનું વિશ્લેષણ અને અંકન (રેકોર્ડિંગ) કરવામાં આવે છે. આ કામ ભારે
કૂથાવાળું છે. ફક્ત એક જ સેકન્ડના રેકોર્ડિંગનાં ૧૬ હજારથી પણ વધારે સેમ્પલ મળે
છે. એટલું જ નહીં, એ દરેક સેમ્પલ
તેની આગળનાં બધાં સેમ્પલ સાથે સીધો સંબંધ ધરાવે છે. કારણ કે માણસ જ્યારે બોલે છે
ત્યારે તેના માટે તો એ સળંગ, અવિરત પ્રક્રિયા
છે. એટલે વિશ્લેષણ કરતી વખતે પૂર્વાપર સંબંધ સમજવો જરૂરી બને છે. એક મિલી સેકન્ડના
સેમ્પલનો સ્વતંત્ર રીતે ભાગ્યે જ કશો અર્થ નીપજી શકે, પણ તેને આગળનાં બધાં સેમ્પલના સંદર્ભે સમજવામાં
આવે, તો તે અર્થપૂર્ણ બની રહે.
કોઇ પણ ધ્વનિનું એક સેકન્ડના ૧૬ હજાર કે વધુ ટુકડામાં
વિશ્લેષણ કરતી અને માહિતી મેળવતી આ ટેકનોલોજી ફક્ત બોલાયેલા શબ્દોને નહીં, સંગીત સહિતના કોઇ પણ અવાજને ‘સમજી’ શકે છે. આર્ટિફિશ્યલ ઇન્ટેલિજન્સની કમાલ એ છે કે અઢળક માહિતીના સંગ્રહના આધારે
તે નવી માહિતી ‘પેદા’ કરી શકે છે. સિતારના સંગીતનાં અઢળક રેકોર્ડિંગ તેને
‘આપવામાં’ આવે, તો તેમાંથી એ પોતાની રીતે ‘મૌલિક’ સંગીત સર્જી શકે છે. ‘ડીપમાઇન્ડ’ના સંશોધકોએ જાહેર કર્યું છે કે ‘વેવનેટ’ના ઝીણવટભર્યા દ્વારા વિશ્લેષણના પ્રતાપે હવે શબ્દને અવાજમાં ફેરવવાથી મળતું
પરિણામ અસલ સાથે ૫૦ ટકા જેટલું સામ્ય ધરાવે છે, જે બહુ મોટી સિદ્ધિ ગણાય. અંગ્રેજી અને ચીની મેન્ડેરિન ભાષાનાં વાક્યોનાં આ
રીતે પેદા કરાયેલાં સેમ્પલ અને મશીને સર્જેલા પિયાનોસંગીતના નમૂના બ્લોગ પર
મૂકવામાં આવ્યા છે.
આર્ટિફિશ્યલ ઇન્ટેલિજન્સ અને ટેક્સ્ટ-ટુ-સર્ચના સંગમે અનેક રોમાંચકારી સંભાવનાઓ જગાડી છે. કુમાર સાનુએ ગાયેલું કોઇ ગીત કિશોરકુમારના
અવાજમાં કે લતા મંગેશકરે ગાયેલું કોઇ ગીત ગીતા દત્તના અવાજમાં સાંભળવા મળે એ ટેકનોલોજીની
દૃષ્ટિએ હવે વિજ્ઞાનકથાનો નહીં, એકાદ દાયકા દૂરના
ભવિષ્યનો મામલો લાગે છે.
Labels:
AI,
it,
music/સંગીત
Subscribe to:
Post Comments (Atom)
Gujarati Article on latest science and Technology; and that too on Artificial Intelligence is probably first and foremost. Reminded me of Nagendra Vijay and Vijaygupta Maurya I used to read in childhood.
ReplyDelete