Friday, September 23, 2016

માણસના અવાજની લગભગ અસલ જેવી નકલ : વેવનેટ


આવાઝકી દુનિયાકે દોસ્તોં’ --આ શબ્દપ્રયોગ વિચારતાં રેડિયોના કાર્યક્રમોની દુનિયા અને ઉદ્‌ઘોષકો-શ્રોતાઓ વચ્ચેની સંબંધસૃષ્ટિ તાજી થાય. સ્માર્ટ ફોનના જમાનામાં માલિકનો ટાઇપ કરેલો નહીં, પણ બોલાયેલો હુકમઝીલતાં અને ખપજોગી વાત કરી જાણતાં વિવિધ સહાયકો આવાઝકી દુનિયાનો જ વિસ્તાર છે.

માણસ અને મશીન એકબીજા સાથે વાતો કરે અને મશીન તેને જેટલું પઢાવ્યું હોય તેટલું નહીં, પણ પોતાની મેળે બોલી શકે--એ સંશોધકોની બહુ જૂની કલ્પના રહી છે. પરંતુ કમ્પ્યુટર દ્વારા પેદા કરાયેલા અવાજ કૃત્રિમતાનો અમીટ ઠપ્પો ધરાવે છે. જૂના વખતની વિજ્ઞાનકથા આધારિત ફિલ્મોથી માંડીને કી-બોર્ડ જેવાં વાદ્યોમાં કમ્પ્યુટર કે રોબોટનો અવાજ ત્રૂટક અને માણસને બદલે મશીન બોલે છે એવું પહેલી જ તકે જાહેર કરી દેનારો હતો. ત્યાર પછી માણસના અવાજમાં વિવિધ શબ્દોનું ભંડોળ રેકોર્ડ કરીને, તેમાંથી મશીન પાસે જુદાં જુદાં વાક્યો બોલાવવાનું પ્રચલિત બન્યું. તેનું સૌથી દેશીઉદાહરણ રેલવે સ્ટેશન પર થતી ટ્રેનોની અવરજવર વિશેની જાહેરાતો છે. તેમાં ટ્રેનના નામ-નંબર-પ્લેટફોર્મ નંબરથી માંડીને આવવા-જવાના સમય જેવી અનેક વિગતોના ટુકડા અગાઉથી સાગમટે રેકોર્ડ કરી દેવાય છે. પછી જરૂર પ્રમાણે એ ટુકડાને જોડીને અર્થપૂર્ણ વાક્ય બનાવવામાં આવે છે. પરંતુ એ વાક્ય પ્રસારિતથતું હોય ત્યારે તેની કૃત્રિમતા ઉડીને આંખે વળગે--કે કાનને વાગે--એવી હોય છે.

માણસનો અવાજ પેદા કરવાની નહીં, પણ માણસના રેકોર્ડ થયેલા શબ્દોમાંથી ઇચ્છિત વાક્યો બનાવવાની ટેક્‌નોલોજી સ્પીચ સિન્થેસીસતરીકે ઓળખાય છે. વધારે ટેક્‌નિકલ નામ છે TTS (ટેક્સ્ટ ટુ સ્પીચ) આ ટેક્‌નોલોજી આદર્શ કરતાં ઘણી દૂર એ રીતે હતી કે તેમાં ઇનપુટના કૂવામાં હોય, એટલું જ આઉટપુટના હવાડામાં આવે. ધારો કે ગુલઝાર જેવા કોઇના અવાજમાં એક હજાર શબ્દો રેકોર્ડ કરાવી દીધા હોય અથવા અમિતાભ બચ્ચનની એક ફિલ્મના બધા સંવાદનો શબ્દેશબ્દ છૂટો પાડી દેવામાં આવે તો? એટલા શબ્દોની મર્યાદાની અંદર તેમના અવાજમાં કોઇ પણ વાક્ય બોલાવી શકાય--એવું વાક્ય, જે એ કદી બોલ્યા જ ન હોય. છતાં અવાજ તો તેમનો અસલ જ રહે. પરંતુ એ શબ્દભંડોળની બહારનો એક પણ શબ્દ એ અવાજમાં બોલાવી શકાય નહીં.

પહેલી નજરે સહેલી અને અકસીર લાગતી આ ટેક્‌નોલોજી વિશે જરા વધારે વિચારતાં સમજાશે કે શબ્દ ભલે એક હોય, પણ વાક્યે વાક્યે તે જુદી રીતે, જુદા ભાવ અથવા વજન સાથે બોલાતો હોય છે. માણસનું વાક્ય મશીન જેવું લાગતું નથી, તેમાં ભાવની ભૂમિકા બહુ અગત્યની છે. રેકોર્ડ થઇ ચૂકેલા શબ્દના ભાવમાં ફેરફાર ન કરી શકાય, એટલે અવાજ અસલ હોવા છતાં, આખું વાક્ય કૃત્રિમ લાગે. તેનો રસ્તો કાઢવા માટે શબ્દો ઉપરાંત તેના ઉચ્ચારની લઢણ જેવી વિગતોનો સંગ્રહ કરવાની પદ્ધતિ અપનાવવામાં આવી. ત્યાર પછી કોઇ પણ વાક્ય બનાવવાનું થાય, ત્યારે મશીન પાસેથી શબ્દોની પસંદગી ઉપરાંત ભાવની-ઉચ્ચારની ઢબની પસંદગી પણ કરાવી શકાય, એ શક્ય બન્યું. પેરામેટ્રિક TTS’ તરીકે જાણીતી આ પદ્ધતિ એક ડગલું આગળ હોવા છતાં, તેના થકી સાંભળવા મળતા અવાજની ગુણવત્તા વધારે કૃત્રિમ લાગતી હતી. બેઠેબેઠા શબ્દોને બદલે  તેમાં ભાવ ઉમેરવાની પ્રક્રિયા વધી, એમાં છેવટના પરિણાની કૃત્રિમતા પણ વધી.

આમ, મશીન પાસેથી લગભગ માણસ જેવા અવાજમાં ધાર્યું બોલાવવાનો મામલો થોડો ગુંચવાયેલો ને થોડો અટકી પડેલો જણાતો હતો. ત્યાં ગયા સપ્તાહે ગુગલની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ પર કામ કરતી કંપની ડીપમાઇન્ડની એક જાહેરાત મથાળાંમાં ચમકી. આ કંપનીએ શબ્દોને અવાજમાં ફેરવતી વખતે કૃત્રિમતાનો જે પ્રશ્ન ઊભો થાય છે, તેને દૂર કરવા માટે આર્ટિફિશ્યલ ઇન્ટેલિજન્સની મદદ લીધી.  એ માટે ડીપમાઇન્ડના સંશોધકોએ વેવનેટ’/Wavenet નામે ક્રાંતિકારી સોફ્‌ટવેર વિકસાવ્યું છે. અગાઉની ટેક્‌નોલોજીમાં પહેલાં માણસ પાસેથી શબ્દો બોલાવીને તેની બેન્કબનાવવામાં આવતી હતી. તેમાંથી શબ્દો કે અક્ષરો છૂટા પાડીને, માણસના અવાજમાં નવાં વાક્યો બનાવી શકાતાં હતાં. મૂળભૂત રીતે એ કોપી-પેસ્ટનું સુધરેલું સ્વરૂપ થયું, જ્યારે વેવનેટનો અભિગમ સર્જન કરવા જેવો છે. તેમાં પણ માણસના અવાજની જરૂર પડે છે--અવાજને પ્રયોગશાળામાં પેદાકરાતો નથી. પરંતુ માણસ દ્વારા બોલાયેલા શબ્દો કે અક્ષરોનો સંગ્રહ કરવાને બદલે, માણસના અવાજનાં મૂળભૂત મોજાંનું જ વિશ્લેષણ કરવામાં આવે છે. એટલે તેમાં ફક્ત શબ્દો કે અક્ષરો જ નહીં, બોલનારના ચઢાવઉતાર, લઢણો, શ્વાસોચ્છવાસ સહિતની અઢળક બારીક વિગતો કમ્પ્યુટર નોંધે છે. આટલું ઝીણું કાંતવું આર્ટિફિશ્યલ ઇન્ટેલિજન્સ વિના અશક્ય છે. કેમ કે, આર્ટિફિશ્યલ ઇન્ટેલિજન્સ ધરાવતાં કમ્પ્યુટર પાસે પ્રચંડ સંગ્રહક્ષમતા અને વિશ્લેષણક્ષમતા હોય છે. (આ જ ડીપમાઇન્ડકંપનીની આર્ટિફિશ્યલ ઇન્ટેલિજન્સ સીસ્ટમે ચેસ કરતાં પણ પેચીદી ગણાતા આલ્ફાગોરમતમાં વર્લ્ડ ચેમ્પિયન ખેલાડીને હરાવી દીધો હતો, એ સમાચાર બહુ જૂના નથી.)

લેખિત શબ્દોને અવાજમાં ફેરવવા માટે વેવનેટનો અભિગમ મૂળગામી છે. તે શબ્દો કે અક્ષરોને નહીં, અવાજના મૂળભૂત ઘટકોને પકડે છે અને તેનું વિશ્લેષણ કરીને પુષ્કળ માહિતીનો સંગ્રહ કરે છે. આ કામ કેટલી બારીકીથી થાય છે, તેનો એક નમૂનો ડીપમાઇન્ડના બ્લોગ પર આપવામાં આવ્યો છે. આ ટેક્‌નોલોજીમાં અવાજની પ્રત્યેક સેકંડનું નહીં, એક-એક મિલી સેકન્ડનું એટલે કે એક સેકન્ડના હજારમા ભાગનું વિશ્લેષણ અને અંકન (રેકોર્ડિંગ) કરવામાં આવે છે. આ કામ ભારે કૂથાવાળું છે. ફક્ત એક જ સેકન્ડના રેકોર્ડિંગનાં ૧૬ હજારથી પણ વધારે સેમ્પલ મળે છે. એટલું જ નહીં, એ દરેક સેમ્પલ તેની આગળનાં બધાં સેમ્પલ સાથે સીધો સંબંધ ધરાવે છે. કારણ કે માણસ જ્યારે બોલે છે ત્યારે તેના માટે તો એ સળંગ, અવિરત પ્રક્રિયા છે. એટલે વિશ્લેષણ કરતી વખતે પૂર્વાપર સંબંધ સમજવો જરૂરી બને છે. એક મિલી સેકન્ડના સેમ્પલનો સ્વતંત્ર રીતે ભાગ્યે જ કશો અર્થ નીપજી શકે, પણ તેને આગળનાં બધાં સેમ્પલના સંદર્ભે સમજવામાં આવે, તો તે અર્થપૂર્ણ બની રહે.

કોઇ પણ ધ્વનિનું એક સેકન્ડના ૧૬ હજાર કે વધુ ટુકડામાં વિશ્લેષણ કરતી અને માહિતી મેળવતી આ ટેકનોલોજી ફક્ત બોલાયેલા શબ્દોને નહીં, સંગીત સહિતના કોઇ પણ અવાજને સમજીશકે છે. આર્ટિફિશ્યલ ઇન્ટેલિજન્સની કમાલ એ છે કે અઢળક માહિતીના સંગ્રહના આધારે તે નવી માહિતી પેદાકરી શકે છે. સિતારના સંગીતનાં અઢળક રેકોર્ડિંગ તેને આપવામાં આવે, તો તેમાંથી એ પોતાની રીતે મૌલિકસંગીત સર્જી શકે છે. ડીપમાઇન્ડના સંશોધકોએ જાહેર કર્યું છે કે વેવનેટના ઝીણવટભર્યા દ્વારા વિશ્લેષણના પ્રતાપે હવે શબ્દને અવાજમાં ફેરવવાથી મળતું પરિણામ અસલ સાથે ૫૦ ટકા જેટલું સામ્ય ધરાવે છે, જે બહુ મોટી સિદ્ધિ ગણાય. અંગ્રેજી અને ચીની મેન્ડેરિન ભાષાનાં વાક્યોનાં આ રીતે પેદા કરાયેલાં સેમ્પલ અને મશીને સર્જેલા પિયાનોસંગીતના નમૂના બ્લોગ પર મૂકવામાં આવ્યા છે.


આર્ટિફિશ્યલ ઇન્ટેલિજન્સ અને ટેક્સ્ટ-ટુ-સર્ચના સંગમે  અનેક રોમાંચકારી સંભાવનાઓ જગાડી છે.  કુમાર સાનુએ ગાયેલું કોઇ ગીત કિશોરકુમારના અવાજમાં કે લતા મંગેશકરે ગાયેલું કોઇ ગીત ગીતા દત્તના અવાજમાં સાંભળવા મળે એ ટેકનોલોજીની દૃષ્ટિએ હવે વિજ્ઞાનકથાનો નહીં, એકાદ દાયકા દૂરના ભવિષ્યનો મામલો લાગે છે.

1 comment:

  1. Hiren Joshi8:04:00 PM

    Gujarati Article on latest science and Technology; and that too on Artificial Intelligence is probably first and foremost. Reminded me of Nagendra Vijay and Vijaygupta Maurya I used to read in childhood.

    ReplyDelete