Big Dataபெருந்தகவல்

பெருந்தகவல் (Big Data)
– இரா.முருகன்

—————————————————————-

பென்சில். அதை வைத்து துண்டு காகிதத்தில் அவசரமாகத் தொலைபேசி எண் எழுதி வைக்கலாம். ஆயிரத்து முன்னூற்று எண்பத்தெட்டை அறுபத்தேழால் பெருக்கினால் என்ன எண் வரும் என்று அதே காகிதத்தில் மிச்ச இடம் இருந்தால் கணக்குப் போட்டுப் பார்க்கலாம். படிக்கிற புத்தகத்தில் பிடிக்கிற இடங்களைக் கோடு போட்டு அலங்காரமோ அலங்கோலமோ படுத்தலாம். முனை மழுங்கினால் சீவலாம். காணாமல் போனால் இன்னொரு பென்சில் வாங்கலாம்.

பென்சிலை வைத்துச் செய்யக் கூடியவை இவை எல்லாம். பென்சிலைப் பற்றிச் செய்ய என்ன உண்டு?

தகவல் சேர்க்கலாம். புதிதாக எடுத்த பென்சிலை வைத்துக் கோடு இழுத்துக் கொண்டே போனால், பென்சில் முழுவதும் கரைவதற்குள் 35 மைல் கோடு இழுத்திருப்போம். நிலவுக்குப் போகும்போது புவி ஈர்ப்பு இல்லாத காரணத்தால் பேனாவில் மசியின் ஓட்டம் தடைப்பட்டு எழுத முடியாமல் போகலாம். பென்சிலுக்கு அந்தப் பிரச்சனை இல்லை. நாமும் அந்தரத்தில் மிதந்து பென்சிலும் மிதந்தால் கூட இழுத்துப் பிடித்துப் பறந்தபடியே புதுக்கவிதை எழுதலாம். இன்னும் உலகின் பழைய பென்சிலின் படம், காந்தி பயன்படுத்திய பென்சில். பென்சில் பற்றி யாரோ தலைவர் எப்போதோ பேசியதன் ஒலிப்பதிவு, நேற்று குழந்தைக் கவிஞர் எழுதிய ‘இளம் வயதில் உயரமாக இருந்து, வயதானால், சீவிச் சீவிக் குள்ளமான பென்சில்’ பற்றிய பாட்டு.. தகவல் சேகரிப்புக்கு பென்சில் நீளமே எல்லை. அதுவும் கடந்து வானமே எல்லை.

பென்சில் மட்டுமிலலை, ஒவ்வொரு பொருள், மனிதர்கள், நிகழ்ச்சி, அறிவியல் ஆய்வு, பொருளாதாரம், வங்கித் தொழில், வணிகம், கர்னாடக சங்கீதம், கானா பாட்டு இப்படி சகலமானது பற்றியும் சேகரித்து வைத்துப் பகிர்ந்து கொள்ளத் தகவல் நிறைய உண்டு. காலத் தேர் முன்னோக்கி உருள உருள, தகவல்கள் கூடிக் கொண்டே போகின்றன. தலைப்புகள் முளைத்தபடி இருக்கின்றன.

எல்லா அலுவலகத்திலும் இருக்கப்பட்ட மனித வள மேம்பாட்டுத் துறையை எடுத்துக் கொள்வோம். அந்த அலுவலகத்தில் பணிபுரியும், பணி புரிந்த, வேலைக்குத் தேர்ந்தெடுக்கப்பட்டிருப்பவர்கள் எல்லோரைப் பற்றியும் பெயர், விலாசம், புகைப்படம், கல்வித் தகுதி, வேலை, ஊதியம் என்று தொடங்கி, ஏகப்பட்ட தகவல்கள் கணினித் தகவல் தளத்தில் (டேட்டாபேஸ்) சேகரித்து வைக்க வேண்டும். மாதாந்திர சம்பளப் பட்டுவாடாவில் இருந்து எத்தனையோ அலுவலகப் பணிகளுக்கு இப்படிச் சேமித்த தகவலைப் பயன்படுத்த நேரும்.

இருபது வருஷம் முன்பு அலுவலகத்தில் ஒரு கம்ப்யூட்டரிலோ அல்லது ஒன்றுக்கு மேற்பட்ட கணினிகள் இணைந்த வலைப் பின்னலிலோ இப்படியான மனித வளத் துறை தகவல்களை சேர்த்து வைத்து, பயன்படுத்தலாம். மிஞ்சிப் போனால் ஒரு கிகாபைட் அளவு தகவல் மொத்தமாக. ஆரக்கிள், சைபேஸ், எஸ்க்யூஎல் செர்வர் இப்படியான தகவல் பரப்பு, அதை இயக்க மென்பொருள் கொண்டு இந்தத் தகவலை சுளுவாக நெறிப்படுத்தி சம்பளப் பட்டியலோ, தீபாவளி போனஸ் கணக்கோ போடலாம். வாழ்க்கையும் கணக்கும் சிக்கல் குறைந்து இருந்த காலம் அது.

இன்றைக்கு மனித வளத் துறைக்கு அடிப்படைத் தகவல் மட்டும் போதாது. புதிதாக வேலைக்கு சேர்ந்த ஊழியர் அளிக்கும் கல்விச் சான்றிதழ் உண்மையிலேயே சான்றிதழில் இருக்கும் பல்கலைக் கழகம் அளித்ததா, அப்படி ஒரு பல்கலைக் கழகம் இருக்கிறதா, அவர் முகவரி சரிதானா என்று ஆயிரத்தெட்டு தொடர்புடைய தகவல்களை ‘பின்னணி சரி பார்க்க’ நிறுவனத்தின் கம்ப்யூட்டரில் ஏற்ற வேண்டும். இன்னும் நேர்காணல்களின் வீடியோ பதிவுகள், தொலைபேசிப் பதிவுகள், படமாக்கப்பட்ட சான்றிதழ் பதிவுகள் என்று எத்தனையோ விதமான தகவல்கள் சேகரிக்கவும் பயன்படுத்தவுமான நிலை.

ஆயிரக் கணக்கில் ஊழியர்கள் உள்ள நிறுவனம் என்றால் மெகாபைட், கிகாபைட் எல்லாம் எகிறி, எக்ஸாபைட் அளவில் தான் இத்தனை தகவல் தேவை என்று கணக்கிட முடியும். எக்ஸாபைட்? பத்து பெருக்கல் பத்து பெருக்கல் பத்து பெருக்கல் பத்து என்று பதினெட்டு தடவை பெருக்கிக் கொண்டே போனால் கிடைக்கும் தகவல் துண்டுகள்! ஒரு கம்ப்யூட்டரிலோ வலைப்பின்னலிலோ சேகரித்து ஆரக்கிளும் சைபேஸும் இவ்வளவு தகவலைக் கையாண்டு வேண்டுவ்ன வேண்டியபடி எடுத்துத் தருவது மலையைத் தலைமுடி கட்டி இழுக்கிற பணியாகி விடும்.

பணி விவரத்துக்கே இந்தச் சவாலான சூழல் என்றால், தமிழ்த் திரைப்படங்கள் பற்றி ஒரு தகவல் பரப்பு அமைக்க வேண்டுமானால் எப்படி இருக்கும்? இதுவரை வெளிவந்த ஆயிரக் கணக்கான தமிழ்ப் படங்களில் டிஜிட்டல் வடிவங்கள், இசை, பட உருவாக்கம் பற்றிய தகவல்கள், படத்தை அறிவித்ததுமே போடப்பட்ட வழக்குகள், தீர்ப்பு விவரங்கள், வசூல் விவரங்கள், நடிகர்கள், தொழில் நுட்பக் கலைஞர்கள் பற்றிய விவரங்கள் என்று தகவல் பெருகிக் கொண்டே போகும்.

போக்குவரத்து, பங்குச் சந்தையில் வணிக நடவடிக்கைகள் என்று குறிப்பிட்ட பணிகளுக்கு இப்படி மலையாகக் குவியும் தகவலில் இருந்து விரைவாகவும், சரியான வழியிலும் தேடி, அடுத்த நிமிடம், அடுத்த மணி நேரம், அடுத்த நாள் எப்படி இந்த நடவடிக்கைகள் நிகழும் என்று தர்க்க ரீதியான ஆருடம் கணிக்க வேண்டி இருக்கும். நாம் புழங்கும் சாமான்யமான தகவல், நெறிப்படுத்தல் இல்லை இதெல்லாம். பெருந்தகவல் (Big Data) என்று இதன் சிறப்பு கருதிப் பட்டம் சூட்டி விடலாம்.

பெருந்தகவல் என்பது குறித்து ஒரு வாக்கியத்தில் சின்னஞ்சிறு குறிப்பு வரைக என்று கேட்டால், அதெல்லாம் முடியாது என்று வெளிநடப்பு செய்யாமல் சொல்ல இதோ பதில் – இன்றைக்கு நடைமுறையில் இருக்கும் எளிய தகவல் தளங்களில் கையாள முடியாமல், சிறப்பு நடவடிக்கை மூலம் கையாளப்பட வேண்டிய பிரம்மாண்டமான தகவல் அடுக்குகள். இவை அதிவேக உருவாக்கம், அதிகக் கொள்ளளவு, அதிக வகைகள் என்று மூன்று குணாதிசயம் கொண்டவை.

இம்மாதிரி தகவலை உருவாக்க, பிரித்தெடுக்க, தேவையற்றதை நீக்கி சுத்தப்படுத்தி இடம் மாற்ற, சேமிக்க, நெறிப்படுத்த, பொருத்திப் பார்க்க என்று பெருந்தகவல் தொடர்பான சவால்கள் தொடருமே தவிரக் குறையாது.

தினசரி உலகில் வணிக, தொழில், அறிவியல் என்று பல துறை சார்ந்து உருவாகும் தகவல் கிட்டத்தட்ட இரண்டரை எக்ஸாபைட். அதைப் போல் பல மடங்கு தகவலைச் சேமித்து வைக்க கணினி வன்பொருள் சாதனங்கள், இணையத்தில் ஏற்படுத்திக் கொள்ள இயலும் மேகக் கணினிகள், பல இடங்களில் அமைந்து ஒருங்கே இயங்கும் கணினி அமைப்புகள் என்று பல முறைகள் புழக்கத்தில் வந்து விட்டன. இருபது வருடம் முன், நாம் கையில் சில மெகாபைட்கள் கொள்ளளவு கொண்ட ப்ளாப்பிகளோடு அலுவலகங்களில் திரிந்து கொண்டிருந்தோம். இப்போதோ, சட்டைப் பையில் நூறு, இருநூறு கிகாபைட் தகவல் சேகரிக்கும் செருகு தகடுகளோடு (பென் டிரைவ்) நடமாடிக் கொண்டிருக்கிறோம். சேமிப்பு பரப்புக்காகத் தரவேண்டிய விலையும் பத்து மடங்கு விழுந்திருக்கிறது. உலகிலேயே தொடர்ந்து விலை சரியும் ஒரே பொருள் கணினி வன்பொருளாகத்தான் இருக்கும்.

போன வாரம் லெபனான் நாட்டுக் கடற்கரையை ஒட்டி இருபத்தைந்து ட்ரில்லியன் கன அடி நில வாயு இருப்பதாகக் கண்டுபிடிக்கப்பட்டது (ஒரு ட்ரில்லியன் என்பது ஒன்றுக்கு அடுத்து பனிரெண்டு பூஜ்யங்கள் – அதாவது மில்லியன் மில்லியன்கள்!). அகன்ற நிலப்பரப்பு, மிக அடர்த்தியான வாயு கையிருப்பு. நிலத்தடியிலும் மேற்பரப்பிலும் ஆய்வு செய்த வகையில் அதிவேகமாக உருவாகி, நிலை மாறிப் பல தரத்தில் அமைந்ததாகக் குவியும் தகவல். துல்லியமாக வாயு இருக்கும் இடங்களைத் தேடி அடையாளம் காணவும் அந்த வளத்தை சீராகப் பயன்படுத்த பாதை வகுக்கவும் பெருந்தகவல் அமைப்புகளே கை கொடுக்கின்றன.

அண்மையில் செர்ன் என்ற அணு ஆய்வுக்கான ஐரோப்பிய கூட்டமைப்பு, ஹாட்ரான் என்ற அதி சக்தி அணுத் துகள் மோதல் நிகழ்த்து கருவி மூலம் ஆய்வு செய்து ஹிக் போஸன் என்ற ‘கடவுள் துகள’ இருப்பதை நிறுவ முற்பட்டது. இந்த ஹாட்ரான் கருவியில் பத்து லட்சம் சென்சர்கள் வினாடிக்கு நாலு கோடி அணுத் துகள் மோதல்களைப் பதிவு செய்தன. அவற்றுக்கான பெருந் தகவலில் இருந்து நூறோ இருநூறோ குறிப்பிடத் தகுந்த மோதல்கள் பற்றிய நுண் தகவலை மட்டும் பிரித்தெடுத்து ஆய்வு செய்ய வேண்டி இருந்தது.

பெருந் தகவல் அமைப்பும், தகவல் சேமிப்பும், கண் சிமிட்டும் நேரத்துக்குள் வேண்டிய தகவல் அடுக்கை வைக்கோல் போரில் ஊசியாகத் தேடிக் கண்டுபிடிக்கும் ஆற்றலும் கடவுள் துகளின் இருப்பை உறுதி செய்தன.

கடவுள் துகளைக் காணப் பெருந்தகவல் துணை புரியும். கடவுள் இருப்பதைக் காண? சின்ன நம்பிக்கை மனதில் இருந்தாலே போதுமோ!

இரா.முருகன் டிசம்பர் 20, 2013 – தி இந்து (தமிழ்) பத்திரிகையில் இதன் சற்றே சுருக்கமான வடிவம் பிரசுரமானது.

மறுமொழி இடவும்

உங்கள் மின்னஞ்சல் வெளியிடப்பட மாட்டாது தேவையான புலங்கள் * குறிக்கப்பட்டன