आज प्रत्येकाच्या बोलण्यामध्ये किंवा मोबाईलवर टाईप करताना डेटा हा शब्द वापरला जातो आहे. जी काही सगळी माहिती आहे, ती माहिती ‘डेटा’ या इंग्रजी शब्दांमध्ये व्यक्त होते. त्यातूनच पुढे जाऊन ‘बिग डेटा’ हा शब्द वापरू लागली आहेत. साधारण बोलताना सुद्धा, मुलांना सांगताना ‘बिग डेटा’ किंवा ‘डेटा सायन्स’ मध्ये करिअर होऊ शकते असेही सांगितलं जातं. तेंव्हा हा बिग डेटा म्हणजे काय आणि त्याचा नक्की वापर आज सर्व क्षेत्रांमध्ये कसा होत आहे? डेटा व त्याविषयीची माहिती व इतिहास खूप रंजक आहे. ‘डेटम’ ह्या शब्दाचे अनेक वचनी रुप म्हणजे ‘डेटा’. डेटा हा लॅटिन शब्द आहे. हेन्री हॅमंड नावाच्या इंग्लिश व्यक्तीने हा पहिल्यांदा शब्द वापरला असं म्हटलं जातं. त्याने ‘हिप ऑफ डेटा’ असा वाक्प्रचार कुठल्यातरी धर्माविषयीच्या वादविवादच्या ठिकाणी वापरला होता. त्यानंतर या शब्दाचा वापर खरंतर अठराव्या शतकातल्या वेगवेगळ्या वैज्ञानिकांनी वापरायला सुरुवात केली.
न्यूटन, प्रिस्ट्ले या वैज्ञानिकांनी शोध अभ्यास करताना ह्या शब्दाचा वापर केला. त्याचप्रमाणे काही गणितज्ञांनी सुद्धा या शब्दाचा वापर वेगवेगळ्या तऱ्हेने केल्याचा उल्लेख आहे. तसे पाहिले तर 1854 च्या दरम्यान लंडनमध्ये मोठी कॉलराची साथ आली. त्यावेळी अनेक लोकांना त्याची बाधा झाली. ही बाधा किती लोकांना झाली, त्यात किती लोक मृत्युमुखी पडले, हे जॉन्सन या डॉक्टरने नोंदवून ठेवायला सुरुवात केली. त्यानंतर त्याने त्याच्यावर संशोधन करताना कुठलं पाणी पीत होते, किंवा काय अन्न ग्रहण करत होते याचा मागोवा घेतला व अंतिमत: असं लक्षात आलं की हा पाण्यामुळे होणारा रोग आहे. लंडनच्या एका स्ट्रीटवर पाण्याचा पंप आहे त्या पंपामध्ये याचे जंतू आहेत आणि त्या पाण्यामुळे लंडन शहरातील लोकांना कॉलराची बाधा झाली होती. आता हे सर्व निष्कर्ष जे निघाले ते लोकांना विचारून, लोकांशी संपर्क करून, त्यातून जी माहिती म्हणजे डेटा गोळा झाला त्यावरून काढला गेला. म्हणजे असं लक्षात येतं की माहिती गोळा केली-डेटा गोळा केला, तर त्या डेटामधून आपल्याला कुठल्यातरी निष्कर्षापर्यंत पोहोचता येऊ शकतं. पुढे जाऊन जनगणनेसाठी माहिती गोळा करणे सुरू झालं. 19व्या शतकाच्या अगोदर अशा पद्धतीचा सेन्सस नव्हता. मात्र त्यानंतर दर दहा वर्षांनी लोकसंख्या मोजण्याचे मापन सुरू झाले. आपल्याला माहितीच आहे की दर दहा वर्षांनी देशातल्या लोकांची माहिती गोळा केली जाते. यामध्ये नाव, वय, जात, पत्ता इत्यादी माहिती गोळा केली जाते. त्याचे नंतर वर्गीकरण करून विशिष्ट निष्कर्ष काढले जातात. पण एकोणिसाव्या शतकामध्ये हे सर्व करणे थोडंसं कठीण होतं. अमेरिकेमध्ये सेन्सस ब्युरोमध्ये काम करणारा हरमन होलीरींथ यांनी हे मॅन्युअल काम थोडंसं ऑटोमेशनद्वारे करायचा प्रयत्न केला व पंच कार्डद्वारे त्याची नोंदणी सुरू केली. या अगोदर टॅली मशीन याद्वारे ते केले जायचे. म्हणजे वजा बाकी या दोनच गोष्टी होत्या. हरमन होलीरींथ यांनी पंच कार्ड सुरू केले आणि साधारण 1890च्या दरम्यान अमेरिकेमध्ये सेन्सससाठी पंच कार्डचा वापर होऊ लागला. हे पाहून हेच तंत्रज्ञान युरोपियन देशांमध्ये वापरले जाऊ लागले. यानंतर हरमन होलीरींथ आपली पंच कार्ड बनवायची कंपनी आयबीएमला विकली. म्हणजेच त्या कार्डवर जे होल्स असतात ती कुठे असावी त्यांनी काय दर्शवलं जातं, कुठला आकडा किंवा कुठलं अक्षर काय दर्शवतो याच्यासाठी एक स्टॅंडर्ड फॉर्मेट तयार केला गेला. अर्थात त्यानंतर आयबीएम ही प्रचंड मोठी कंपनी झाली. संगणकामध्ये क्रांती होत गेली. पहिल्या जनरेशनचे कम्प्युटर्स आले व त्यानंतर मेन फ्रेम्स कॉम्प्युटर्स आले. हे डिपार्टमेंटल कॉम्प्युटर्स म्हणून त्याचा वापर होऊ लागला. विविध इन्व्हेंटरीसाठी, अकाउंटिंगसाठी, मॅन्युफॅक्चरिंगच्या डेटासाठी कंपनी या कॉम्प्युटरचा वापर करु लागले. जसे कॉम्प्युटर्स येत गेले तसा डेटा स्टोरेज वाढत गेला. तिसऱ्या व चौथ्या जनरेशनमध्ये ट्रांझिस्टर्स-इंटिग्रेटेड सर्किटचा वापर झाला. यामुळे डेटा स्टोरिंग कॅपॅसिटी वाढत गेली. आज सगळ्याच क्षेत्रामध्ये संगणकाचा वापर होतो आहे. त्यामुळे डेटा वेगवेगळ्या क्षेत्रातून येऊ लागला आहे व तो स्टोर होत आहे. पेरोल सिस्टीम असेल, मॅन्युफॅक्चरिंगच्या ठिकाणी, फायनान्शिअल डेटा, इन्व्हेंटरी, करमणूक, शिक्षण अशा अनेक क्षेत्रांमध्ये डेटा गोळा होत आहे. तसं पाहिलं तर 1990 च्या दशकानंतर अर्पोनेटची सुरुवात होऊन त्याचे इंटरनेटमध्ये रूपांतर झालं. लोकल एरिया नेटवर्क (लॅन) वरून वाईड एरिया नेटवर्क (वॅन) कडे सरकले. जसं इंटरनेट सुरू झालं तसं डेटा इकडून तिकडे फिरू लागला. वेगवेगळ्या नेटवर्कमधून डेटा ट्रान्स्फर होऊ लागला. 1989 साली टीम बर्नर लीने वर्ल्ड वाईल्ड वेब ही संकल्पना सुरू केली आणि वेब 1, 2, 3 पर्यंत हे इंटरनेट पोहोचले. 2000सालानंतर मोबाईल क्रांती झाली. सर्वांकडे मोबाईल येऊ लागले. यामुळे प्रचंड प्रमाणात डेटा साठून राहू लागला. एवढेच नाही तर मोबाईलला इंटरनेट कनेक्टिव्हिटी आल्यानंतर मात्र ऑडिओ, व्हिडिओ, इमेजेस या स्वरूपामध्ये डेटा ट्रान्स्फर होऊ लागला. व्हाट्सअप, चॅट्स आले, फेसबुक, गुगल आले. लोक ऑनलाईन वस्तू खरेदी करू लागले. यातून प्रचंड प्रमाणात डेटा निर्माण होऊ लागला. 2011साली इंडस्ट्री 4.0 ची घोषणा झाली. त्यामुळे आर्टिफिशिअल इंटेलिजन्स, ऑग्युमेंटेड रियालिटी ही संकल्पना आली. यातूनच पुढे जाऊन बिग डेटा ही संकल्पना निर्माण झाली.
हे होत असतानाच मागच्या वीस वर्षांमध्ये मोबाईल कम्प्युटिंग आणि सोशल मीडिया सुरू झाला. यामुळे डेटाचा चक्क स्फोट झाला. तो किती झाला हे जर पाहिलं तर आपल्याला माहिती आहेच की डेटा आपण कसा मोजतो. त्याचे मापन काय? म्हणजे बिट्स, बाईट्स या स्वरूपामध्ये तो मोजला जातो. एक बाईट म्हणजे आठ बिट्स, 1000 बाईट्स म्हणजे एक किलो बाईट. याच प्रमाणे मग मेगाबाइट्स, गिगाबाइट्स, टेरा बाइट्स, पेटा बाईट्स, एक्सा बाइट्स, झिटा बाइट्स, येटा बाइट्स असं याचं मापन आहे.
किती डेटा गोळा होतो?- 2018 साली प्रत्येक दिवशी साधारण अडीच एक्साबाईट्स एवढा डेटा तयार होत गेला. एक्सा बाईट्स म्हणजे एकावर अठरा शून्य आणि याला अडीचने गुणायचं एवढे बाईट्स दर दिवशी डेटा तयार होतो. दर दिवशी नेटवर्कमधून डेटा जो ट्रान्स्फर होतो किंवा जो गोळा होतो तो इतका प्रचंड आहे की 2025 सालापर्यंत साधारण 465 एक्साबाइट्स इतका डेटा असेल. म्हणजे साधारण 21 कोटी डीव्हिडीजमध्ये मावेल एवढा डेटा. जर त्याचं अनॅलेसीस करायचं ठरवलं तर दररोज साधारण पन्नास कोटीच्या आसपास ट्विट्स, 29हजार कोटीच्या आसपास ई-मेल्स, चार पेटा बाईट्स इतका फेसबुक डेटा, तर 65हजार कोटी इतके व्हाट्सअप मेसेजेस व साधारण 500 कोटी सर्च इतका होऊ शकतो. हा 2019सालचा असेल तर आज 2023 ला किती असू शकतो याचा विचार करु. थोडक्यात काय तर डेटाचा विस्फोट झाला आहे. हाच डेटा आणखीन वाढत जाणार आहे. मग हा जमा झालेला जो डेटा आहे, याचा परस्पर संबंध काय? या डेटातून कोणता निष्कर्ष काढायचा? हा डेटा कोणत्या पद्धतीने वापरायचा? कुठे वापरायचा? याचे अनॅलेसीस करून कशा पद्धतीने वापरायचा? ह्या सर्व तंत्रज्ञानाला आपण ‘डेटा अनालिटिक्स’ किंवा ‘बिग डेटा’ म्हणतो.
-विनायक राजाध्यक्ष