असंरचित बनाम अर्ध-संरचित डेटा: ऑर्डर आउट ऑफ़ कैओस
संरचित और असंरचित डेटा – चीजों को वर्गीकृत करने का एक सामान्य तरीका।लेकिन यह है इतना आसान नहीं.
संरचित डेटा को समझना आसान है, लेकिन असंरचित डेटा की दुनिया और इसे अर्ध-संरचित डेटा में बदलना जो अधिक समझने योग्य, प्रयोग करने योग्य और विश्लेषण योग्य है, इतना सीधा नहीं है।
इस लेख में संरचित डेटा, असंरचित डेटा और इसे कैसे करना है, इसके बारे में बताया गया है। अर्ध-संरचित डेटा संभावित अराजकता से बाहर कुछ आदेश लाओ। लाभ संगठन जो चाहते हैं मूल्य प्राप्त करें अक्सर दस्तावेज़ों, छवियों, ध्वनि फ़ाइलों, वीडियो, सोशल मीडिया पोस्ट आदि के बहुत बड़े भंडार से।
संरचित डेटा की संरचना है …
व्यावसायिक जानकारी ज्यादातर सिस्टम या लोगों द्वारा उत्पन्न की जाती है। आपके सिस्टम का डेटा संरचित होने की सबसे अधिक संभावना है।
अपने पारंपरिक रूप में, यह SQL (स्ट्रक्चर्ड क्वेरी लैंग्वेज) का उपयोग करते हुए रिलेशनल डेटाबेस में डेटा द्वारा सबसे अच्छा प्रतिनिधित्व करता है। इनके साथ, संरचना ही सब कुछ है। वेरिएबल का प्रतिनिधित्व करने वाले कॉलम प्रीसेट हैं और प्रत्येक चौराहे पर डेटा की पंक्तियों द्वारा मान पॉप्युलेट किए जाते हैं।
यह कुछ ऐसा है जिसकी हम सभी कल्पना कर सकते हैं।आप स्प्रैडशीट में जैसा देखते हैं, वैसा ही है, लेकिन क्या स्प्रैडशीट संरचित डेटा है विवादास्पद – लेकिन जटिल एसक्यूएल एक डेटाबेस स्कीमा में कई परस्पर संबंधित (यहां, “रिलेशनल”) स्प्रैडशीट्स (डेटाबेस में टेबल) के बराबर होता है, जिसमें सामान्य तत्व (कुंजी) होते हैं जिन्हें फ़िल्टर, संयुक्त और हेरफेर किया जा सकता है।
असंरचित डेटा की व्यापकता और अर्ध-संरचित रूप में वर्णित प्रारूपों के उदय के बावजूद, संरचित डेटाबेस महत्वपूर्ण हैं और जल्द ही कभी भी समाप्त नहीं होंगे।
बड़े पैमाने के एंटरप्राइज़ एप्लिकेशन से लेकर मशीन लर्निंग टूल तक हर चीज़ में उनका उपयोग करना आसान है, लेकिन वे कैसे एक्सेस और उपयोग किए जाते हैं, और उनकी डिफ़ॉल्ट सेटिंग्स को बनाए रखने और बदलने के लिए अपेक्षाकृत बोझिल हो सकते हैं। एक संभावना है।
असंरचित डेटा की मात्रा
असंरचित डेटा अक्सर लोगों द्वारा उत्पन्न किया जाता है, न कि केवल व्यक्तियों द्वारा, और इसमें चित्र और ध्वनि रिकॉर्डिंग, सोशल मीडिया पोस्ट, एजेंट नोट्स, वेबसाइट और ईमेल जैसे मीडिया शामिल होते हैं।
असंरचित डेटा में पूर्वनिर्धारित डेटा मॉडल नहीं होता है, और फ़ाइलें और ऑब्जेक्ट आकार में भिन्न हो सकते हैं। उदाहरण के लिए, सोशल मीडिया पोस्ट कुछ किलोबाइट से लेकर असंपीड़ित वीडियो फुटेज के टेराबाइट्स तक हो सकते हैं।
अक्सर यह अनुमान लगाया जाता है कि संगठनों द्वारा रखे गए डेटा का 80% या 90% तक बड़ी मात्रा में असंरचित डेटा होता है।
यदि ऐसा है, और हम सुरक्षित रूप से मान सकते हैं कि अक्सर ऐसा होता है, तो यह संगठनों के लिए एक बड़ी चुनौती प्रस्तुत करता है। खोजना और छांटना मुश्किल है।
इसका मतलब यह है कि संगठनों को यह नहीं पता हो सकता है कि वास्तव में वहां क्या है, जो सुरक्षा और अनुपालन जोखिम हो सकता है। आप भी चूक जाएंगे
क्या असंरचित डेटा जैसा कुछ नहीं है?
लेकिन वास्तव में आप तर्क दे सकते हैं कि वास्तव में कोई असंरचित डेटा नहीं हैकल्पना करने योग्य अधिकांश असंरचित डेटा (जैसे छवि फ़ाइलें और ऑडियो फ़ाइलें) मेटाडेटा हेडर के साथ आते हैं जो फ़ाइल की सामग्री के बारे में उच्च-स्तरीय जानकारी प्रदान करते हैं जिसे खोजा और पूछताछ की जा सकती है।
साथ ही, आर्टिफिशियल इंटेलिजेंस/मशीन लर्निंग तकनीकों का उपयोग करके ऐसी फाइलों की सामग्री की जांच करना तेजी से संभव है। उदाहरण के लिए, आप ऑडियो और वीडियो फ़ाइलों की सामग्री की जांच और वर्गीकरण कर सकते हैं। YouTube ऐसा करता है, उदाहरण के लिए, यह सुनिश्चित करने के लिए कि वीडियो अपलोड करते समय संगीत कॉपीराइट नहीं है। इसलिए इस प्रकार के डेटा को नए मेटाडेटा-आधारित, एल्गोरिथम-आधारित पूछताछ के साथ टैग किया जा सकता है, जब संगठन गणना को काम पर रखना चाहते हैं।
अर्ध-संरचित डेटा क्रांति
इसी समय, डेटा को अर्ध-संरचित तरीके से रखने का चलन बढ़ रहा है। अर्ध-संरचित डेटा के कुछ रूप, जैसे सीएसवी और एक्सएमएल, कुछ समय के लिए आसपास रहे हैं।थोड़ी देर से आया JSONइन सभी के परिणामस्वरूप कुछ ऐसा हुआ है key:value स्वरूप चर और मूल्यों का प्रतिनिधित्व करने के लिए।
तब से, डेटा के भंडारण और विश्लेषण के लिए विभिन्न तरीके सामने आए हैं जो एक परिभाषित संरचना तक ही सीमित नहीं हैं। मोटे तौर पर, इन्हें तथाकथित NoSQL डेटाबेस के रूप में एक साथ जोड़ा जा सकता है, लेकिन कई प्रकार के कैचल हैं।
Hadoop और Cassandra जैसे Columnstore डेटाबेस, मोंगोडीबी की-वैल्यू स्टोर जैसे काउचडीबी और रियाक, ग्राफ डेटाबेस, ऑब्जेक्ट डेटाबेस, और बहुत कुछ। लिस्ट काफी लंबी हो जाती है।
लेकिन जो उन्हें एक साथ जोड़ता है वह एक परिभाषित संरचना (स्कीमा-ऑन-राइट) की कमी है जो SQL को परिभाषित करता है। इसलिए ये गैर-एसक्यूएल प्रारूप सभी डेटा को संभावित रूप से किसी भी मौजूदा प्रारूप (यानी असंरचित) में संरचना (स्कीमा-ऑन-रीड) में प्रस्तुत करने की अनुमति देते हैं जब डेटा पूछताछ की जाती है। मोंगोडीबी जैसे तथाकथित डेटाबेस में ध्वनि और वीडियो फाइलें भी हो सकती हैं, जो असंरचित कार्यक्षमता में अंतिम (हालांकि सीमाओं के साथ) हैं।
असंरचित डेटा को अर्ध-संरचित प्रारूप के किसी रूप में बदलने में सक्षम होने का एक बड़ा लाभ यह है कि विभिन्न प्रकार के उपयोग के मामले सामने आ सकते हैं, जैसे कि उपभोक्ता व्यवहार, बाजार के रुझान और भावना विश्लेषण की पहचान करने के लिए विश्लेषण।
संभवतः, इस प्रकार के डेटा का विश्लेषण करने से आपको अपने उपयोगकर्ताओं के बारे में गहन जानकारी मिलेगी। एक SQL डेटाबेस में नाम, जन्मतिथि, पते आदि हो सकते हैं, लेकिन अर्ध-संरचित तरीके से असंरचित डेटा का विश्लेषण हमें उपभोक्ताओं के विचार के करीब लाता है।
किसी असंरचित वस्तु में किसी प्रकार की संरचना डालकर उसका उपयोग करना भी संभव है। डिलीवर किए गए आइटम की तस्वीरें असंरचित डेटा हैं, लेकिन छवि फ़ाइल मेटाडेटा को व्यावसायिक खुफिया टूल में डिलीवरी वाहनों से भू-ट्रैकिंग जानकारी के साथ जोड़ा जा सकता है।