Digital privacy - artistic impression.

सहयोगात्मक मशीन लर्निंग जो गोपनीयता की रक्षा करती है

शोधकर्ता मशीन लर्निंग तकनीकों की सटीकता और दक्षता में सुधार करते हैं जो उपयोगकर्ता डेटा की रक्षा करते हैं।

छवि वर्गीकरण जैसे कार्य को प्रभावी ढंग से करने के लिए मशीन लर्निंग मॉडल को प्रशिक्षित करने में मॉडल को हजारों, लाखों या यहां तक ​​​​कि अरबों नमूना छवियों के साथ प्रस्तुत करना शामिल है। इस तरह के विशाल डेटासेट एकत्र करना विशेष रूप से चिकित्सा छवियों जैसे गोपनीयता संबंधी चिंताओं के लिए चुनौतीपूर्ण हो सकता है।

डिजिटल गोपनीयता - एक कलात्मक छाप।

डिजिटल गोपनीयता – कलात्मक प्रभाव। छवि क्रेडिट: पिक्साबे के माध्यम से स्टॉक वॉल्टCC0 पब्लिक डोमेन

MIT और MIT में जन्मे स्टार्टअप DynamoFL के शोधकर्ताओं ने इस समस्या का एक लोकप्रिय समाधान निकाला है, फ़ेडरेटेड लर्निंग, और इसे तेज़ और अधिक सटीक बनाया है।

फ़ेडरेटेड लर्निंग मशीन लर्निंग मॉडल के प्रशिक्षण के लिए एक सहयोगी तरीका है। संवेदनशील उपयोगकर्ता डेटा निजीसैकड़ों या हजारों उपयोगकर्ता अपने स्वयं के उपकरणों पर अपने स्वयं के डेटा के साथ अपने स्वयं के मॉडल को प्रशिक्षित कर रहे हैं। उपयोगकर्ता तब मॉडल को एक केंद्रीय सर्वर पर स्थानांतरित करता है। एक केंद्रीय सर्वर उन्हें एक बेहतर मॉडल बनाने के लिए जोड़ता है और इसे सभी उपयोगकर्ताओं को वापस भेजता है।

उदाहरण के लिए, दुनिया भर के अस्पतालों का एक संग्रह इस पद्धति का उपयोग मशीन लर्निंग मॉडल को चिकित्सा छवियों में ब्रेन ट्यूमर की पहचान करने और स्थानीय सर्वर पर रोगी डेटा को सुरक्षित रखने के लिए प्रशिक्षित करने के लिए कर सकता है।

हालाँकि, फ़ेडरेटेड लर्निंग में कुछ कमियाँ हैं। बड़े मशीन लर्निंग मॉडल को एक केंद्रीय सर्वर से स्थानांतरित करने के लिए बड़ी मात्रा में डेटा स्थानांतरित करने की आवश्यकता होती है, खासकर जब मॉडल को दर्जनों या सैकड़ों बार भेजने और प्राप्त करने की आवश्यकता होती है, जिसके परिणामस्वरूप संचार लागत अधिक होती है। इसके अलावा, प्रत्येक उपयोगकर्ता अपना स्वयं का डेटा एकत्र करता है, जो जरूरी नहीं कि समान सांख्यिकीय पैटर्न का पालन करता है, जिससे संयुक्त मॉडल का खराब प्रदर्शन होता है। फिर औसत लेकर बाइंडिंग मॉडल बनाया जाता है। यह प्रत्येक उपयोगकर्ता के लिए व्यक्तिगत नहीं है।

शोधकर्ताओं ने एक ऐसी विधि विकसित की है जो एक साथ संघीय शिक्षा के इन तीन मुद्दों को संबोधित कर सकती है। उनकी विधि संयुक्त मशीन लर्निंग मॉडल के आकार को काफी कम कर देती है, जबकि इसकी सटीकता को बढ़ाते हुए, उपयोगकर्ताओं और केंद्रीय सर्वरों के बीच संचार को तेज करती है। यह यह भी सुनिश्चित करता है कि प्रत्येक उपयोगकर्ता को अपने पर्यावरण के लिए एक अधिक व्यक्तिगत मॉडल प्राप्त हो, जिसके परिणामस्वरूप बेहतर प्रदर्शन हो।

शोधकर्ता अन्य तरीकों की तुलना में मॉडल के आकार को लगभग परिमाण के क्रम से कम करने में सक्षम थे, व्यक्तिगत उपयोगकर्ताओं के लिए संचार लागत को 4-6 के कारक से कम कर दिया। उनकी तकनीक भी लगभग 10% तक मॉडल की समग्र सटीकता में सुधार करने में सक्षम थी।

“कई पत्रों ने फ़ेडरेटेड लर्निंग की समस्याओं में से एक को संबोधित किया है, लेकिन चुनौती यह सब एक साथ लाने की थी। मुझे कोई समाधान नहीं मिला, और मैं यह सुनिश्चित करना चाहता था कि सब कुछ अनुकूलित किया जा सके ताकि तकनीक का वास्तव में उपयोग किया जा सके। वास्तविक दुनिया में,” तकनीक का परिचय देने वाले पेपर के प्रमुख लेखक वैकुंठ मुगुनथन कहते हैं। पीएचडी ’22 कहते हैं।

मुगुनथन ने वरिष्ठ लेखक ललाना कागल, उनके सलाहकार और कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (CSAIL) में प्रमुख शोध वैज्ञानिक के साथ पेपर लिखा। यह काम यूरोपियन कंप्यूटर विजन कॉन्फ्रेंस में पेश किया जाएगा।

मॉडल को आकार में काटें

शोधकर्ताओं द्वारा विकसित FedLTN नामक एक प्रणाली, मशीन सीखने के विचार पर निर्भर करती है जिसे लॉटरी परिकल्पना के रूप में जाना जाता है। यह परिकल्पना बताती है कि बहुत बड़े तंत्रिका नेटवर्क मॉडल में बहुत छोटे उप-नेटवर्क होते हैं जो समान प्रदर्शन प्राप्त कर सकते हैं। इन सबनेटवर्क में से किसी एक को ढूँढना एक विजेता लॉटरी टिकट खोजने जैसा है। (LTN का अर्थ “लॉटरी नेटवर्क” है।)

मानव मस्तिष्क पर आधारित, एक तंत्रिका नेटवर्क एक मशीन लर्निंग मॉडल है जो इंटरकनेक्टेड नोड्स या न्यूरॉन्स की परतों का उपयोग करके समस्याओं को हल करना सीखता है।

एक विजेता लॉटरी नेटवर्क ढूँढना एक साधारण स्क्रैच ऑफ की तुलना में अधिक जटिल है। शोधकर्ताओं को एक प्रक्रिया का उपयोग करना पड़ता है जिसे पुनरावृत्त छंटाई कहा जाता है। मान लीजिए कि मॉडल की सटीकता एक निर्धारित सीमा से अधिक है। यदि ऐसा है, तो नोड्स और उनके बीच के कनेक्शन को हटा दें (जैसे झाड़ी से शाखाओं को काटना) और अधिक कुशल तंत्रिका नेटवर्क का परीक्षण करके देखें कि सटीकता सीमा से अधिक है या नहीं।

अन्य विधियों ने छोटे मशीन लर्निंग मॉडल बनाने के लिए फ़ेडरेटेड लर्निंग के लिए इस प्रूनिंग तकनीक का उपयोग किया है जिसे अधिक कुशलता से स्थानांतरित किया जा सकता है। हालाँकि, जबकि ये तरीके चीजों को गति दे सकते हैं, मॉडल खराब प्रदर्शन करेगा।

मुगुंथन और कागल ने प्रूनिंग प्रक्रिया को तेज करने और नए छोटे मॉडल को प्रत्येक उपयोगकर्ता के लिए अधिक सटीक और व्यक्तिगत बनाने के लिए कुछ नई तकनीकों को लागू किया।

उन्होंने बाकी काटे हुए तंत्रिका नेटवर्क को उसके मूल मूल्य पर “अनइंडिंग” करने के चरण से बचकर छंटाई में तेजी लाई। मुगुनथन ने यह भी बताया कि प्रूनिंग से पहले मॉडल को प्रशिक्षण देने से मॉडल को अधिक सटीक और तेजी से प्रूनिंग करने की अनुमति मिलती है।

उपयोगकर्ता के परिवेश में प्रत्येक मॉडल को बेहतर ढंग से वैयक्तिकृत करने के लिए, हमने इस बात का ध्यान रखा है कि नेटवर्क में उन परतों को न हटाया जाए जो उपयोगकर्ता-विशिष्ट डेटा के बारे में महत्वपूर्ण सांख्यिकीय जानकारी को कैप्चर करती हैं। इसके अतिरिक्त, उपयोग किए गए सभी मॉडलों को एक केंद्रीय सर्वर पर संग्रहीत जानकारी के संयोजन से, इसलिए हमने प्रत्येक संचार के लिए खरोंच से शुरू नहीं किया।

हमने धीमी नेटवर्क पर स्मार्टफोन जैसे संसाधन-विवश उपकरणों वाले उपयोगकर्ताओं के लिए संचार दौर की संख्या को कम करने के लिए एक तकनीक भी विकसित की है। ये उपयोगकर्ता पहले से ही अन्य उपयोगकर्ताओं के सबसेट द्वारा अनुकूलित लीनियर मॉडल का उपयोग करके फ़ेडरेटेड सीखने की प्रक्रिया शुरू करते हैं।

लॉटरी नेटवर्क पर जैकपॉट

सिमुलेशन में FedLTN के परीक्षण ने समग्र प्रदर्शन में सुधार और संचार लागत को कम किया। एक प्रयोग में, पारंपरिक फ़ेडरेटेड लर्निंग दृष्टिकोण ने 45 मेगाबाइट आकार का एक मॉडल तैयार किया, जबकि तकनीक ने केवल 5 मेगाबाइट की समान सटीकता के साथ एक मॉडल तैयार किया। एक अन्य परीक्षण में, अत्याधुनिक तकनीक को एक मॉडल को प्रशिक्षित करने के लिए उपयोगकर्ता और सर्वर के बीच 12,000 मेगाबाइट संचार की आवश्यकता होती है, जबकि FedLTN को केवल 4,500 मेगाबाइट की आवश्यकता होती है।

FedLTN का उपयोग करते हुए, सबसे खराब प्रदर्शन करने वाले ग्राहकों ने भी 10% या उससे अधिक के प्रदर्शन में सुधार देखा। मुगुनथन कहते हैं कि समग्र मॉडल सटीकता अत्याधुनिक निजीकरण एल्गोरिदम की तुलना में लगभग 10% बेहतर है।

अब जबकि FedLTN को विकसित और ठीक-ठाक किया गया है, मुगुनथन अपने हाल ही में स्थापित फ़ेडरेटेड लर्निंग स्टार्टअप में प्रौद्योगिकी को एकीकृत करने के लिए काम कर रहा है। डायनमो FL.

हम भविष्य में इस पद्धति में और सुधार करना चाहेंगे। उदाहरण के लिए, शोधकर्ताओं ने लेबल किए गए डेटा सेट का उपयोग करके सफलता का प्रदर्शन किया है, लेकिन समान तकनीकों को बिना लेबल वाले डेटा पर लागू करना एक बड़ी चुनौती होगी, वे कहते हैं।

मुगुनथन को उम्मीद है कि शोध अन्य शोधकर्ताओं को इस बात पर पुनर्विचार करने के लिए प्रेरित करेगा कि वे संघीय शिक्षा के बारे में कैसे सोचते हैं।

“यह अध्ययन इन मुद्दों के बारे में समग्र रूप से सोचने के महत्व को दर्शाता है, न कि केवल व्यक्तिगत संकेतक जिन्हें सुधार की आवश्यकता है। मेट्रिक्स गिर सकते हैं। इसके बजाय, हमें इस बात पर ध्यान केंद्रित करने की आवश्यकता है कि हम एक साथ कई चीजों को कैसे सुधार सकते हैं, जो कि तैनाती करते समय बहुत महत्वपूर्ण है। वास्तविक दुनिया, ”वह कहते हैं।

एडम ज़ी . द्वारा लिखित

चटनी: मेसाचुसेट्स प्रौद्योगिक संस्थान


Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *