डोमेन-वाइड मल्टीमॉडल गेज टारगेट डिटेक्शन
इंसान दूसरे लोगों की निगाहों की दिशा का पता लगाता है, समझें कि लोग उन्हें देख रहे हैं या नहीं, किसी और की निगाहों का अनुसरण करें अपने लक्ष्य को पहचानें। हालाँकि, इसे स्वचालित रूप से करना अभी भी एक कठिन समस्या है।

छवि क्रेडिट: arXiv:2208.10822 [cs.CV]
arXiv.org पर एक हालिया पेपर जंगली में एकत्र की गई और तीसरे व्यक्ति के दृष्टिकोण से कैप्चर की गई एकल छवि में टकटकी लक्ष्य का पता लगाने का वर्णन करता है।
शोधकर्ता एक मल्टीमॉडल पाइपलाइन का प्रस्ताव करते हैं जो तीन पथों को संसाधित करती है: आरजीबी छवियों से स्टैंडअलोन मोनोकुलर गहराई अनुमान द्वारा प्राप्त सिर की छवियां, दृश्य छवियां और गहराई के नक्शे। यह प्रस्ताव विकल्पों की तुलना में कम्प्यूटेशनल रूप से कम खर्चीला और सरल है, क्योंकि इसमें सिर की मुद्रा और आंखों की स्थिति का पता लगाने की आवश्यकता नहीं होती है।
इसके अलावा, शोधकर्ता डोमेन शिफ्ट समस्या का अध्ययन करते हैं और नए डोमेन अनुकूलन विधियों का प्रस्ताव करते हैं। यह दृष्टिकोण परिणामों में उल्लेखनीय रूप से सुधार करता है और अत्याधुनिक डोमेन अनुकूलन विधियों से बेहतर प्रदर्शन करता है।
यह पेपर तीसरे व्यक्ति के नजरिए से कैप्चर की गई सिंगल इमेज में टकटकी टारगेट डिटेक्शन की समस्या को संबोधित करता है। हम एक मल्टीमॉडल डीप आर्किटेक्चर प्रस्तुत करते हैं जो यह अनुमान लगाता है कि एक दृश्य में एक व्यक्ति कहाँ देख रहा है। इस स्थानिक मॉडल को रुचि के व्यक्ति की प्रमुख छवियों, समृद्ध प्रासंगिक जानकारी का प्रतिनिधित्व करने वाले दृश्यों और गहराई के नक्शे के साथ प्रशिक्षित किया जाता है। हमारे मॉडल को टकटकी कोण की निगरानी की आवश्यकता नहीं है और यह कुछ पूर्व कला के विपरीत, सिर के अभिविन्यास की जानकारी और/या विषय की आंखों की स्थिति पर निर्भर नहीं करता है। व्यापक प्रयोगों ने कई बेंचमार्क डेटासेट पर हमारी पद्धति के उत्कृष्ट प्रदर्शन का प्रदर्शन किया है। हमने मल्टीमॉडल डेटा के सहयोगी शिक्षण को संशोधित करके विधि के कुछ बदलावों की भी जांच की। कुछ बदलाव कुछ पूर्व कला से बेहतर हैं। इस पत्र में, पहली बार, हम टकटकी लक्ष्य का पता लगाने के डोमेन अनुकूलन की जांच करते हैं और डेटासेट के बीच डोमेन अंतराल को प्रभावी ढंग से संभालने के लिए मल्टीमॉडल नेटवर्क को बढ़ाते हैं। प्रस्तावित विधि के लिए कोड यहां उपलब्ध है: यह https URL.
शोध पत्र: टोनिनी, एफ., बेयान, सी., और रिक्की, ई., “मल्टीमॉडल अक्रॉस-डोमेन गेज़ टारगेट डिटेक्शन”, 2022। संपर्क: https://arxiv.org/abs/2208.10822