आंशिक रूप से प्रासंगिक वीडियो प्राप्त करें – तकनीकी संगठन
अनुसंधान में रुचि बढ़ रही है टेक्स्ट-टू-वीडियो पुनर्प्राप्ति कार्यहालांकि, वर्तमान पद्धति यह मानती है कि वीडियो को अस्थायी रूप से पूर्व-छंटनी की गई है और प्रदान किए गए कैप्शन वीडियो सामग्री के सार का एक अच्छा विवरण हैं। ऐसी धारणाएं वास्तविक स्थिति का प्रतिनिधित्व नहीं करती हैं। इसलिए arXiv.org पर एक हालिया पेपर आंशिक रूप से संबंधित वीडियो खोज नामक एक नए कार्य का प्रस्ताव करता है।
अगर क्वेरी में प्रासंगिक क्षण होते हैं, तो वीडियो आंशिक रूप से किसी विशिष्ट टेक्स्ट क्वेरी से संबंधित होता है। इस कार्य का उद्देश्य ऐसे आंशिक रूप से प्रासंगिक वीडियो को बिना छांटे गए वीडियो के एक बड़े संग्रह से पुनर्प्राप्त करना है। शोधकर्ता कार्य को बहु-आवृत्ति सीखने की समस्या के रूप में तैयार करते हैं।
वीडियो को वीडियो क्लिप का बैग और वीडियो फ्रेम का बैग माना जाता है। एक बहु-स्तरीय समानता सीखने वाला नेटवर्क मोटे-से-ठीक तरीके से वीडियो और प्रश्नों के बीच प्रासंगिकता की गणना करता है। व्यापक प्रयोग प्रस्तावित पद्धति की व्यवहार्यता प्रदर्शित करते हैं।
टेक्स्ट-टू-वीडियो पुनर्प्राप्ति (T2VR) के लिए मौजूदा तरीकों को MSVD, MSR-VTT, और VATEX जैसे वीडियो कैप्शन-उन्मुख डेटासेट पर प्रशिक्षित और परीक्षण किया जाता है। इन डेटासेट की एक महत्वपूर्ण संपत्ति यह है कि प्रदान किए गए कैप्शन वीडियो सामग्री के सार का अच्छी तरह से वर्णन करते हैं, लेकिन वीडियो को छोटी अवधि के लिए अस्थायी रूप से पूर्व-क्रॉप किया गया माना जाता है। इसलिए, यदि एक वीडियो और एक कैप्शन को जोड़ा जाता है, तो वीडियो को पूरी तरह से कैप्शन से संबंधित माना जाता है। व्यवहार में, हालांकि, क्वेरी को प्राथमिकता के रूप में नहीं जाना जाता है, इसलिए प्री-ट्रिम किए गए वीडियो क्लिप में क्वेरी को पूरी तरह से संतुष्ट करने के लिए पर्याप्त सामग्री नहीं हो सकती है। यह साहित्य और वास्तविक दुनिया के बीच एक अंतर का सुझाव देता है। इस अंतर को भरने के लिए, यह पेपर आंशिक रूप से संबंधित वीडियो पुनर्प्राप्ति (PRVR) नामक एक नए T2VR उप-कार्य का प्रस्ताव करता है। एक अनियंत्रित वीडियो को किसी दिए गए टेक्स्ट क्वेरी के लिए आंशिक रूप से प्रासंगिक माना जाता है यदि इसमें क्वेरी में प्रासंगिक क्षण होते हैं। पीआरवीआर का उद्देश्य ऐसे आंशिक रूप से प्रासंगिक वीडियो को बिना छांटे गए वीडियो के बड़े संग्रह से पुनर्प्राप्त करना है। PRVR सिंगल वीडियो मोमेंट्स सर्च और वीडियो कॉर्पस मोमेंट्स सर्च से अलग है। बाद के दो बिना छांटे गए वीडियो के बजाय लम्हें खोजने के लिए हैं। हम पीआरवीआर को मल्टी-इंस्टेंस लर्निंग (एमआईएल) समस्या के रूप में तैयार करते हैं। इस अंक में, वीडियो एक ही समय में वीडियो क्लिप के बैग और वीडियो फ़्रेम के बैग के रूप में दिखाई देता है। क्लिप और फ्रेम अलग-अलग समय के पैमाने पर वीडियो सामग्री का प्रतिनिधित्व करते हैं। हम एक बहु-स्तरीय समानता सीखने (एमएस-एसएल) नेटवर्क का प्रस्ताव करते हैं जो संयुक्त रूप से पीआरवीआर के लिए क्लिप-स्केल और फ्रेम-स्केल समानता सीखता है। तीन डेटासेट (टीवीआर, एक्टिविटीनेट कैप्शन, और चराडेस-एसटीए) पर व्यापक प्रयोग प्रस्तावित विधि की व्यवहार्यता दिखाते हैं। हम यह भी दिखाते हैं कि इस पद्धति का उपयोग वीडियो कॉर्पस में क्षण पुनर्प्राप्ति को बेहतर बनाने के लिए किया जा सकता है।
शोध पत्र: दांग, जे., आंशिक रूप से संबंधित वीडियो खोज, 2022। संपर्क: https://arxiv.org/abs/2208.12510
परियोजना पृष्ठ: https://danieljf24.github.io/prvr