Video editing.

आंशिक रूप से प्रासंगिक वीडियो प्राप्त करें – तकनीकी संगठन

अनुसंधान में रुचि बढ़ रही है टेक्स्ट-टू-वीडियो पुनर्प्राप्ति कार्यहालांकि, वर्तमान पद्धति यह मानती है कि वीडियो को अस्थायी रूप से पूर्व-छंटनी की गई है और प्रदान किए गए कैप्शन वीडियो सामग्री के सार का एक अच्छा विवरण हैं। ऐसी धारणाएं वास्तविक स्थिति का प्रतिनिधित्व नहीं करती हैं। इसलिए arXiv.org पर एक हालिया पेपर आंशिक रूप से संबंधित वीडियो खोज नामक एक नए कार्य का प्रस्ताव करता है।

वीडियो संपादन।

वीडियो संपादन। छवि क्रेडिट: TheArkow के माध्यम से पिक्साबेनिःशुल्क अनुज्ञापत्र

अगर क्वेरी में प्रासंगिक क्षण होते हैं, तो वीडियो आंशिक रूप से किसी विशिष्ट टेक्स्ट क्वेरी से संबंधित होता है। इस कार्य का उद्देश्य ऐसे आंशिक रूप से प्रासंगिक वीडियो को बिना छांटे गए वीडियो के एक बड़े संग्रह से पुनर्प्राप्त करना है। शोधकर्ता कार्य को बहु-आवृत्ति सीखने की समस्या के रूप में तैयार करते हैं।

वीडियो को वीडियो क्लिप का बैग और वीडियो फ्रेम का बैग माना जाता है। एक बहु-स्तरीय समानता सीखने वाला नेटवर्क मोटे-से-ठीक तरीके से वीडियो और प्रश्नों के बीच प्रासंगिकता की गणना करता है। व्यापक प्रयोग प्रस्तावित पद्धति की व्यवहार्यता प्रदर्शित करते हैं।

टेक्स्ट-टू-वीडियो पुनर्प्राप्ति (T2VR) के लिए मौजूदा तरीकों को MSVD, MSR-VTT, और VATEX जैसे वीडियो कैप्शन-उन्मुख डेटासेट पर प्रशिक्षित और परीक्षण किया जाता है। इन डेटासेट की एक महत्वपूर्ण संपत्ति यह है कि प्रदान किए गए कैप्शन वीडियो सामग्री के सार का अच्छी तरह से वर्णन करते हैं, लेकिन वीडियो को छोटी अवधि के लिए अस्थायी रूप से पूर्व-क्रॉप किया गया माना जाता है। इसलिए, यदि एक वीडियो और एक कैप्शन को जोड़ा जाता है, तो वीडियो को पूरी तरह से कैप्शन से संबंधित माना जाता है। व्यवहार में, हालांकि, क्वेरी को प्राथमिकता के रूप में नहीं जाना जाता है, इसलिए प्री-ट्रिम किए गए वीडियो क्लिप में क्वेरी को पूरी तरह से संतुष्ट करने के लिए पर्याप्त सामग्री नहीं हो सकती है। यह साहित्य और वास्तविक दुनिया के बीच एक अंतर का सुझाव देता है। इस अंतर को भरने के लिए, यह पेपर आंशिक रूप से संबंधित वीडियो पुनर्प्राप्ति (PRVR) नामक एक नए T2VR उप-कार्य का प्रस्ताव करता है। एक अनियंत्रित वीडियो को किसी दिए गए टेक्स्ट क्वेरी के लिए आंशिक रूप से प्रासंगिक माना जाता है यदि इसमें क्वेरी में प्रासंगिक क्षण होते हैं। पीआरवीआर का उद्देश्य ऐसे आंशिक रूप से प्रासंगिक वीडियो को बिना छांटे गए वीडियो के बड़े संग्रह से पुनर्प्राप्त करना है। PRVR सिंगल वीडियो मोमेंट्स सर्च और वीडियो कॉर्पस मोमेंट्स सर्च से अलग है। बाद के दो बिना छांटे गए वीडियो के बजाय लम्हें खोजने के लिए हैं। हम पीआरवीआर को मल्टी-इंस्टेंस लर्निंग (एमआईएल) समस्या के रूप में तैयार करते हैं। इस अंक में, वीडियो एक ही समय में वीडियो क्लिप के बैग और वीडियो फ़्रेम के बैग के रूप में दिखाई देता है। क्लिप और फ्रेम अलग-अलग समय के पैमाने पर वीडियो सामग्री का प्रतिनिधित्व करते हैं। हम एक बहु-स्तरीय समानता सीखने (एमएस-एसएल) नेटवर्क का प्रस्ताव करते हैं जो संयुक्त रूप से पीआरवीआर के लिए क्लिप-स्केल और फ्रेम-स्केल समानता सीखता है। तीन डेटासेट (टीवीआर, एक्टिविटीनेट कैप्शन, और चराडेस-एसटीए) पर व्यापक प्रयोग प्रस्तावित विधि की व्यवहार्यता दिखाते हैं। हम यह भी दिखाते हैं कि इस पद्धति का उपयोग वीडियो कॉर्पस में क्षण पुनर्प्राप्ति को बेहतर बनाने के लिए किया जा सकता है।

शोध पत्र: दांग, जे., आंशिक रूप से संबंधित वीडियो खोज, 2022। संपर्क: https://arxiv.org/abs/2208.12510
परियोजना पृष्ठ: https://danieljf24.github.io/prvr


Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *