छवि बहाली के साथ दृश्य संकेत
बड़ी डेटा की कमी से निपटने में मदद करने के लिए स्व-पर्यवेक्षित शिक्षण एक लोकप्रिय तरीका है ध्यान लगा के पढ़ना या सीखना नमूना। हालाँकि, स्व-निगरानी द्वारा सीखे गए कार्यों को ठीक करने की आवश्यकता है। अतिरिक्त प्रशिक्षण के बिना नए कार्यों के लिए मॉडल अपनाने के तरीके के रूप में संकेत देना प्रस्तावित किया गया है। प्रशिक्षित मॉडल को एक प्रश्न के साथ रुचि के कार्य के उदाहरणों के अनुरूप इनपुट प्रदान किया जाता है।
arXiv.org पर एक हालिया पेपर विज़ुअल डोमेन के लिए संकेतों को सामान्य बनाने की संभावना की पड़ताल करता है। शोधकर्ता प्रदर्शित करते हैं कि बड़ी क्षमता वाली छवि इनपेंटिंग मॉडल दृश्य संकेतों के लिए प्रभावी उपकरण हो सकते हैं।
88,000 आंकड़ों का एक डेटासेट एकत्र किया गया था, जिनमें से कई में छवियों के ग्रिड और संबंधित कार्य परिणाम शामिल हैं। इस तरह, कुछ उदाहरण टास्क इनपुट और आउटपुट और एक क्वेरी इमेज को देखते हुए, विभिन्न कंप्यूटर विज़न कार्यों को ग्रिड इनपेंटिंग समस्याओं के रूप में माना जा सकता है।
एक पूर्व-प्रशिक्षित दृश्य मॉडल को कार्य-विशिष्ट ट्विकिंग या मॉडल परिवर्तन के बिना नए डाउनस्ट्रीम कार्यों के लिए कैसे अनुकूलित किया जा सकता है? इस एनएलपी प्रॉम्प्टिंग-प्रेरित श्वेत पत्र में, इंवेस्टिगेट विज़ुअल प्रॉम्प्टिंग। परीक्षण के समय में एक नया कार्य और एक नई इनपुट छवि के लिए उदाहरण इनपुट और आउटपुट छवियों को देखते हुए, लक्ष्य स्वचालित रूप से एक आउटपुट छवि उत्पन्न करना है जो दिए गए उदाहरण से मेल खाता है। इस समस्या को पेंटिंग में एक साधारण छवि के रूप में प्रस्तुत करना (शाब्दिक रूप से केवल समेकित दृश्य शीघ्र छवियों में छिद्रों को भरना) आश्चर्यजनक रूप से प्रभावी साबित होता है यदि इनपेंटिंग एल्गोरिदम को सही डेटा पर प्रशिक्षित किया जाता है। वृद्धि। हम Arxiv के अकादमिक पेपर स्रोतों से 88,000 बिना लेबल वाली संख्याओं के एक नए क्यूरेटेड डेटासेट पर एक नकाबपोश ऑटोएन्कोडर को प्रशिक्षित करते हैं। हम विभिन्न डाउनस्ट्रीम इमेज-टू-इमेज कार्यों जैसे फोरग्राउंड सेगमेंटेशन, सिंगल ऑब्जेक्ट डिटेक्शन, कलराइजेशन और एज डिटेक्शन के परिणाम दिखाने के लिए इन प्रीट्रेन्ड मॉडल पर विजुअल प्रॉम्प्ट लागू करते हैं।
शोध पत्र: बार, ए।, गैंडेल्समैन, वाई।, डेरेल, टी।, ग्लोबर्सन, ए।, और एफ्रोस, एए, “विजुअल प्रॉम्प्ट्स विद इमेज इनपेंटिंग”, 2022। संपर्क: https://arxiv.org/abs/2209.00647
परियोजना पृष्ठ: https://yossigandelsman.github.io/visual_prompt/