पार्क में टहलें: मॉडल-मुक्त सुदृढीकरण सीखने के साथ 20 मिनट में चलना सीखें
सुदृढीकरण सीखना (आरएल) रोबोटिक कौशल सीखने का एक शानदार तरीका है। हालाँकि, वास्तविक प्रशिक्षण में बहुत समय लगता है। इसलिए, उन्नत सिमुलेशन सिस्टम विकसित किए जा रहे हैं।

छवि क्रेडिट: arXiv:2208.07860 [cs.RO]
arXiv.org पर एक हालिया पेपर निम्नलिखित कार्यों पर केंद्रित है: रोबोट चालटास्क सेटअप और एल्गोरिथम कार्यान्वयन में कुछ सावधानीपूर्वक डिजाइन निर्णयों के माध्यम से, हमने दिखाया है कि एक चौगुनी रोबोट 20 मिनट से भी कम समय में गहरे आरएल का उपयोग करके खरोंच से चलना सीख सकता है।
नए एल्गोरिथम घटकों या अन्य अप्रत्याशित नवाचारों का उपयोग करने के बजाय, शोधकर्ता कई मौजूदा एल्गोरिथम ढांचे में से एक को सावधानीपूर्वक लागू करते हैं जो सावधानीपूर्वक डिजाइन निर्णयों के साथ गहन शिक्षण पैकेजों को जोड़ते हैं।
इस पेपर से पता चलता है कि मौजूदा घटकों को ध्यान से जोड़कर, पिछले अध्ययनों की तुलना में काफी कम प्रशिक्षण अवधि के साथ वास्तविक दुनिया में हरकत कौशल को सीधे सीखा जा सकता है।
डीप रीइन्फोर्समेंट लर्निंग अनियंत्रित वातावरण में सीखने की नीतियों के लिए एक आशाजनक दृष्टिकोण है जिसमें डोमेन ज्ञान की आवश्यकता नहीं होती है। दुर्भाग्य से, नमूना अक्षमताओं के कारण, गहरे आरएल अनुप्रयोगों ने मुख्य रूप से नकली वातावरण पर ध्यान केंद्रित किया है। इस काम में, हम दिखाते हैं कि मशीन लर्निंग एल्गोरिदम और पुस्तकालयों में हालिया प्रगति को ध्यान से ट्यून किए गए रोबोट नियंत्रकों के साथ जोड़कर वास्तविक दुनिया में केवल 20 मिनट में चौगुनी हरकत सीख सकते हैं। हम कई इनडोर और बाहरी इलाकों पर दृष्टिकोण का मूल्यांकन करते हैं जिन्हें शास्त्रीय मॉडल-आधारित नियंत्रकों के लिए मुश्किल माना जाता है। हम देखते हैं कि रोबोट लगातार इन सभी इलाकों में चलना सीख सकता है। अंत में, एक नकली वातावरण में अपने डिजाइन निर्णयों का मूल्यांकन करें।
शोध पत्र: स्मिथ, एल।, कोस्त्रिकोव, आई।, और लेविन, एस।, “वॉकिंग इन द पार्क: लर्निंग टू वॉक इन 20 मिनट्स विद मॉडल-फ्री रीइनफोर्समेंट लर्निंग,” 2022। संपर्क: https://arxiv.org/abs/2208.07860
परियोजना स्थल: https://sites.google.com/berkeley.edu/walk-in-the-park