Google के शोधकर्ता रोबोट को चलना सिखाते हैं

Google रोबोटिक्स की टीम ने एक साल पहले परीक्षण में बेहतर सुदृढीकरण सीखने की तकनीक का इस्तेमाल किया

चलने के लिए सीखने के लिए औसतन 12 महीने लगते हैं। यह रोबोट के लिए समान रूप से कठिन कार्य है। लेकिन Google रोबोटिक्स में शोधकर्ताओं द्वारा नियोजित एक नई तकनीक के लिए धन्यवाद, स्वायत्त सीखने वाले रोबोट की अवधारणा वास्तविकता के करीब हो सकती है। विधि में एक साल पहले किए गए पिछले शोध पर निर्माण शामिल है, जहां टीम को पता चला कि वास्तविक दुनिया में सीखने के लिए रोबोट कैसे प्राप्त करें।

सुदृढीकरण सीखने को रोजगार देना, एक प्रकार की मशीन लर्निंग जो मनोविज्ञान में उपयोग की जाने वाली अवधारणाओं से उधार लेती है और अनावश्यक मानव हस्तक्षेप से बचती है, जो मौजूदा सुदृढीकरण सीखने के एल्गोरिदम की एक बानगी है। ट्रायल और एरर मेथड को अपने प्रशिक्षण वातावरण से नीचे गिरने या चलने पर हर बार मानवीय सहायता की आवश्यकता होती है।

नए अध्ययन का उद्देश्य इस कमी को दूर करना है। शोधकर्ताओं ने नवाचार किया जो रोबोट को बिना किसी बाहरी मदद के नेविगेट करने की अनुमति देता है। एक चार-पैर वाला रोबोट आगे, पीछे और बग़ल में नेविगेट करने में सक्षम है, जो अत्याधुनिक एल्गोरिदम को रोजगार देता है।

“मुझे लगता है कि यह काम काफी रोमांचक है। प्रक्रिया से व्यक्ति को हटाना वास्तव में कठिन है। रोबोट को अधिक स्वायत्तता से सीखने की अनुमति देकर, रोबोट वास्तविक दुनिया में सीखने में सक्षम होने के करीब हैं जो हम एक प्रयोगशाला में नहीं, बल्कि रहते हैं। ”
~ चेल्सी फिन, स्टैनफोर्ड में एक सहायक प्रोफेसर

यह कुशल एल्गोरिदम कम त्रुटियों के कारण कम परीक्षणों के साथ सीख सकता है। वास्तविक दुनिया के वातावरण में चलने के लिए रोबोट को प्रशिक्षित करके मॉडलिंग की चुनौतियों से बचा गया। चलना शुरू करने में रोबोट को मुश्किल से दो घंटे लगते थे। इसके अलावा, वास्तविक दुनिया के वातावरण ने इलाके के एक प्राकृतिक बदलाव को प्रदान किया, जिससे रोबोट को समान वातावरण के अनुकूल होने का मौका मिला, जो बाद में सामना कर सकता है - बाधाएं, कदम और बाधाओं के साथ फ्लैट इलाके।

शोधकर्ताओं ने रोबोट को प्रशिक्षित करने के लिए कई तकनीकों का उपयोग किया - पहला, रोबोट कई युद्धाभ्यासों पर प्रशिक्षण देते समय उस इलाके से जुड़ा हुआ था, जिसे वह खोज रहा था। यदि यह आगे चलने वाले बंधे हुए क्षेत्र के किनारे तक पहुँच जाता है, तो यह पीछे की ओर चलने की दिशा को उलट देगा। दूसरे, बार-बार गिरने से होने वाले नुकसान को कम करने के लिए ट्रायल आंदोलनों को विवश किया गया। यदि यह वैसे भी गिर गया, तो टीम ने एक और हार्ड-कोडित एल्गोरिथ्म जोड़ा, जो इसे वापस खड़ा करने में सक्षम बनाता है।

सुदृढीकरण सीखने के एल्गोरिथ्म में इन सुधारों ने रोबोट को परीक्षण रन में कई अलग-अलग सतहों - फ्लैट जमीन, एक मेमोरी फोम गद्दे, और दरारों के साथ एक डोरमैट में स्वायत्त रूप से चलने में सक्षम किया। अनुसंधान अंततः प्रौद्योगिकी के भविष्य के अनुप्रयोगों के लिए उपयोगी होगा, जो किसी भी मदद के बिना रोबोट को अज्ञात इलाके में नेविगेट करने की आवश्यकता होती है।

चेल्सी फिन, स्टैनफोर्ड में एक सहायक प्रोफेसर, जो सर्च इंजन की दिग्गज कंपनी से भी जुड़े हुए हैं, हालांकि नए शोध से उत्साहित, सेटअप की आलोचना भी करते हैं क्योंकि इसके स्थान का निर्धारण करने के लिए रोबोट के ऊपर मोशन कैप्चर सिस्टम की आवश्यकता होती है, जो कुछ भी संभव नहीं है वास्तविक दुनिया।

टीम अलग-अलग या कई रोबोटों पर एल्गोरिदम को अनुकूलित करने की उम्मीद करती है, जिससे वे एक ही वातावरण में एक ही समय में सीख सकें। अनुसंधान के पूर्ण परिणाम arXiv में प्रकाशित किए गए थे।

उस सामग्री से अवगत रहें जो मायने रखती है - मेरी मेलिंग सूची में शामिल हों