Skip to content

Latest commit

 

History

History
58 lines (32 loc) · 11.2 KB

File metadata and controls

58 lines (32 loc) · 11.2 KB

सुदृढीकरण शिक्षाको परिचय

सुदृढीकरण शिक्षा, RL, लाई पर्यवेक्षित शिक्षा र अप्रत्यक्ष शिक्षाको साथमा आधारभूत मेसिन शिक्षण दृष्टान्तहरूमध्ये एक मानिन्छ। RL निर्णयहरूबारे हो: सही निर्णयहरू प्रदान गर्ने वा कम्तिमा तिनबाट सिक्ने।

कल्पना गर्नुहोस् कि तपाईंसँग स्टक बजार जस्तो सिमुलेट गरिएको वातावरण छ। यदि तपाईंले कुनै निश्चित नियम लागू गर्नुभयो भने के हुन्छ? के यसले सकारात्मक वा नकारात्मक प्रभाव पार्छ? यदि केही नकारात्मक हुन्छ भने, तपाईंले यो नकारात्मक सुदृढीकरण लिनुपर्छ, यसबाट सिक्नुपर्छ, र मार्ग परिवर्तन गर्नुपर्छ। यदि यो सकारात्मक परिणाम हो भने, तपाईंले त्यस सकारात्मक सुदृढीकरण मा निर्माण गर्नुपर्छ।

पिटर र भेडिया

पिटर र उनका साथीहरूले भोकाएको भेडियाबाट भाग्नुपर्छ! छवि जेन लूपर द्वारा

क्षेत्रीय विषय: पिटर र भेडिया (रूस)

पिटर र भेडिया एक सङ्गीतात्मक परी कथा हो, जसलाई रूसी सङ्गीतकार सर्गेई प्रोकोफिएभ ले लेखेका हुन्। यो युवा अग्रगामी पिटरको कथा हो, जसले साहसपूर्वक आफ्नो घरबाट बाहिर निस्केर जंगलमा भेडियालाई लखेट्न जान्छ। यस खण्डमा, हामी मेसिन शिक्षण एल्गोरिदमहरूलाई प्रशिक्षण दिनेछौं जसले पिटरलाई सहयोग गर्नेछ:

  • अन्वेषण गर्नुहोस् वरपरको क्षेत्र र एक उत्तम नेभिगेसन नक्सा निर्माण गर्नुहोस्।
  • सिक्नुहोस् स्केटबोर्ड कसरी प्रयोग गर्ने र यसमा सन्तुलन राख्ने, ताकि छिटो हिँड्न सकियोस्।

पिटर र भेडिया

🎥 माथिको छविमा क्लिक गरेर प्रोकोफिएभद्वारा पिटर र भेडिया सुन्नुहोस्

सुदृढीकरण शिक्षा

अघिल्ला खण्डहरूमा, तपाईंले मेसिन शिक्षण समस्याका दुई उदाहरणहरू देख्नुभएको छ:

  • पर्यवेक्षित, जहाँ हामीसँग समस्या समाधान गर्न नमूना समाधानहरू सुझाव दिने डाटासेटहरू हुन्छन्। वर्गीकरणपुनरावृत्ति पर्यवेक्षित शिक्षण कार्यहरू हुन्।
  • अपर्यवेक्षित, जसमा हामीसँग लेबल गरिएको प्रशिक्षण डाटा हुँदैन। अप्रत्यक्ष शिक्षणको मुख्य उदाहरण समूह बनाउने हो।

यस खण्डमा, हामी तपाईंलाई नयाँ प्रकारको शिक्षण समस्यासँग परिचय गराउनेछौं जसलाई लेबल गरिएको प्रशिक्षण डाटाको आवश्यकता पर्दैन। यस्ता समस्याका विभिन्न प्रकारहरू छन्:

  • अर्ध-पर्यवेक्षित शिक्षा, जसमा हामीसँग धेरै अप्रत्यक्ष डाटा हुन्छ जुन मोडेललाई पूर्व-प्रशिक्षण गर्न प्रयोग गर्न सकिन्छ।
  • सुदृढीकरण शिक्षा, जसमा एक एजेन्टले कुनै सिमुलेट गरिएको वातावरणमा प्रयोग गरेर कसरी व्यवहार गर्ने भनेर सिक्छ।

उदाहरण - कम्प्युटर खेल

मानौं तपाईं कम्प्युटरलाई कुनै खेल खेल्न सिकाउन चाहनुहुन्छ, जस्तै चेस वा सुपर मारियो। कम्प्युटरले खेल खेल्नका लागि, हामीलाई प्रत्येक खेल अवस्थाहरूमा कुन चाल चाल्ने भनेर भविष्यवाणी गर्न आवश्यक छ। यो वर्गीकरण समस्याजस्तो देखिन सक्छ, तर यो होइन - किनभने हामीसँग अवस्थाहरू र तिनका सम्बन्धित कार्यहरूको डाटासेट छैन। यद्यपि हामीसँग केही डाटा हुन सक्छ, जस्तै चेस खेलहरूको रेकर्डिङ वा सुपर मारियो खेल्ने खेलाडीहरूको रेकर्डिङ, यो सम्भावना छ कि त्यो डाटाले पर्याप्त संख्यामा सम्भावित अवस्थाहरूलाई कभर गर्दैन।

अस्तित्वमा रहेको खेल डाटाको खोजी गर्ने सट्टा, सुदृढीकरण शिक्षा (RL) को आधारभूत विचार भनेको कम्प्युटरलाई धेरै पटक खेल खेल्न लगाउने र परिणामलाई अवलोकन गर्ने हो। त्यसैले, सुदृढीकरण शिक्षा लागू गर्न, हामीलाई दुई चीजहरू चाहिन्छ:

  • एउटा वातावरणसिमुलेटर, जसले हामीलाई खेल धेरै पटक खेल्न अनुमति दिन्छ। यस सिमुलेटरले सबै खेलका नियमहरू साथै सम्भावित अवस्थाहरू र कार्यहरू परिभाषित गर्नेछ।

  • एउटा पुरस्कार कार्य, जसले हामीलाई प्रत्येक चाल वा खेलको क्रममा कत्तिको राम्रो गर्यौं भनेर बताउनेछ।

अन्य प्रकारका मेसिन शिक्षण र RL बीचको मुख्य भिन्नता भनेको RL मा हामी सामान्यतया खेल समाप्त नभएसम्म जित्यौं वा हार्यौं भनेर थाहा पाउँदैनौं। त्यसैले, हामी कुनै निश्चित चाल मात्र राम्रो हो कि होइन भनेर भन्न सक्दैनौं - हामीलाई खेलको अन्त्यमा मात्र पुरस्कार प्राप्त हुन्छ। र हाम्रो लक्ष्य भनेको अनिश्चित अवस्थाहरूमा मोडेललाई प्रशिक्षण दिन अनुमति दिने एल्गोरिदमहरू डिजाइन गर्नु हो। हामी Q-learning भनिने RL एल्गोरिदमबारे सिक्नेछौं।

पाठहरू

  1. सुदृढीकरण शिक्षाको परिचय र Q-Learning
  2. जिम सिमुलेशन वातावरणको प्रयोग

श्रेय

"सुदृढीकरण शिक्षाको परिचय" ♥️ का साथ दिमित्री सोश्निकोभ द्वारा लेखिएको हो।


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।