रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन
नीति अनुकूलन
सुदृढीकरण सीखने में विधियों का वर्ग जो मूल्य फ़ंक्शन के बिना सीधे नीति को अनुकूलित करता है, अक्सर नीति ग्रेडिएंट तकनीकों का उपयोग करता है।
← पीछे