निरंतर बहु-उद्देश्य प्रबलित अधिगम
बहु-उद्देश्य अभिनेता-आलोचक
एक एल्गोरिथम आर्किटेक्चर जो बहु-उद्देश्य समस्याओं के लिए अनुकूलित अभिनेता और आलोचक को जोड़ती है, जिसमें वेक्टर मूल्य कार्य और बहु-उद्देश्य नीतियां होती हैं।
← पीछे