অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
নীতিমালা অপ্টিমাইজেশন
শক্তিবৃদ্ধি শিক্ষণে পদ্ধতির একটি শ্রেণী যা সরাসরি নীতিমালা অপ্টিমাইজ করে একটি মান ফাংশনের মাধ্যমে না গিয়ে, প্রায়শই নীতিমালা গ্রেডিয়েন্ট কৌশল ব্যবহার করে।
← ফিরে যান