ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)
মডেল-ভিত্তিক আরএল
অফলাইন ডেটা থেকে পরিবেশের গতিশীলতার একটি মডেল শেখার পদ্ধতি, যা কৃত্রিম অভিজ্ঞতা তৈরি করতে ব্যবহৃত হয়। অফলাইন প্রেক্ষাপটে, ত্রুটির বিস্তার এড়াতে এই মডেলটি সতর্কতার সাথে ব্যবহার করতে হয়।
← ফিরে যান