ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)
ব্যাচ কনস্ট্রেইনড কিউ-লার্নিং (BCQ)
অফলাইন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা নীতিগুলোকে প্রশিক্ষণ ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলোর কাছাকাছি রাখার মাধ্যমে এক্সট্রাপোলেশন ত্রুটি এড়ায়। BCQ একটি অ্যাকশন জেনারেটর মডেল ব্যবহার করে যা ব্যাচের মতো ক্রিয়া তৈরি করে এবং সামান্য ভিন্নতা অন্বেষণ করে।
← ফিরে যান