এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ভেক্টর রিওয়ার্ড ফাংশন
একটি রিটার্ন ফাংশন যা একটি স্কেলারের পরিবর্তে পুরস্কারের একটি ভেক্টর প্রদান করে, যা রিইনফোর্সমেন্ট লার্নিংয়ে একই সাথে একাধিক দ্বন্দ্বমূলক উদ্দেশ্য ক্যাপচার করতে সক্ষম করে।
মাল্টি-অবজেক্টিভ পলিসি অপ্টিমাইজেশন
একাধিক নীতি বা একটি একক নীতির একইসাথে অপ্টিমাইজেশন প্রক্রিয়া যা বিভিন্ন উদ্দেশ্যের সাথে সম্পর্কিত একাধিক মান ফাংশন অপ্টিমাইজ করার লক্ষ্যে কাজ করে।
কন্টিনিউয়াস অ্যাকশন স্পেস আরএল
রিইনফোর্সমেন্ট লার্নিংয়ের একটি প্যারাডাইম যেখানে এজেন্ট অবিচ্ছিন্ন ক্রিয়াগুলির একটি অসীম সেট থেকে বেছে নিতে পারে, যার জন্য PPO বা SAC-এর মতো উপযুক্ত অপ্টিমাইজেশন অ্যালগরিদমের প্রয়োজন হয়।
পছন্দ-ভিত্তিক আরএল
একটি পদ্ধতি যেখানে উদ্দেশ্যগুলির মধ্যে ট্রেড-অফ সম্পর্কে মানুষের পছন্দগুলি শেখার প্রক্রিয়ায় সংহত করা হয়, যাতে এজেন্টকে প্যারেটো ফ্রন্টের কাঙ্খিত সমাধানের দিকে পরিচালিত করা যায়।
কনভেক্স প্যারেটো ফ্রন্ট
একটি গাণিতিক উত্তলতা প্রদর্শনকারী প্যারেটো ফ্রন্ট, যা সমস্ত সর্বোত্তম সমাধান খুঁজে পেতে রৈখিক স্কেলারাইজেশন পদ্ধতি ব্যবহারের অনুমতি দেয়।
ওয়েটেড সাম মেথড
একটি স্কেলারাইজেশন কৌশল যা প্রতিটি উদ্দেশ্যকে একটি সহগ দিয়ে ওজন করে একটি স্কেলার উদ্দেশ্য ফাংশন তৈরি করে, সহজ কিন্তু শুধুমাত্র উত্তল প্যারেটো ফ্রন্টের জন্য সীমাবদ্ধ।
চেবিশেভ স্কেলারাইজেশন
একটি স্কেলারাইজেশন পদ্ধতি যা চেবিশেভ নর্ম ব্যবহার করে নন-কনভেক্স ফ্রন্টেও প্যারেটো-অপটিমাল সমাধান আবিষ্কার নিশ্চিত করে।
এমওআরএলে ন্যাশ ইকুইলিব্রিয়াম
একটি ভারসাম্য বিন্দু যেখানে কোনও এজেন্ট একতরফাভাবে তার কৌশল পরিবর্তন করে তার অবস্থানের উন্নতি করতে পারে না, যা অবিচ্ছিন্ন ক্রিয়াসহ মাল্টি-অবজেক্টিভ গেমগুলিতে প্রয়োগ করা হয়।
ডাইনামিক ওয়েটিং
প্যারেটো ফ্রন্ট কার্যকরভাবে অন্বেষণ এবং স্থানীয় অপটিমা এড়ানোর জন্য শেখার সময় উদ্দেশ্যগুলির ওজন পরিবর্তন করে এমন অভিযোজিত কৌশল।
অ-প্রাধান্যপূর্ণ সমাধান
সমাধানের একটি সেট যেখানে কোনো একটি সমাধান সমস্ত উদ্দেশ্যে অন্যটির চেয়ে কঠোরভাবে ভাল নয়, যা প্যারেটো-অপটিমাল সমাধানের সেট গঠন করে।
লেক্সিকোগ্রাফিক অর্ডারিং
ক্রমিক পদ্ধতি যেখানে উদ্দেশ্যগুলি পরম অগ্রাধিকারের ক্রমানুসারে ক্রমান্বয়ে অপ্টিমাইজ করা হয়, বিভিন্ন র্যাঙ্কের উদ্দেশ্যগুলির মধ্যে কোনো আপস ছাড়াই।
স্টোকাস্টিক মাল্টি-অবজেক্টিভ পলিসি
ক্রমাগত অ্যাকশন স্পেসে সম্ভাব্যতামূলক নীতি যা একই সাথে একাধিক উদ্দেশ্য অপ্টিমাইজ করে, প্রায়শই প্যারামিটারাইজড গাউসিয়ান ডিস্ট্রিবিউশন হিসেবে প্রয়োগ করা হয়।
ক্রমাগত প্যারেটো অপ্টিমাইজেশন
শেখার সময় প্যারেটো ফ্রন্টের ক্রমাগত অপ্টিমাইজেশন, যা এজেন্টকে উদ্দেশ্যগুলির মধ্যে তার আপস গতিশীলভাবে মানিয়ে নিতে দেয়।
মাল্টি-অবজেক্টিভ অ্যাক্টর-ক্রিটিক
অ্যালগরিদমিক আর্কিটেকচার যা মাল্টি-অবজেক্টিভ সমস্যার জন্য অভিযোজিত অ্যাক্টর এবং ক্রিটিককে একত্রিত করে, ভেক্টর ভ্যালু ফাংশন এবং মাল্টি-অবজেক্টিভ পলিসি সহ।
অ্যাকশন স্পেস ডিকম্পোজিশন
প্রযুক্তি যা ক্রমাগত অ্যাকশন স্পেসকে প্রতিটি উদ্দেশ্যের জন্য বিশেষায়িত সাবস্পেসে বিভক্ত করে, জটিল পরিবেশে মাল্টি-অবজেক্টিভ অপ্টিমাইজেশন সহজতর করে।
মাল্টি-অবজেক্টিভ এক্সপ্লোরেশন-এক্সপ্লয়টেশন
মাল্টি-অবজেক্টিভ সমস্যায় বর্ধিত দ্বিধা যেখানে এক্সপ্লোরেশন একটি একক অপটিমাল সমাধানের পরিবর্তে বিভিন্ন অপটিমাল আপস আবিষ্কার করতে লক্ষ্য রাখে।