RL মাল্টি-অবজেক্টিভস কন্টিনিউ - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

ভেক্টর রিওয়ার্ড ফাংশন

একটি রিটার্ন ফাংশন যা একটি স্কেলারের পরিবর্তে পুরস্কারের একটি ভেক্টর প্রদান করে, যা রিইনফোর্সমেন্ট লার্নিংয়ে একই সাথে একাধিক দ্বন্দ্বমূলক উদ্দেশ্য ক্যাপচার করতে সক্ষম করে।

📖

শব্দ

মাল্টি-অবজেক্টিভ পলিসি অপ্টিমাইজেশন

একাধিক নীতি বা একটি একক নীতির একইসাথে অপ্টিমাইজেশন প্রক্রিয়া যা বিভিন্ন উদ্দেশ্যের সাথে সম্পর্কিত একাধিক মান ফাংশন অপ্টিমাইজ করার লক্ষ্যে কাজ করে।

📖

শব্দ

কন্টিনিউয়াস অ্যাকশন স্পেস আরএল

রিইনফোর্সমেন্ট লার্নিংয়ের একটি প্যারাডাইম যেখানে এজেন্ট অবিচ্ছিন্ন ক্রিয়াগুলির একটি অসীম সেট থেকে বেছে নিতে পারে, যার জন্য PPO বা SAC-এর মতো উপযুক্ত অপ্টিমাইজেশন অ্যালগরিদমের প্রয়োজন হয়।

📖

শব্দ

পছন্দ-ভিত্তিক আরএল

একটি পদ্ধতি যেখানে উদ্দেশ্যগুলির মধ্যে ট্রেড-অফ সম্পর্কে মানুষের পছন্দগুলি শেখার প্রক্রিয়ায় সংহত করা হয়, যাতে এজেন্টকে প্যারেটো ফ্রন্টের কাঙ্খিত সমাধানের দিকে পরিচালিত করা যায়।

📖

শব্দ

কনভেক্স প্যারেটো ফ্রন্ট

একটি গাণিতিক উত্তলতা প্রদর্শনকারী প্যারেটো ফ্রন্ট, যা সমস্ত সর্বোত্তম সমাধান খুঁজে পেতে রৈখিক স্কেলারাইজেশন পদ্ধতি ব্যবহারের অনুমতি দেয়।

📖

শব্দ

ওয়েটেড সাম মেথড

একটি স্কেলারাইজেশন কৌশল যা প্রতিটি উদ্দেশ্যকে একটি সহগ দিয়ে ওজন করে একটি স্কেলার উদ্দেশ্য ফাংশন তৈরি করে, সহজ কিন্তু শুধুমাত্র উত্তল প্যারেটো ফ্রন্টের জন্য সীমাবদ্ধ।

📖

শব্দ

চেবিশেভ স্কেলারাইজেশন

একটি স্কেলারাইজেশন পদ্ধতি যা চেবিশেভ নর্ম ব্যবহার করে নন-কনভেক্স ফ্রন্টেও প্যারেটো-অপটিমাল সমাধান আবিষ্কার নিশ্চিত করে।

📖

শব্দ

এমওআরএলে ন্যাশ ইকুইলিব্রিয়াম

একটি ভারসাম্য বিন্দু যেখানে কোনও এজেন্ট একতরফাভাবে তার কৌশল পরিবর্তন করে তার অবস্থানের উন্নতি করতে পারে না, যা অবিচ্ছিন্ন ক্রিয়াসহ মাল্টি-অবজেক্টিভ গেমগুলিতে প্রয়োগ করা হয়।

📖

শব্দ

ডাইনামিক ওয়েটিং

প্যারেটো ফ্রন্ট কার্যকরভাবে অন্বেষণ এবং স্থানীয় অপটিমা এড়ানোর জন্য শেখার সময় উদ্দেশ্যগুলির ওজন পরিবর্তন করে এমন অভিযোজিত কৌশল।

📖

শব্দ

অ-প্রাধান্যপূর্ণ সমাধান

সমাধানের একটি সেট যেখানে কোনো একটি সমাধান সমস্ত উদ্দেশ্যে অন্যটির চেয়ে কঠোরভাবে ভাল নয়, যা প্যারেটো-অপটিমাল সমাধানের সেট গঠন করে।

📖

শব্দ

লেক্সিকোগ্রাফিক অর্ডারিং

ক্রমিক পদ্ধতি যেখানে উদ্দেশ্যগুলি পরম অগ্রাধিকারের ক্রমানুসারে ক্রমান্বয়ে অপ্টিমাইজ করা হয়, বিভিন্ন র্যাঙ্কের উদ্দেশ্যগুলির মধ্যে কোনো আপস ছাড়াই।

📖

শব্দ

স্টোকাস্টিক মাল্টি-অবজেক্টিভ পলিসি

ক্রমাগত অ্যাকশন স্পেসে সম্ভাব্যতামূলক নীতি যা একই সাথে একাধিক উদ্দেশ্য অপ্টিমাইজ করে, প্রায়শই প্যারামিটারাইজড গাউসিয়ান ডিস্ট্রিবিউশন হিসেবে প্রয়োগ করা হয়।

📖

শব্দ

ক্রমাগত প্যারেটো অপ্টিমাইজেশন

শেখার সময় প্যারেটো ফ্রন্টের ক্রমাগত অপ্টিমাইজেশন, যা এজেন্টকে উদ্দেশ্যগুলির মধ্যে তার আপস গতিশীলভাবে মানিয়ে নিতে দেয়।

📖

শব্দ

মাল্টি-অবজেক্টিভ অ্যাক্টর-ক্রিটিক

অ্যালগরিদমিক আর্কিটেকচার যা মাল্টি-অবজেক্টিভ সমস্যার জন্য অভিযোজিত অ্যাক্টর এবং ক্রিটিককে একত্রিত করে, ভেক্টর ভ্যালু ফাংশন এবং মাল্টি-অবজেক্টিভ পলিসি সহ।

📖

শব্দ

অ্যাকশন স্পেস ডিকম্পোজিশন

প্রযুক্তি যা ক্রমাগত অ্যাকশন স্পেসকে প্রতিটি উদ্দেশ্যের জন্য বিশেষায়িত সাবস্পেসে বিভক্ত করে, জটিল পরিবেশে মাল্টি-অবজেক্টিভ অপ্টিমাইজেশন সহজতর করে।

📖

শব্দ

মাল্টি-অবজেক্টিভ এক্সপ্লোরেশন-এক্সপ্লয়টেশন

মাল্টি-অবজেক্টিভ সমস্যায় বর্ধিত দ্বিধা যেখানে এক্সপ্লোরেশন একটি একক অপটিমাল সমাধানের পরিবর্তে বিভিন্ন অপটিমাল আপস আবিষ্কার করতে লক্ষ্য রাখে।

এআই গ্লসারি

ভেক্টর রিওয়ার্ড ফাংশন

মাল্টি-অবজেক্টিভ পলিসি অপ্টিমাইজেশন

কন্টিনিউয়াস অ্যাকশন স্পেস আরএল

পছন্দ-ভিত্তিক আরএল

কনভেক্স প্যারেটো ফ্রন্ট

ওয়েটেড সাম মেথড

চেবিশেভ স্কেলারাইজেশন

এমওআরএলে ন্যাশ ইকুইলিব্রিয়াম

ডাইনামিক ওয়েটিং

অ-প্রাধান্যপূর্ণ সমাধান

লেক্সিকোগ্রাফিক অর্ডারিং

স্টোকাস্টিক মাল্টি-অবজেক্টিভ পলিসি

ক্রমাগত প্যারেটো অপ্টিমাইজেশন

মাল্টি-অবজেক্টিভ অ্যাক্টর-ক্রিটিক

অ্যাকশন স্পেস ডিকম্পোজিশন

মাল্টি-অবজেক্টিভ এক্সপ্লোরেশন-এক্সপ্লয়টেশন

কোন ফলাফল পাওয়া যায়নি