深層強化学習マルチオブジェクト
多目的PPO
多目的環境に適応させた近接方策最適化アルゴリズムで、複数の目的関数を同時に最適化します。このアルゴリズムは目的間のトレードオフ空間を探索しながら、近接性制約を維持します。
← 戻る多目的環境に適応させた近接方策最適化アルゴリズムで、複数の目的関数を同時に最適化します。このアルゴリズムは目的間のトレードオフ空間を探索しながら、近接性制約を維持します。
← 戻る