AI用語集
人工知能の完全辞典
ベクトル報酬関数
スカラーではなく報酬ベクトルを返す報酬関数で、強化学習において複数の競合する目的を同時に捉えることができます。
多目的ポリシー最適化
複数のポリシーまたは単一のポリシーを同時に最適化するプロセスで、異なる目的に対応する複数の価値関数を最適化することを目指します。
連続行動空間強化学習
エージェントが無限の連続行動から選択できる強化学習のパラダイムで、PPOやSACのような適応された最適化アルゴリズムが必要です。
基準ベース強化学習
目標間のトレードオフに関する人間の好みを学習プロセスに統合し、エージェントをパレートフロントの望ましい解へと導くアプローチです。
凸パレートフロント
数学的な凸性を持つパレートフロントで、線形スカラー化法を使用してすべての最適解を見つけることができます。
重み付き和法
各目的を係数で重み付けしてスカラー目的関数を作成するスカラー化技術で、シンプルですが凸パレートフロントに限定されます。
チェビシェフスカラー化
チェビシェフノルムを使用して非凸フロント上でもパレート最適解を発見することを保証するスカラー化法です。
多目的強化学習におけるナッシュ均衡
どのエージェントも一方的に戦略を変更して自分の位置を改善できない均衡点で、連続行動を持つ多目的ゲームに適用されます。
動的重み付け
学習中に目的の重みを動的に変更し、パレートフロンティアを効率的に探索し、局所最適解を回避する適応的戦略。
非優越解
すべての目的において他のどの解よりも厳密に優れていない解の集合で、パレート最適解の集合を構成する。
辞書式順序付け
目的を絶対的な優先順位で順次最適化する階層的アプローチで、異なるランクの目的間での妥協はない。
確率的多目的方策
連続行動空間で複数の目的を同時に最適化する確率的方策で、多くの場合、パラメータ化されたガウス分布として実装される。
連続パレート最適化
学習中にパレートフロンティアを連続的に最適化し、エージェントが目的間のトレードオフを動的に適応できるようにする。
多目的アクタークリティック
ベクトル値の価値関数と多目的方策を持ち、多目的問題に適応したアクターとクリティックを組み合わせたアルゴリズムアーキテクチャ。
行動空間分解
連続行動空間を各目的に特化した部分空間に分割し、複雑な環境での多目的最適化を容易にする技術。
多目的探索活用
単一の最適解ではなく、様々な最適なトレードオフを発見することを目指す探索が必要となる多目的問題に拡張されたジレンマ。