Batch Constrained Q-learning (BCQ)
バッチ制約付きQ学習(BCQ)
オフライン強化学習のアルゴリズムで、外挿誤差を回避するために、学習データセットで観測された行動に近い範囲に方策を制約する。BCQは、バッチ内の行動と類似した行動を生成するアクション生成モデルを使用しつつ、わずかなバリエーションを探索する。
← 戻るオフライン強化学習のアルゴリズムで、外挿誤差を回避するために、学習データセットで観測された行動に近い範囲に方策を制約する。BCQは、バッチ内の行動と類似した行動を生成するアクション生成モデルを使用しつつ、わずかなバリエーションを探索する。
← 戻る