オフライン強化学習

📂

サブカテゴリ

Conservative Q-Learning (CQL)

データ分布に近いポリシーを維持するために、過大評価されたQ値をペナルティする手法。

18 用語

📂

サブカテゴリ

Batch Constrained Q-learning (BCQ)

データセット内で観測された行動に近い行動に制約をかけることで、分布シフトを回避するアプローチ。

17 用語

📂

サブカテゴリ

Decision Transformer

オフライン強化学習をシーケンス・ツー・シーケンス問題として扱うトランスフォーマーアーキテクチャ。

11 用語

📂

サブカテゴリ

暗黙的Q学習（IQL）

明示的なmax演算子を必要とせずに、暗黙的にQ関数を学習する手法。

13 用語

📂

サブカテゴリ

モデルベースオフライン強化学習

分布外サンプリングを改善するために学習された環境モデルを使用するアプローチ。

10 用語

📂

サブカテゴリ

オフラインからオンラインへの転移学習

オフライン学習を効果的にオンライン設定に転移させる技術

6 用語

📂

サブカテゴリ

分布型オフライン強化学習

報酬の期待値だけでなく、その完全な分布をモデル化する手法。

13 用語

📂

サブカテゴリ

安全なオフライン強化学習

静的データのみで学習した方針を展開する際の安全性を保証するアプローチ。

11 用語

📂

サブカテゴリ

不確実性を考慮したオフライン強化学習

分布外の行動を回避するための認識論的不確実性を定量化する手法

17 用語

📂

サブカテゴリ

軌道トランスフォーマー

状態-行動-報酬のシーケンス分布を学習することで完全な軌道を生成するトランスフォーマーモデル。

6 用語

📂

サブカテゴリ

アドバンテージ重み付き回帰 (AWR)

分布外の行動選択を改善するために利点に基づいて回帰を重み付けするアプローチ。

11 用語

📂

サブカテゴリ

オフライン・マルチタスク強化学習

共有バッチデータセットからの複数タスク同時学習パラダイム

18 用語

AI用語集

Conservative Q-Learning (CQL)

Batch Constrained Q-learning (BCQ)

Decision Transformer

暗黙的Q学習（IQL）

モデルベースオフライン強化学習

オフラインからオンラインへの転移学習

分布型オフライン強化学習

安全なオフライン強化学習

不確実性を考慮したオフライン強化学習

軌道トランスフォーマー

アドバンテージ重み付き回帰 (AWR)

オフライン・マルチタスク強化学習

結果が見つかりません