BenchVibe AI Ecosystem

VIP 👤

🏠 ホーム

ベンチマーク

📊 すべてのベンチマーク 🦖 恐竜 v1 🦖 恐竜 v2 ✅ To-Doリストアプリ 🎨 クリエイティブフリーページ 🎯 FSACB - アルティメットショーケース 🌍 翻訳ベンチマーク

モデル

🏆 トップ10モデル 🆓 無料モデル 📋 すべてのモデル ⚙️ 🛠️ Kilo Code モード

リソース

💬 💬 プロンプトライブラリ 📖 📖 AI用語集 🔗 🔗 有用なリンク

📖

Batch Constrained Q-learning (BCQ)

バッチ制約付きQ学習（BCQ）

オフライン強化学習のアルゴリズムで、外挿誤差を回避するために、学習データセットで観測された行動に近い範囲に方策を制約する。BCQは、バッチ内の行動と類似した行動を生成するアクション生成モデルを使用しつつ、わずかなバリエーションを探索する。

← 戻る