ε-グリーディアルゴリズム

📖

用語

イプシロン探索率

イプシロン欲張り法アルゴリズムにおいて、探索を利用よりも選択する確率を決定する制御パラメータ。その値は収束速度と学習された方策の最終的な品質に直接影響を与える。

📖

用語

欲張り行動

エージェントの現在の知識に基づいて、最も高い推定値を持つ行動として選択された行動。イプシロン欲張り法では、この行動は利用フェーズ中に確率1-εで選択される。

📖

用語

ランダム探索

利用可能なすべての行動の中から一様にランダムに行動を選択するプロセス。イプシロン欲張り法では、この戦略は確率εで適用され、潜在的に収益性の高い新しいオプションを発見する。

📖

用語

イプシロン減衰

初期の探索を促進し、その後の利用を重視するために、時間の経過とともにイプシロン値を徐々に減少させる手法。このアプローチにより、最適な方策へのより安定した収束が可能になる。

📖

用語

楽観的イプシロン欲張り法

初期の探索を奨励するために、行動の値を高い楽観的な推定値で初期化するアルゴリズムの変種。この方法は、エージェントがすべての行動を少なくとも一度はテストするように強制する。

📖

用語

累積後悔

可能な最適な報酬の合計とアルゴリズムによって実際に得られた報酬との差を定量化する性能指標。学習方策の有効性を評価するための指標として機能する。

📖

用語

アルゴリズムの収束

特定の条件下でイプシロン欲張り法アルゴリズムが最適な方策に収束することを保証する特性。収束はイプシロンの適切な減衰と十分な反復回数に依存する。

📖

用語

値の初期化

学習の開始時に、各行動の報酬推定値に初期値を割り当てるプロセス。初期化戦略はエージェントの初期探索行動に著しく影響を与える。

📖

用語

純粋なグリーディ方策

ε = 0 の戦略であり、現在最適と判断されている行動を体系的に利用し、探索を一切行いません。この方策は局所最適に早期に収束する可能性があります。

📖

用語

イプシロン・アニーリング

学習の過程でεの値を段階的かつ制御された方法で減少させる技術。アニーリングにより、探索から利用への滑らかな遷移が可能になり、収束が向上します。

AI用語集