Алгоритмы UCB
KL-UCB
Вариант UCB, использующий дивергенцию Кульбака-Лейблера для построения асимптотически оптимальных доверительных границ, особенно подходящий для ограниченных вознаграждений.
← Назад