خوارزميات UCB
KL-UCB
نسخة من UCB تستخدم تباعد كولباك-لايبلر لبناء حدود ثقة مثلى تقاربيًا، وهي مناسبة بشكل خاص للمكافآت المحدودة.
← رجوعنسخة من UCB تستخدم تباعد كولباك-لايبلر لبناء حدود ثقة مثلى تقاربيًا، وهي مناسبة بشكل خاص للمكافآت المحدودة.
← رجوع