Обучение с подкреплением с многорукими бандитами

📂

подкатегории

Классические многорукие бандиты

Фундаментальная задача, в которой агент выбирает из нескольких вариантов для максимизации совокупной награды.

10 термины

📂

подкатегории

Эпсилон-жадные алгоритмы

Стратегия, которая использует известное лучшее действие с вероятностью 1-ε и исследует случайно с вероятностью ε.

10 термины

📂

подкатегории

Алгоритмы UCB

Методы, основанные на верхних доверительных границах, которые балансируют исследование и использование с помощью статистических интервалов.

13 термины

📂

подкатегории

Сэмплирование Томпсона

Байесовский подход, который выбирает параметры в соответствии с их апостериорным распределением для принятия решений.

0 термины

📂

подкатегории

Контекстуальные бандиты

Расширение, в котором решения зависят от контекстуальных характеристик, наблюдаемых на каждом ходу.

10 термины

📂

подкатегории

Линейные бандиты

Модели, в которых ожидаемое вознаграждение является линейной функцией от контекстуальных признаков.

12 термины

📂

подкатегории

Нестационарные бандиты

Ситуация, в которой распределения вознаграждения изменяются со временем, требуя постоянной адаптации.

13 термины

📂

подкатегории

Комбинаторные бандиты

Проблемы, в которых агент одновременно выбирает наборы действий со структурными ограничениями.

10 термины

📂

подкатегории

Bandits Adversaires

Scénario où un adversaire choisit les récompenses pour minimiser le gain de l'agent.

10 термины

📂

подкатегории

Bandits en Cascade

Modèle où les items sont présentés séquentiellement jusqu'à ce que l'utilisateur clique sur l'un d'entre eux.

14 термины

📂

подкатегории

Bandits avec Feedback Limité

Situations où seule une information partielle sur les récompenses est observée après chaque action.

14 термины

📂

подкатегории

Bandits pour Publicité Online

Application spécifique pour l'optimisation des campagnes publicitaires en temps réel.

8 термины

📂

подкатегории

Bandits pour Tests A/B

Alternative intelligente aux tests A/B traditionnels pour l'optimisation des expériences web.

5 термины

📂

подкатегории

Bandits pour Recommandations

Systèmes qui apprennent les préférences utilisateur pour personnaliser les recommandations.

7 термины

📂

подкатегории

Bandits Hiérarchiques

Structures multi-niveaux où les décisions sont organisées en hiérarchie pour des problèmes complexes.

10 термины

Глоссарий ИИ

Классические многорукие бандиты

Эпсилон-жадные алгоритмы

Алгоритмы UCB

Сэмплирование Томпсона

Контекстуальные бандиты

Линейные бандиты

Нестационарные бандиты

Комбинаторные бандиты

Bandits Adversaires

Bandits en Cascade

Bandits avec Feedback Limité

Bandits pour Publicité Online

Bandits pour Tests A/B

Bandits pour Recommandations

Bandits Hiérarchiques

Результаты не найдены