Многоцелевое Q-обучение

📖

термины

Q-обучение с несколькими целями

Расширение традиционного алгоритма Q-обучения, которое работает с векторами вознаграждений вместо скалярных значений, позволяя одновременно оптимизировать несколько конфликтующих целей.

📖

термины

Вектор Q-значений

Многомерная структура данных, где каждый элемент представляет Q-значение для конкретной цели, заменяя единственное скалярное значение классического Q-обучения.

📖

термины

Стратегия решения многоцелевых задач, где цели упорядочены по приоритету и оптимизируются последовательно; каждая цель рассматривается только после полной оптимизации целей с более высоким приоритетом.

📖

термины

Многоцелевой компромисс

Необходимый баланс между улучшением одних целей и возможным ухудшением других, присущий задачам оптимизации с конфликтующими целями.

📖

термины

Взвешенное Q-значение

Линейная комбинация индивидуальных Q-значений для каждой цели с использованием специфических весов для отражения относительной важности каждой цели в окончательном решении.

📖

термины

Алгоритм Парето-оптимального Q-обучения

Вариант Q-обучения, который поддерживает множество Парето-оптимальных политик и одновременно изучает Q-значения для всех возможных компромиссов между целями.

📖

термины

Исследование в многоцелевых задачах

Стратегия исследования, адаптированная к многоцелевым средам, которая должна балансировать между поиском компромиссов для различных целей и поддержанием эффективности обучения.

📖

термины

Равновесие Нэша в Q-обучении

Концепция теории игр, применяемая к многоцелевому Q-обучению, при котором ни одна политика не может в одностороннем порядке улучшить свою производительность по одной цели, не ухудшив производительность по другой.

📖

термины

Декомпозиция целей

Техника, преобразующая многоцелевую проблему в несколько подзадач с одной целью, оптимизируемых одновременно, что облегчает поиск разнообразных решений на фронте Парето.

📖

термины

Вектор вознаграждения

Многомерный вектор вознаграждений, где каждый компонент соответствует вознаграждению, связанному с конкретной целью, заменяя традиционный скалярный сигнал вознаграждения.

📖

термины

Адаптация пространства политик

Механизм динамической адаптации пространства политик для эффективного управления дополнительной сложностью, вводимой многоцелевой природой задачи обучения.

Глоссарий ИИ

Q-обучение с несколькими целями

Вектор Q-значений

Лексикографический подход

Многоцелевой компромисс

Взвешенное Q-значение

Алгоритм Парето-оптимального Q-обучения

Исследование в многоцелевых задачах

Равновесие Нэша в Q-обучении

Декомпозиция целей

Вектор вознаграждения

Адаптация пространства политик

Результаты не найдены