Глоссарий ИИ
Полный словарь искусственного интеллекта
Q-обучение с несколькими целями
Расширение традиционного алгоритма Q-обучения, которое работает с векторами вознаграждений вместо скалярных значений, позволяя одновременно оптимизировать несколько конфликтующих целей.
Вектор Q-значений
Многомерная структура данных, где каждый элемент представляет Q-значение для конкретной цели, заменяя единственное скалярное значение классического Q-обучения.
Лексикографический подход
Стратегия решения многоцелевых задач, где цели упорядочены по приоритету и оптимизируются последовательно; каждая цель рассматривается только после полной оптимизации целей с более высоким приоритетом.
Многоцелевой компромисс
Необходимый баланс между улучшением одних целей и возможным ухудшением других, присущий задачам оптимизации с конфликтующими целями.
Взвешенное Q-значение
Линейная комбинация индивидуальных Q-значений для каждой цели с использованием специфических весов для отражения относительной важности каждой цели в окончательном решении.
Алгоритм Парето-оптимального Q-обучения
Вариант Q-обучения, который поддерживает множество Парето-оптимальных политик и одновременно изучает Q-значения для всех возможных компромиссов между целями.
Исследование в многоцелевых задачах
Стратегия исследования, адаптированная к многоцелевым средам, которая должна балансировать между поиском компромиссов для различных целей и поддержанием эффективности обучения.
Равновесие Нэша в Q-обучении
Концепция теории игр, применяемая к многоцелевому Q-обучению, при котором ни одна политика не может в одностороннем порядке улучшить свою производительность по одной цели, не ухудшив производительность по другой.
Декомпозиция целей
Техника, преобразующая многоцелевую проблему в несколько подзадач с одной целью, оптимизируемых одновременно, что облегчает поиск разнообразных решений на фронте Парето.
Вектор вознаграждения
Многомерный вектор вознаграждений, где каждый компонент соответствует вознаграждению, связанному с конкретной целью, заменяя традиционный скалярный сигнал вознаграждения.
Адаптация пространства политик
Механизм динамической адаптации пространства политик для эффективного управления дополнительной сложностью, вводимой многоцелевой природой задачи обучения.