🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Q-обучение с несколькими целями

Расширение традиционного алгоритма Q-обучения, которое работает с векторами вознаграждений вместо скалярных значений, позволяя одновременно оптимизировать несколько конфликтующих целей.

📖
термины

Вектор Q-значений

Многомерная структура данных, где каждый элемент представляет Q-значение для конкретной цели, заменяя единственное скалярное значение классического Q-обучения.

📖
термины

Лексикографический подход

Стратегия решения многоцелевых задач, где цели упорядочены по приоритету и оптимизируются последовательно; каждая цель рассматривается только после полной оптимизации целей с более высоким приоритетом.

📖
термины

Многоцелевой компромисс

Необходимый баланс между улучшением одних целей и возможным ухудшением других, присущий задачам оптимизации с конфликтующими целями.

📖
термины

Взвешенное Q-значение

Линейная комбинация индивидуальных Q-значений для каждой цели с использованием специфических весов для отражения относительной важности каждой цели в окончательном решении.

📖
термины

Алгоритм Парето-оптимального Q-обучения

Вариант Q-обучения, который поддерживает множество Парето-оптимальных политик и одновременно изучает Q-значения для всех возможных компромиссов между целями.

📖
термины

Исследование в многоцелевых задачах

Стратегия исследования, адаптированная к многоцелевым средам, которая должна балансировать между поиском компромиссов для различных целей и поддержанием эффективности обучения.

📖
термины

Равновесие Нэша в Q-обучении

Концепция теории игр, применяемая к многоцелевому Q-обучению, при котором ни одна политика не может в одностороннем порядке улучшить свою производительность по одной цели, не ухудшив производительность по другой.

📖
термины

Декомпозиция целей

Техника, преобразующая многоцелевую проблему в несколько подзадач с одной целью, оптимизируемых одновременно, что облегчает поиск разнообразных решений на фронте Парето.

📖
термины

Вектор вознаграждения

Многомерный вектор вознаграждений, где каждый компонент соответствует вознаграждению, связанному с конкретной целью, заменяя традиционный скалярный сигнал вознаграждения.

📖
термины

Адаптация пространства политик

Механизм динамической адаптации пространства политик для эффективного управления дополнительной сложностью, вводимой многоцелевой природой задачи обучения.

🔍

Результаты не найдены