Обучение с помощью воображения
Воображаемая траектория
Симулированная последовательность состояний-действий-наград, которую агент генерирует с использованием своей внутренней модели среды. Эти виртуальные траектории позволяют исследовать альтернативные политики без реального риска или затрат.
← Назад