Programmation Dynamique

📖

termer

Itération de la Valeur

Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.

📖

termer

Itération de la Politique

Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.

📖

termer

Processus de Décision Markovien

Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.

📖

termer

Fonction de Valeur

Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.

📖

termer

Fonction de Valeur d'Action

Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.

📖

termer

Équation de Bellman

Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.

📖

termer

Principe d'Optimalité

Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.

📖

termer

Facteur d'Escompte

Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.

📖

termer

Évaluation de la Politique

Processus itératif qui calcule la fonction de valeur pour une politique donnée en résolvant le système d'équations linéaires de Bellman. Cette étape est essentielle dans l'algorithme d'itération de la politique.

📖

termer

Amélioration de la Politique

Étape qui met à jour une politique en choisissant, pour chaque état, l'action qui maximise la fonction de valeur d'action basée sur la politique actuelle. Cette approche gloutonne garantit une nouvelle politique au moins aussi bonne que la précédente.

📖

termer

Matrice de Transition

Structure mathématique représentant les probabilités de transition entre états pour chaque action possible dans un MDP. Elle encode la dynamique stochastique de l'environnement et est essentielle aux calculs de programmation dynamique.

📖

termer

Horizon Temporel

Nombre d'étapes sur lequel s'étend la prise de décision, pouvant être fini (épisodes de longueur fixe) ou infini (processus continu). La programmation dynamique s'adapte différemment selon le type d'horizon considéré.

📖

termer

Opérateur de Bellman

Opérateur mathématique qui transforme une fonction de valeur en une nouvelle estimation en appliquant l'équation de Bellman. Il s'agit d'une contraction garantissant la convergence vers la fonction de valeur optimale.

📖

termer

Politique Stationnaire

Politique qui ne dépend que de l'état actuel et non du temps ou de l'historique des états visités. Dans les MDP, il existe toujours une politique stationnaire optimale pour les problèmes à horizon infini.

📖

termer

Résolution Exacte

Approche de programmation dynamique qui garantit de trouver la solution mathématiquement optimale d'un MDP, contrairement aux méthodes approximatives. Elle nécessite une connaissance complète du modèle de l'environnement.

📖

termer

Erreur de Troncature

Différence entre la valeur exacte et la valeur estimée due à l'arrêt prématuré des itérations dans les algorithmes de programmation dynamique. Cette erreur diminue exponentiellement avec le nombre d'itérations supplémentaires.

AI-ordlista

Itération de la Valeur

Itération de la Politique

Processus de Décision Markovien

Fonction de Valeur

Fonction de Valeur d'Action

Équation de Bellman

Principe d'Optimalité

Facteur d'Escompte

Évaluation de la Politique

Amélioration de la Politique

Matrice de Transition

Horizon Temporel

Opérateur de Bellman

Politique Stationnaire

Résolution Exacte

Erreur de Troncature

Inga resultat hittades