🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Table Q

Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires du Q-learning pour les espaces discrets.

📖
termes

Mise à jour de Bellman

Équation d'itération de la valeur qui met à jour la fonction Q en utilisant la récompense immédiate et la valeur Q maximale de l'état suivant, pondérée par le facteur d'escompte.

📖
termes

Taux d'apprentissage alpha

Paramètre α ∈ [0,1] contrôlant l'importance des nouvelles informations dans la mise à jour des valeurs Q, déterminant la vitesse de convergence de l'algorithme.

📖
termes

Facteur d'escompte gamma

Paramètre γ ∈ [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates dans le calcul des valeurs Q.

📖
termes

Stratégie epsilon-greedy

Politique d'action qui choisit l'action optimale avec probabilité 1-ε et une action aléatoire avec probabilité ε, permettant un compromis contrôlé entre exploration et exploitation.

📖
termes

Convergence du Q-learning

Propriété théorique garantissant que les valeurs Q convergent vers les valeurs Q optimales sous certaines conditions, notamment un taux d'apprentissage décroissant et une exploration suffisante.

📖
termes

Apprentissage sans modèle

Approche où l'agent apprend directement la politique ou la fonction de valeur sans construire de modèle explicite de la dynamique de l'environnement.

📖
termes

Processus de décision de Markov

Cadre mathématique pour modéliser les problèmes de décision séquentiels où les états futurs dépendent uniquement de l'état actuel et de l'action, respectant la propriété de Markov.

📖
termes

Récompense retardée

Concept où les actions peuvent générer des récompenses immédiates faibles mais des récompenses futures élevées, nécessitant une planification à long terme dans l'apprentissage.

📖
termes

État terminal

État absorbant qui met fin à un épisode d'apprentissage, après lequel aucune action supplémentaire n'est possible et où la fonction Q n'est plus mise à jour.

📖
termes

Q-valeur initiale

Valeur assignée à chaque paire état-action au début de l'apprentissage, qui peut influencer la vitesse de convergence et le comportement d'exploration initial.

📖
termes

Décroissance d'epsilon

Stratégie de réduction progressive du paramètre ε dans la politique epsilon-greedy pour favoriser l'exploration initiale et l'exploitation finale pendant l'apprentissage.

📖
termes

Max-opérateur

Opération mathématique dans la mise à jour Q-learning qui sélectionne la valeur Q maximale parmi toutes les actions possibles de l'état suivant pour estimer les récompenses futures.

📖
termes

Q-learning double

Variante du Q-learning utilisant deux fonctions Q pour réduire le biais de surestimation en découplant la sélection de l'action de son évaluation.

📖
termes

Horizon temporel infini

Condition où les épisodes n'ont pas de fin prédéfinie, nécessitant un facteur d'escompte γ < 1 pour assurer la convergence des valeurs Q.

📖
termes

Biais d'optimisme

Phénomène où les estimations Q sont initialement optimistes, encourageant l'exploration car les actions moins essayées semblent artificiellement attractives.

🔍

Aucun résultat trouvé