Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Validation Croisée K-Fold
Technique d'évaluation de modèle divisant l'ensemble de données en K partitions égales, où chaque partition sert tour à tour de jeu de test tandis que les K-1 autres servent d'entraînement. Cette méthode permet d'obtenir une estimation plus robuste des performances du modèle en réduisant la variance de l'évaluation.
Stratified K-Fold Cross-Validation
Variante du K-Fold qui maintient la distribution des classes dans chaque partition, essentielle pour les datasets déséquilibrés. Cette approche garantit que chaque fold représente fidèlement la distribution globale des classes du dataset original.
Holdout Method
Méthode simple d'évaluation divisant le dataset en deux ensembles distincts : entraînement et test, généralement avec des ratios de 70/30 ou 80/20. Bien que rapide à implémenter, cette méthode peut produire des estimations de performance biaisées selon la manière dont les données sont partitionnées.
Validation Croisée Répétée
Technique répétant le processus K-Fold plusieurs fois avec différentes partitions aléatoires pour réduire la variance de l'estimation de performance. Cette approche combine les avantages du K-Fold avec une plus grande robustesse statistique moyennant un coût computationnel accru.
Bootstrap Validation
Méthode d'évaluation utilisant un échantillonnage avec remplacement pour créer plusieurs ensembles d'entraînement et de test à partir des données originales. Le bootstrap permet d'estimer la variance des performances du modèle et est particulièrement utile avec des datasets de petite taille.
Grid Search avec Validation Croisée
Technique d'optimisation systématique testant exhaustivement toutes les combinaisons d'hyperparamètres spécifiées en utilisant la validation croisée pour évaluer chaque configuration. Cette méthode garantit de trouver la meilleure combinaison dans la grille définie mais peut être très coûteuse en calcul.
Randomized Search avec Validation Croisée
Alternative au Grid Search échantillonnant aléatoirement un nombre fixe de combinaisons d'hyperparamètres plutôt que d'explorer exhaustivement toutes les possibilités. Cette approche est souvent plus efficace pour trouver de bonnes hyperparamètres avec moins d'évaluations que le Grid Search.
Learning Curve
Graphique montrant l'évolution des performances du modèle en fonction de la taille de l'ensemble d'entraînement, utilisé pour diagnostiquer le surapprentissage ou le sous-apprentissage. Les learning curves aident à déterminer si davantage de données pourraient améliorer les performances du modèle.
Validation Curve
Outil de diagnostic visualisant l'impact d'un hyperparamètre unique sur les performances d'entraînement et de validation. Les validation curves permettent d'identifier les valeurs optimales d'hyperparamètres et de détecter les problèmes de biais-variance.
Cross-Entropy
Fonction de perte mesurant la divergence entre deux distributions de probabilités, largement utilisée dans les problèmes de classification. La cross-entropy pénalise d'autant plus les prédictions incorrectes qu'elles sont confiantes, ce qui en fait une excellente métrique d'entraînement.
Mean Squared Error
Métrique d'évaluation calculant la moyenne des carrés des différences entre valeurs prédites et réelles, particulièrement sensible aux grandes erreurs. Le MSE est couramment utilisé pour les problèmes de régression et pénalise davantage les erreurs importantes que le MAE.
Mean Absolute Error
Métrique de régression mesurant la moyenne des valeurs absolues des erreurs entre prédictions et valeurs réelles, offrant une interprétation directe en unités de la variable cible. Contrairement au MSE, le MAE est moins sensible aux outliers et représente l'erreur moyenne absolue.
R² Score
Coefficient de détermination mesurant la proportion de la variance de la variable cible expliquée par le modèle, variant entre -∞ et 1. Un R² de 1 indique une prédiction parfaite, tandis que des valeurs négatives suggèrent que le modèle performe moins bien qu'une simple moyenne.
F1-Score
Métrique de classification calculant la moyenne harmonique de la précision et du rappel, particulièrement utile pour les datasets déséquilibrés. Le F1-Score équilibre la capacité du modèle à éviter les faux positifs et les faux négatifs dans une seule mesure.
Precision-Recall Curve
Graphique illustrant le compromis entre précision et rappel pour différents seuils de classification, essentiel pour évaluer les modèles sur données déséquilibrées. L'aire sous cette courbe (AUC-PR) fournit une mesure agrégée de performance indépendante du seuil.
ROC Curve
Courbe représentant le taux de vrais positifs contre le taux de faux positifs à divers seuils de décision, visualisant la capacité de discrimination du modèle. La courbe ROC et son aire (AUC-ROC) sont des standards pour évaluer les performances globales des classificateurs binaires.
AUC Score
Aire sous la courbe ROC mesurant la probabilité qu'un classificateur donne un score plus élevé à une instance positive aléatoire qu'à une instance négative. L'AUC fournit une mesure de performance seuil-indépendante, particulièrement utile pour comparer différents modèles.
Group K-Fold Cross-Validation
Variante du K-Fold garantissant que les mêmes groupes ne apparaissent jamais dans différents ensembles d'entraînement et test simultanément. Cette approche est cruciale lorsque les données présentent une structure de groupes (patients, utilisateurs) où les observations d'un même groupe sont corrélées.