XGBoost - Glossaire IA

📖

termes

Regularization L1/L2

Mécanismes de pénalité intégrés dans XGBoost pour contrôler la complexité du modèle et prévenir le surapprentissage. L1 (Lasso) favorise la parcimonie tandis que L2 (Ridge) réduit l'amplitude des poids.

📖

termes

Max Depth

Paramètre contrôlant la profondeur maximale de chaque arbre de décision dans l'ensemble, limitant ainsi la complexité individuelle des apprenants. Profondeur typique entre 3 et 10 pour équilibrer biais-variance.

📖

termes

Subsample

Fraction des observations d'entraînement échantillonnées aléatoirement pour construire chaque arbre, introduisant de la stochasticité pour réduire le surapprentissage. Valeurs courantes entre 0.5 et 1.0.

📖

termes

Colsample_bytree

Proportion de features sélectionnées aléatoirement pour chaque arbre, similaire à l'approche Random Forest pour améliorer la robustesse et réduire la corrélation entre arbres. Permet l'feature subsampling horizontal.

📖

termes

Split Finding Algorithm

Algorithme optimisé de recherche des meilleurs points de division utilisant une approche approximative pondérée par quantiles pour accélérer l'entraînement sur grands datasets. Réduit significativement la complexité computationnelle.

📖

termes

Sparse-aware Algorithm

Capacité de XGBoost à traiter efficacement les valeurs manquantes et les matrices creuses sans imputation préalable. Apprend automatiquement la direction optimale pour les valeurs manquantes lors des divisions.

📖

termes

Parallel Processing

Implémentation multithreadée qui parallélise la construction des arbres au niveau des features et des instances pour accélérer l'entraînement. Supporte aussi le traitement distribué via frameworks comme Hadoop ou Spark.

📖

termes

Cross-validation

Fonctionnalité native de XGBoost permettant l'évaluation robuste du modèle via validation croisée k-fold intégrée avec early stopping automatique. Optimise la sélection d'hyperparamètres et prévient le surapprentissage.

📖

termes

Objective Function

Fonction mathématique combinant la perte de prédiction et les termes de régularisation que XGBoost optimise lors de l'entraînement. Supporte multiples objectifs: régression, classification binaire/multi-classe, ranking.

📖

termes

Evaluation Metrics

Ensemble de métriques personnalisables pour surveiller la performance pendant l'entraînement: RMSE, MAE, LogLoss, AUC, Error Rate, etc. Peuvent différer de l'objectif d'optimisation principal.

📖

termes

DMatrix

Structure de données optimisée spécifique à XGBoost pour stocker efficacement les datasets en mémoire avec support natif du sparse format. Accélère l'accès aux données et réduit l'empreinte mémoire.

Glossaire IA

Regularization L1/L2

Max Depth

Subsample

Colsample_bytree

Split Finding Algorithm

Sparse-aware Algorithm

Parallel Processing

Cross-validation

Objective Function

Evaluation Metrics

DMatrix

Aucun résultat trouvé