Quel est l intérêt d utiliser le subSampleRate dans vos calculs distribués ?

Le paramètre subSampleRate permet d implémenter ce que l on appelle le Stochastic Gradient BoostingMéthode d'apprentissage itérative créant une suite d'arbres de décision. Chaque nouvel arbre corrige les erreurs de prédiction des précédents pour minimiser globalement la fonction de perte.. En spécifiant une fraction (par exemple 0.5), l action n utilise qu une partie aléatoire des données pour construire chaque arbre de la séquence. Cette approche a deux bénéfices majeurs : elle réduit significativement le temps de traitement sur les serveurs CAS et elle introduit une régularisation naturelle qui aide le modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). à ne pas trop coller aux spécificités du jeu d entraînement, améliorant ainsi la stabilité globale.

Exemples pour l'action gbtreeTrain

Entraînement de base

Un exemple minimal pour lancer votre premier boosting sur la variable 'BAD'.

Boosting optimisé avec régularisation et importance des variables

Ici, on passe aux choses sérieuses : 100 arbres, un taux d'apprentissage de 0.05, de la régularisation Ridge et le calcul de l'importance des variables.