Dans des secteurs comme l assurance, les données de réclamations présentent souvent une forte concentration de zéros (aucun sinistre) et des valeurs positives continues. L action gbtreeTrain permet de modéliser ces données spécifiques en réglant le paramètre distribution sur TWEEDIE. En ajustant le paramètre power (généralement entre 1 et 2), vous pouvez calibrer précisément la relation entre la moyenne et la varianceMesure statistique de la dispersion des données indiquant l'écart carré moyen par rapport à la moyenne. Une variance élevée traduit une grande hétérogénéité des observations autour du centre., offrant ainsi une flexibilité statistique que les modèles de régression standards ne peuvent égaler.
Comment gérer des données d assurance ou de sinistralité avec la distribution Tweedie ?
Exemples pour l'action gbtreeTrain
Entraînement de base
Un exemple minimal pour lancer votre premier boosting sur la variable 'BAD'.
Boosting optimisé avec régularisation et importance des variables
Ici, on passe aux choses sérieuses : 100 arbres, un taux d'apprentissage de 0.05, de la régularisation Ridge et le calcul de l'importance des variables.