Dans tout projet de Data Science, les valeurs manquantes peuvent biaiser les résultats de segmentation. L'action groupBy propose le paramètre includeMissing qui, par défaut, est à True. Cela signifie que les Null ou Missing sont considérés comme un niveau de groupe distinct. Si votre logique métier impose d'ignorer ces données pour ne pas polluer vos rapports, vous pouvez ajuster ce comportement. Cela garantit que vos plans de données restent cohérents avec les règles de gestion définies par les analystes métier.
Data Quality : comment gérer les valeurs manquantes pour ne pas fausser vos statistiques de groupe ?
Exemples pour l'action groupBy
Groupement simple par région et produit avec somme
Cet exemple regroupe les données par 'region' et 'produit', en calculant la somme des montants pour chaque groupe.
Groupement détaillé avec tri décroissant, moyenne et limite
Ici, nous allons calculer la moyenne des montants, trier les variables du groupe par ordre décroissant, inclure les valeurs manquantes, limiter la sortie aux 10 premiers résultats et promouvoir la table en mémoire globale (pour que tout le monde en profite).