Comment l'action 'analyzeMissingPatterns' gère-t-elle les grandes quantités de valeurs distinctes ou les distributions de fréquence complexes ?

L'action analyzeMissingPatterns utilise des mécanismes avancés pour gérer efficacement les données, même avec un grand nombre de valeurs distinctes. Deux paramètres clés régissent ce comportement :

  • distinctCountLimit : Cet entier spécifie le nombre maximal de valeurs distinctes pour lesquelles un comptage exact est effectué. Si le nombre de valeurs distinctes d'une variable dépasse cette limite (la valeur par défaut est 10000), le comportement dépend du paramètre misraGries.
  • misraGries : Ce paramètre booléen (TRUE par défaut) active l'algorithme de Misra-Gries pour l'estimation de la distribution de fréquence si le distinctCountLimit est dépassé. L'algorithme de Misra-Gries est une technique d'ébauche (sketching) qui permet d'estimer les fréquences des éléments les plus fréquents dans un flux de données avec une empreinte mémoire réduite, particulièrement utile pour les ensembles de données volumineux ou les variables à cardinalité élevée. Si misraGries est FALSE et la limite est dépassée, l'opération de comptage distinct est abandonnée pour cette variable.

De plus, le paramètre ecdfTolerance (par défaut 0.001) spécifie la tolérance pour la fonction de distribution cumulative empirique, utilisée par l'algorithme de quantification pour estimer les quantiles avec précision.

Cette réponse vous a-t-elle aidé ?

Vos votes aident à améliorer notre base de connaissances.

Exemples pour l'action analyzeMissingPatterns

Analyse globale basique

Exécution de l'action sur la table entière avec les options par défaut, en spécifiant simplement la table d'entrée et la table de sortie.

Analyse ciblée avec variables nominales et algorithme robuste

Cette fois, on cible un sous-ensemble de variables (inputs), en forçant le format de 'Type', en ajoutant la variable 'MSRP' comme cible et en activant le filet de sécurité algorithmique Misra-Gries.