regression

glmScore

##backup ##set_regression

Description

L'action glmScore du set d'actions Regression est l'outil indispensable pour passer de la théorie à la pratique. Après avoir ajusté un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). avec l'action glm, vous sauvegardez ce savoir sous forme de modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). binaire. L'action glmScore récupère ce modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). (via le paramètre restore) et l'applique à de nouvelles observations pour générer des prédictions et des statistiques de diagnostic. C'est un peu comme si vous aviez appris à prédire la météo et que vous utilisiez maintenant vos notes pour deviner s'il va pleuvoir demain sur des données que vous n'aviez jamais vues.

Syntaxe Officielle
regression.glmScore /
allStats=true | false,
alpha=double,
casOut={casouttable},
cooksD="string",
copyVars="ALL" | "ALL_NUMERIC" | {"var1", "var2"},
covRatio="string",
dffits="string",
display={displayTables},
fitData=true | false,
h="string",
lcl="string",
lclm="string",
likeDist="string",
outputTables={outputTables},
pred="string",
press="string",
resid="string",
restore={castable},
role="string",
rStudent="string",
stdi="string",
stdp="string",
stdr="string",
student="string",
table={castable},
ucl="string",
uclm="string";

Paramètres Clés

Nom du paramètre Description
restore Indique la table CAS (souvent un BLOB) contenant le modèle GLM précédemment sauvegardé avec l'option 'store'. C'est votre bibliothèque de connaissances .
table La table d'entrée contenant les observations à scorer .
casOut Désigne la table de sortie qui recevra les résultats du scoring .
pred Nom de la variable pour la valeur prédite. Par défaut, SAS l'appelle 'Pred' .
resid Nom de la variable pour les résidus (Valeur réelle - Valeur prédite) .
copyVars Liste des variables de la table d'origine à recopier dans la table scorée (pratique pour garder un ID client par exemple) .
allStats Un interrupteur pour activer toutes les statistiques de diagnostic d'un coup. Idéal pour les perfectionnistes .
alpha Définit le niveau de confiance pour les intervalles (0.05 par défaut pour du 95%) .

Préparation des données

Préparation d'un modèle et de données de test

On entraîne d'abord un modèle GLM simple sur les voitures pour prédire la puissance (Horsepower) puis on crée une table de test.

1PROC CAS;
2 SESSION mysess;
3 /* Entraînement et stockage du modèle */
4 regression.glm / TABLE="sashelp.cars", target="Horsepower", inputs={"Weight", "EngineSize"}, store={name="glm_cars_model", replace=true};
5 /* Création d'une table factice de test */
6 DATA step;
7 SET sashelp.cars(obs=5);
8 Weight = Weight * 1.1;
9 RUN;
10 datastep.runCode / code="data cars_new; set sashelp.cars(obs=10); Weight=Weight*1.05; run;";
11RUN;

Exemples d'utilisation

Scoring de base

Application simple du modèle stocké sur de nouvelles données pour obtenir la prédiction par défaut.

1PROC CAS; regression.glmScore / TABLE={name="cars_new"}, restore={name="glm_cars_model"}, casOut={name="cars_scored", replace=true}; RUN;
Résultat Attendu :
Une nouvelle table 'cars_scored' est créée avec une colonne 'Pred' contenant les prédictions.
Scoring avec diagnostics complets et copie de variables

Ici, on ne se contente pas de prédire. On demande les résidus, les erreurs types, les bras de levier (h) et on recopie le modèle du véhicule.

1PROC CAS; regression.glmScore / TABLE={name="cars_new"}, restore={name="glm_cars_model"}, casOut={name="cars_full_diagnostics", replace=true}, copyVars={"Make", "Model"}, pred="P_Horsepower", resid="R_Horsepower", h="Leverage", stdp="StdErr_Mean", lclm="Lower_Mean", uclm="Upper_Mean"; RUN;
Résultat Attendu :
La table 'cars_full_diagnostics' contient les variables d'origine spécifiées ainsi que les prédictions renommées, les résidus, les leviers et l'intervalle de confiance de la moyenne.