Quels sont les paramètres cruciaux pour l'application d'un modèle de catégorisation ?
Paramétrage et Exécution d'un Modèle de Catégorisation
Les paramètres clés incluent :
model : Spécifie la table CAS d'entrée contenant le modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de catégorisation. C'est un paramètre obligatoire.
table : Indique la table de données d'entrée contenant le texte à catégoriser.
docId : Le nom de la variable d'ID unique dans la table d'entrée pour référencer chaque ligne.
text : Le nom de la variable de texte dans la table d'entrée sur laquelle le modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). est appliqué.
Exemple de Code Additionnel
<pre>/* CASL Script : SCORING DE CATEGORISATION TEXTUELLE
(c) Nicolas Housset 2026 - Code SAS pour VIYA 4 */
proc cas;
/* 1. Chargement de l'action set dédié au traitement du langage naturel */
loadactionset "textCategorization";
/* 2. Application du modèle sur les nouvelles données textuelles */
textCategorization.score /
/* Paramètres d'entrée détaillés dans la question */
table = {name="documents_a_categoriser", caslib="Public"}
model = {name="mon_modele_categorisation_fr", caslib="Models"}
docId = "identifiant_unique_doc"
text = "contenu_verbatim"
/* Paramètre de sortie (Best Practice) */
casOut = {
name="resultats_categories",
caslib="Public",
replace=true,
replication=0 /* Optimisation : pas de réplication en phase de test */
};
run;
/* 3. Vérification des premières lignes pour valider l'application du modèle */
table.fetch /
table={name="resultats_categories", caslib="Public"}
to=5;
run;
quit;</pre>
1
<pre>/* CASL Script : SCORING DE CATEGORISATION TEXTUELLE
2
(c) Nicolas Housset 2026 - Code SAS pour VIYA 4 */
3
PROC CAS;
4
/* 1. Chargement de l'action set dédié au traitement du langage naturel */
5
LOADACTIONSET"textCategorization";
6
/* 2. Application du modèle sur les nouvelles données textuelles */
7
textCategorization.score /
8
/* Paramètres d'entrée détaillés dans la question */
Gemini said
Cet exemple automatise l'extraction de concepts via l'action applyCategory. Il projette un modèle de règles linguistiques sur un corpus CAS pour mapper chaque docId à ses thématiques cibles.
Cet exemple déploie un scoring pondéré pour isoler les déclencheurs textuels. Il génère une traçabilité granulaire via matchOut et groupedMatchOut afin d'auditer les preuves de classification.
Conseil de l'Expert
En tant que consultant sur des architectures distribuées, voici mon retour d'expérience terrain : si model, table, docId et text sont les paramètres fonctionnels strictement nécessaires, le succès de votre exécution dans CAS (Cloud Analytic Services) repose sur quelques détails cruciaux.
Tout d'abord, assurez-vous que la variable désignée par votre docId est non seulement parfaitement unique, mais idéalement d'un type de données léger (numérique ou chaîne courte). Cela optimise considérablement les performances lors du brassage des données (shuffling) entre les nœuds (workers) de votre cluster. Ensuite, bien que non listé dans la réponse initiale, le paramètre casOut est indispensable en production pour définir comment et où la table de résultats sera générée en mémoire. Enfin, Viya opérant nativement en UTF-8, validez toujours l'encodage de votre variable text en amont pour éviter toute corruption des caractères spéciaux lors du scoring.
Cette réponse vous a-t-elle aidé ?
Vos votes aident à améliorer notre base de connaissances.