La gestion de la tokénisation est une phase critique pour garantir l'exactitude de l'analyse sémantique. Par défaut, le paramètre tokenizer est configuré sur la valeur STANDARD, ce qui applique un algorithme de découpage spécifiquement optimisé pour la langue définie (par exemple, l'anglais ou le français). Néanmoins, lors du traitement de langues asiatiques (chinois, japonais, coréen) qui ne séparent pas systématiquement les mots par des espaces typographiques, vous devez impérativement basculer ce paramètre sur la valeur BASIC. Ce mode demande au serveur CASMoteur analytique "in-memory" de SAS Viya. Il traite les données en parallèle (MPP) sur plusieurs nœuds pour offrir une puissance de calcul massive et une exécution ultra-rapide des actions. d'appliquer une segmentation granulaire stricte basée sur les espaces, la ponctuation et les caractères asiatiques spécifiques. Ce réglage d'architecture est vital pour assurer un alignement parfait de vos règles avec la morphologie de ces langues lors de l'exécution du modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)..
Quelle est la stratégie optimale pour paramétrer la tokénisation des langues asiatiques complexes avec cette action CAS ?
Optimisation de la segmentation CJK
Exemples pour l'action compileConcept
Compilation basique d'un modèle de concepts
Cet exemple compile simplement les règles présentes dans la table d'entrée vers un modèle binaire.
Compilation avancée avec entités prédéfinies et langue française
On compile ici un modèle en spécifiant explicitement le français et en activant les entités prédéfinies de SAS (comme CURRENCY, DATE, etc.) pour enrichir notre analyse future.