Comment optimiser le traitement du langage naturel et l'analyse sémantique pour les textes en chinois, japonais ou coréen ?

Question

Optimisation CJK via SAS Visual Text Analytics

Nicolas Housset · Accepted Answer

La tokenisation est une étape fondamentale et critique dans le flux de traitement du langage naturel (NLP). Par défaut, l'action utilise le paramètre tokenizer réglé sur la valeur STANDARD, qui déploie automatiquement un algorithme d'analyse lexicale spécifique à chaque langue couverte par votre licence (définie par le paramètre language). Cependant, pour répondre aux défis techniques liés à l'analyse syntaxique du chinois, du japonais ou du coréen, SAS Viya propose de définir ce paramètre sur BASIC. Cette option alternative segmente les documents en s'appuyant de manière pragmatique sur les espaces, les signes de ponctuation et les caractères spécifiques asiatiques, ce qui peut considérablement améliorer le déclenchement et la précision des règles linguistiques pour ces marchés.

Comment optimiser le traitement du langage naturel et l'analyse sémantique pour les textes en chinois, japonais ou coréen ?

Exemples pour l'action compileCategory

Compilation basique d'un modèle

Compilation avec intégration de concepts et Tokenizer spécifique

Conseil de l'Expert

Action CAS associée

À lire aussi...