SAS base et Hadoop
SAS Base permet l'accès à HDFS et à l'écosysyème Hadoop grace à l'instruction Hadoop FILENAME, la proc Hadoop et la Proc Sqoop.
L'instruction Hadoop FILENAME permet d’accéder aux fichiers d’un système de fichiers distribué Hadoop (HDFS).
La PROC HADOOP permet de soumettre des commandes HDFS. Vous pouvezles exécuter directement à partir d'une session SAS. Vous pouvez également utiliser PROC HADOOP pour soumettre des programmes MapReduce ou Pig et les exécuter.
Il existe également une procédure SAS base appelée PROC SQOOP. Cette commande permet d’appeler l’exécution de commandes SQOOP. Ces commandes sont utiles pour déplacer des données entre une base de données et Hadoop, qu’il s’agisse de les transférer de Hadoop vers la base de données ou de la base de données vers Hadoop. L'avantage est que SQOOP est une application open source disponible au sein de l'écosystème Hadoop. Il s'agit d'un moyen très efficace de déplacer de grandes volumes de données entre Hadoop et d'autres sources de données . La PROC SQOOP vous permet d'appeler ce processus à partir d'un programme SAS. Lorsque vous procédez ainsi, vous ne transférez pas les données sur le serveur SAS. Vous utilisez simplement SAS pour exécuter une commande permettant de déplacer les données directement entre Hadoop et ce système de base de données.
Fichiers de configuration requis par SAS
Lorsque vous utilisez SAS base ou SAS/ACCESS interface to Hadoop vous avez besoin d'un ensemble de fichiers XML et JAR. Si vous êtes un utilisateur SAS, vous n'avez pas à vous soucier de cette configuration qui doit être réalisé sur le serveur. Pour faire simple, la configuration du serveur Hadoop se présente sous la forme de fichiers XML qui doivent être copiés sur le serveur SAS dans un répertoire spécifié par la variable d'environnement SAS_HADOOP_CONFIG_PATH. La valeur de cette variable d'environnement indique ce dossier sur la machine du serveur SAS où vous placez ces fichiers XML. De même, l'administrateur SAS doit s'assurer que plusieurs dizaines de fichiers JAR se trouvant sur le système Hadoop sont copiés sur le serveur SAS, ainsi que dans un autre dossier (spécifié par la variable d'environnement SAS_HADOOP_JAR_PATH)