Les commandes Hadoop que chaque Data Engineer doit connaître

de Nicolas Housset · 11/02/2018 ·

Apprendre à naviguer et à exécuter des commandes dans le shell Hadoop est essentiel pour tout ingénieur de données. Que vous deviez déplacer des données dans HDFS ou modifier le fichier de configuration du cluster, toutes ces tâches peuvent être effectuées à partir du shell Hadoop. Préparez-vous à découvrir les commandes que chaque ingénieur de données doit connaître... Répertorier les données actuelles dans le cluster Hadoop : Deux cas : Depuis le namenode :

hadoop fs -ls /

Depuis une machine cliente : hadoop fs -ls hdfs://namenodeHadoop:10001/ Créer un répertoire HDFS hadoop fs -mkdir /sasdata

Créer un fichier hadoop fs -touchz /sasdata/newdata.txt

Supprimer un fichier sur HDFS hadoop fs -rm /temp.txt Supprimer un répertoire HDFS hadoop fs -rmr /monRep Copier des fichiers ou des dossiers du système local vers HDFS hadoop fs -copyFromLocal /home/hdfs/sasdata/CASDATA/NFS/big_prdsale.sashdat /sasdata

Définition de la réplication et de la taille du bloc lors de l'upload La taille de bloc par défaut dans les datanodes hdfs est de 64 Mo. Mais vous pouvez augmenter à 128 ou 256mb selon vos besoins. Le facteur de réplication est 3 par défaut, mais vous pouvez également l'augmenter. Facteur de réplication : hadoop fs -D dfs.replication=1 -put /home/hdfs/sasdata/CASDATA/customers.sashdat /tmp hdfs dfs -stat %r /tmp/customers.sashdat Ce qui donne 1 Block Size : hadoop fs -D dfs.block.size=2939392 -cp file:/home/hdfs/sasdata/CASDATA/customers.sashdat /tmp/customers.sashdat hadoop fs -stat "%F %u:%g %b %y %n - replication : %r - block size : %o" /tmp/customers.sashdat

Les commandes Hadoop que chaque Data Engineer doit connaître

Laisser un commentaire Annuler la réponse

Vous pourriez aussi aimer...

Lire plus :

SEUFI2015, compétition de football interne SAS, les supporters sont dans la place !

Les commandes Hadoop que chaque Data Engineer doit connaître

Laisser un commentaire Annuler la réponse

Vous pourriez aussi aimer...

hive is not allowed to impersonate hive

Mettre à jour sa bibliothèque de partage HDFS pour les applications de workflow Oozie

SAS/ACCESS to Hadoop et les colonnes String (32k string thing)

Lire plus :

SEUFI2015, compétition de football interne SAS, les supporters sont dans la place !