hadoop - riptutorial.com · hadoop common : les utilitaires communs qui prennent en charge les...
TRANSCRIPT
Table des matières
À propos 1
Chapitre 1: Démarrer avec hadoop 2
Remarques 2
Qu'est-ce qu'Apache Hadoop? 2
Apache Hadoop comprend ces modules: 2
Référence: 2
Versions 2
Examples 3
Installation ou configuration sous Linux 3
Installation de Hadoop sur Ubuntu 5
Création d'un utilisateur Hadoop: 5
Ajouter un utilisateur: 5
Configuration de SSH: 6
Ajouter l'utilisateur hadoop à la liste de sudoer: 8
Désactiver IPv6: 8
Installation de Hadoop: 8
Vue d'ensemble de Hadoop et HDFS 9
Chapitre 2: Commandes Hadoop 12
Syntaxe 12
Examples 12
Commandes Hadoop v1 12
1. Imprimez la version Hadoop 12
2. Lister le contenu du répertoire racine dans HDFS 12
h11 12
3. Indiquez la quantité d'espace utilisée et 12
disponible sur le système de fichiers actuellement monté 12
h12 12
4. Comptez le nombre de répertoires, fichiers et octets sous 12
les chemins correspondant au motif de fichier spécifié 12
h13 13
5. Exécutez un utilitaire de vérification du système de fichiers DFS 13
h14 13
6. Exécutez un utilitaire d'équilibrage de cluster 13
h15 13
7. Créez un nouveau répertoire nommé “hadoop” en dessous du 13
/ user / répertoire de formation dans HDFS. Puisque tu es 13
actuellement connecté avec l'ID utilisateur «training», 13
/ user / training est votre répertoire personnel dans HDFS. 13
h16 13
8. Ajoutez un exemple de fichier texte à partir du répertoire local 14
nommé «données» dans le nouveau répertoire que vous avez créé dans HDFS 14
lors de l'étape précédente. 14
h17 14
9. Répertorie le contenu de ce nouveau répertoire dans HDFS. 14
h18 14
10. Ajoutez l’ensemble du répertoire local appelé “retail” au 14
/ user / répertoire de formation dans HDFS. 14
h19 14
11. Puisque / user / training est votre répertoire personnel dans HDFS, 14
toute commande qui n'a pas de chemin absolu est 14
interprété comme relatif à ce répertoire. Le suivant 15
commande listera donc votre répertoire personnel, et 15
devrait montrer les éléments que vous venez d'ajouter là-bas. 15
h110 15
12. Voir combien d'espace ce répertoire occupe dans HDFS. 15
h111 15
13. Supprimez un fichier "clients" du répertoire "retail". 15
h112 15
14. Assurez-vous que ce fichier n'est plus dans HDFS. 15
h113 15
15. Supprimez tous les fichiers du répertoire «retail» en utilisant un caractère générique 16
h114 16
16. Vider la poubelle 16
h115 16
17. Enfin, supprimez tout le répertoire de vente au détail et tous les 16
de son contenu dans HDFS. 16
h116 16
18. Répertorie le répertoire de hadoop à nouveau 16
h117 16
19. Ajoutez le fichier achats.txt à partir du répertoire local 16
nommé "/ home / training /" dans le répertoire hadoop que vous avez créé dans HDFS 16
h118 17
20. Pour afficher le contenu de votre fichier texte payments.txt 17
qui est présent dans votre répertoire hadoop. 17
h119 17
21. Ajoutez le fichier achats.txt du répertoire «hadoop» présent dans le répertoire HDFS 17
dans le répertoire "data" présent dans votre répertoire local 17
h120 17
22. cp est utilisé pour copier des fichiers entre les répertoires présents dans HDFS 17
h121 17
23. La commande '-get' peut être utilisée alternativement pour la commande '-copyToLocal' 17
h122 18
24. Affiche le dernier kilo-octet du fichier «achats.txt» à la sortie standard. 18
h123 18
25. Les autorisations de fichier par défaut sont 666 dans HDFS 18
Utilisez la commande '-chmod' pour modifier les autorisations d'un fichier 18
h124 18
26. Les noms par défaut du propriétaire et du groupe sont la formation, la formation 18
Utilisez '-chown' pour changer le nom du propriétaire et le nom du groupe simultanément 18
h125 18
27. Le nom par défaut du groupe est l'entraînement 18
Utilisez la commande '-chgrp' pour changer le nom du groupe 19
h126 19
28. Déplacer un répertoire d'un endroit à un autre 19
h127 19
29. Le facteur de réplication par défaut dans un fichier est 3. 19
Utilisez la commande '-setrep' pour modifier le facteur de réplication d'un fichier 19
h128 19
30. Copiez un répertoire d'un nœud du cluster vers un autre 19
Utilisez la commande '-distcp' pour copier, 19
Option -overwrite pour remplacer les fichiers existants 19
-update commande pour synchroniser les deux répertoires 20
h129 20
31. Commande pour que le nœud de nom quitte le mode sécurisé 20
h130 20
32. Liste toutes les commandes du shell du système de fichiers hadoop 20
h131 20
33. Obtenez les valeurs de quota hdfs et le nombre actuel de noms et d'octets utilisés. 20
h132 20
34. Last but not least, demandez toujours de l'aide! 20
h133 20
Commandes Hadoop v2 21
Chapitre 3: Débogage du code Java Hadoop MR dans un environnement de développement
eclipse 25
Introduction 25
Remarques 25
Examples 25
Étapes de configuration 25
Chapitre 4: Données de chargement Hadoop 27
Examples 27
Charger des données dans hadoop hdfs 27
hadoop fs -mkdir: 27
Usage: 27
Exemple: 27
hadoop fs -put: 27
Usage: 27
Exemple: 27
hadoop fs -copyFromLocal: 27
Usage: 28
Exemple: 28
hadoop fs -moveFromLocal: 28
Usage: 28
Exemple: 28
Usage: 28
Exemple: 28
Chapitre 5: Introduction à MapReduce 30
Syntaxe 30
Remarques 30
Examples 30
Programme de comptage de mots (en Java et Python) 30
Chapitre 6: Qu'est-ce que HDFS? 34
Remarques 34
Examples 34
HDFS - Système de fichiers distribué Hadoop 34
Recherche de fichiers dans HDFS 34
Bloque et divise HDFS 35
Chapitre 7: teinte 37
Introduction 37
Examples 37
Processus de configuration 37
Dépendances d'instalation 37
Installation de teinte dans Ubuntu 38
Crédits 41
À propos
You can share this PDF with anyone you feel could benefit from it, downloaded the latest version from: hadoop
It is an unofficial and free hadoop ebook created for educational purposes. All the content is extracted from Stack Overflow Documentation, which is written by many hardworking individuals at Stack Overflow. It is neither affiliated with Stack Overflow nor official hadoop.
The content is released under Creative Commons BY-SA, and the list of contributors to each chapter are provided in the credits section at the end of this book. Images may be copyright of their respective owners unless otherwise specified. All trademarks and registered trademarks are the property of their respective company owners.
Use the content presented in this book at your own risk; it is not guaranteed to be correct nor accurate, please send your feedback and corrections to [email protected]
https://riptutorial.com/fr/home 1
Chapitre 1: Démarrer avec hadoop
Remarques
Qu'est-ce qu'Apache Hadoop?
La bibliothèque de logiciels Apache Hadoop est une infrastructure permettant le traitement distribué de grands ensembles de données sur des grappes d’ordinateurs à l’aide de modèles de programmation simples. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant des fonctions de calcul et de stockage locales. Plutôt que de dépendre du matériel pour fournir une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les défaillances au niveau de la couche application, offrant ainsi un service hautement disponible au-dessus d'un cluster
Apache Hadoop comprend ces modules:
Hadoop Common : les utilitaires communs qui prennent en charge les autres modules Hadoop.
•
Système de fichiers distribué Hadoop (HDFS) : système de fichiers distribué qui fournit un accès à haut débit aux données des applications.
•
Hadoop YARN : un cadre pour la planification des tâches et la gestion des ressources de cluster.
•
Hadoop MapReduce : Un système basé sur YARN pour le traitement parallèle de grands ensembles de données.
•
Référence:
Apache Hadoop
Versions
Version Notes de version Date de sortie
3.0.0-alpha1 2016-08-30
2.7.3 Cliquez ici - 2.7.3 2016-01-25
2.6.4 Cliquez ici - 2.6.4 2016-02-11
2.7.2 Cliquez ici - 2.7.2 2016-01-25
2.6.3 Cliquez ici - 2.6.3 2015-12-17
2.6.2 Cliquez ici - 2.6.2 2015-10-28
https://riptutorial.com/fr/home 2
Version Notes de version Date de sortie
2.7.1 Cliquez ici - 2.7.1 2015-07-06
Examples
Installation ou configuration sous Linux
Procédure de configuration d'un cluster pseudo-distribué
Conditions préalables
Installez JDK1.7 et définissez la variable d'environnement JAVA_HOME.•
Créez un nouvel utilisateur en tant que "hadoop".
useradd hadoop
•
Configurer la connexion SSH sans mot de passe sur son propre compte
su - hadoop ssh-keygen << Press ENTER for all prompts >> cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
•
Vérifier en effectuant ssh localhost•
Désactivez IPV6 en éditant /etc/sysctl.conf avec les éléments suivants:
net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1
•
Vérifiez que vous utilisez cat /proc/sys/net/ipv6/conf/all/disable_ipv6
(devrait retourner 1)
•
Installation et configuration:
Téléchargez la version requise de Hadoop à partir des archives Apache en utilisant la commande wget .
cd /opt/hadoop/ wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz tar -xvf hadoop-2.x.x.gz mv hadoop-2.x.x.gz hadoop (or) ln -s hadoop-2.x.x.gz hadoop chown -R hadoop:hadoop hadoop
•
https://riptutorial.com/fr/home 3
Mettre à jour .bashrc / .kshrc fonction de votre shell avec les variables d'environnement ci-dessous
export HADOOP_PREFIX=/opt/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export JAVA_HOME=/java/home/path export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin
•
Dans le $HADOOP_HOME/etc/hadoop , éditez ci-dessous les fichiers
core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020</value> </property> </configuration>
○
mapred-site.xml
Créer mapred-site.xml partir de son modèle
cp mapred-site.xml.template mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
○
yarn-site.xml
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
○
hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name>
○
•
https://riptutorial.com/fr/home 4
<value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Créez le dossier parent pour stocker les données hadoop
mkdir -p /home/hadoop/hdfs
Format NameNode (nettoie le répertoire et crée les fichiers méta nécessaires)
hdfs namenode -format
•
Démarrer tous les services:
start-dfs.sh && start-yarn.sh mr-jobhistory-server.sh start historyserver
•
Au lieu de cela, utilisez start-all.sh (obsolète).
Vérifiez tous les processus Java en cours d'exécution
jps
•
Interface Web Namenode: http: // localhost: 50070 /•
Interface Web du gestionnaire de ressources: http: // localhost: 8088 /•
Pour arrêter les démons (services):
stop-dfs.sh && stop-yarn.sh mr-jobhistory-daemon.sh stop historyserver
•
Utilisez plutôt stop-all.sh (obsolète).
Installation de Hadoop sur Ubuntu
Création d'un utilisateur Hadoop:
sudo addgroup hadoop
Ajouter un utilisateur:
https://riptutorial.com/fr/home 5
sudo adduser --ingroup hadoop hduser001
Configuration de SSH:
su -hduser001 ssh-keygen -t rsa -P "" cat .ssh/id rsa.pub >> .ssh/authorized_keys
Remarque : Si vous obtenez des erreurs [ bash: .ssh / authorized_keys: pas de fichier ou répertoire de ce type ] lors de l'écriture de la clé autorisée. Vérifiez ici .
https://riptutorial.com/fr/home 6
https://riptutorial.com/fr/home 7
Ajouter l'utilisateur hadoop à la liste de sudoer:
sudo adduser hduser001 sudo
Désactiver IPv6:
https://riptutorial.com/fr/home 8
Installation de Hadoop:
sudo add-apt-repository ppa:hadoop-ubuntu/stable sudo apt-get install hadoop
Vue d'ensemble de Hadoop et HDFS
https://riptutorial.com/fr/home 9
Hadoop est une infrastructure logicielle à code source libre pour le stockage et le traitement à grande échelle d'ensembles de données dans un environnement informatique distribué. Il est sponsorisé par Apache Software Foundation. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant des fonctions de calcul et de stockage locales.
Histoire
Hadoop a été créé par Doug Cutting et Mike Cafarella en 2005.•Cutting, qui travaillait chez Yahoo! à l'époque, l'a nommé après l'éléphant de jouet de son fils.
•
Il a été initialement développé pour prendre en charge la distribution du projet de moteur de recherche.
•
Principaux modules de hadoop
Système de fichiers distribué Hadoop (HDFS): système de fichiers distribué qui fournit un accès à haut débit aux données des applications. Hadoop MapReduce: cadre logiciel pour le traitement distribué de grands ensembles de données sur des grappes de calcul.
Fonctionnalités de base du système de fichiers Hadoop
Très tolérant aux pannes. Haut débit. Convient aux applications avec de grands ensembles de données. Peut être construit à partir de matériel de base.
Namenode et Datanodes
Architecture maître / esclave. Le cluster HDFS se compose d'un seul Namenode, un serveur maître qui gère l'espace de noms du système de fichiers et régule l'accès aux fichiers par les clients. Les nœuds de données gèrent le stockage attaché aux nœuds sur lesquels ils s'exécutent. HDFS expose un espace de noms de système de fichiers et permet de stocker les données utilisateur dans des fichiers. Un fichier est divisé en un ou plusieurs blocs et un ensemble de blocs est stocké dans DataNodes. DataNodes: sert à lire, à écrire des requêtes, à créer, à supprimer et à répliquer des blocs sur instruction de Namenode.
https://riptutorial.com/fr/home 10
HDFS est conçu pour stocker des fichiers très volumineux sur plusieurs ordinateurs d'un grand cluster. Chaque fichier est une séquence de blocs. Tous les blocs du fichier, sauf le dernier, ont la même taille. Les blocs sont répliqués pour la tolérance aux pannes. Le Namenode reçoit un Heartbeat et un BlockReport de chaque DataNode du cluster. BlockReport contient tous les blocs d'un Datanode.
Commandes Hadoop Shell
Commandes communes utilisées: -ls Usage: hadoop fs –ls Chemin (répertoire / chemin du fichier à lister). Utilisation du chat : hadoop fs -cat PathOfFileToView
Lien pour les commandes du shell hadoop: - https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html
Lire Démarrer avec hadoop en ligne: https://riptutorial.com/fr/hadoop/topic/926/demarrer-avec-hadoop
https://riptutorial.com/fr/home 11
Chapitre 2: Commandes Hadoop
Syntaxe
Commandes Hadoop v1: hadoop fs -<command>•
Commandes Hadoop v2: hdfs dfs -<command>•
Examples
Commandes Hadoop v1
1. Imprimez la version Hadoop
hadoop version
2. Lister le contenu du répertoire racine dans HDFS
hadoop fs -ls /
3. Indiquez la quantité d'espace utilisée et
disponible sur le système de fichiers actuellement monté
hadoop fs -df hdfs:/
4. Comptez le nombre de répertoires, fichiers et octets sous
https://riptutorial.com/fr/home 12
les chemins correspondant au motif de fichier spécifié
hadoop fs -count hdfs:/
5. Exécutez un utilitaire de vérification du système de fichiers DFS
hadoop fsck – /
6. Exécutez un utilitaire d'équilibrage de cluster
hadoop balancer
7. Créez un nouveau répertoire nommé “hadoop” en dessous du
/ user / répertoire de formation dans HDFS. Puisque tu es
actuellement connecté avec l'ID utilisateur «training»,
/ user / training est votre répertoire personnel dans HDFS.
https://riptutorial.com/fr/home 13
hadoop fs -mkdir /user/training/hadoop
8. Ajoutez un exemple de fichier texte à partir du répertoire local
nommé «données» dans le nouveau répertoire que vous avez créé dans HDFS
lors de l'étape précédente.
hadoop fs -put data/sample.txt /user/training/hadoop
9. Répertorie le contenu de ce nouveau répertoire dans HDFS.
hadoop fs -ls /user/training/hadoop
10. Ajoutez l’ensemble du répertoire local appelé “retail” au
/ user / répertoire de formation dans HDFS.
hadoop fs -put data/retail /user/training/hadoop
11. Puisque / user / training est votre répertoire personnel dans HDFS,
https://riptutorial.com/fr/home 14
toute commande qui n'a pas de chemin absolu est
interprété comme relatif à ce répertoire. Le suivant
commande listera donc votre répertoire personnel, et
devrait montrer les éléments que vous venez d'ajouter là-bas.
hadoop fs -ls
12. Voir combien d'espace ce répertoire occupe dans HDFS.
hadoop fs -du -s -h hadoop/retail
13. Supprimez un fichier "clients" du répertoire "retail".
hadoop fs -rm hadoop/retail/customers
14. Assurez-vous que ce fichier n'est plus dans HDFS.
https://riptutorial.com/fr/home 15
hadoop fs -ls hadoop/retail/customers
15. Supprimez tous les fichiers du répertoire «retail» en utilisant un caractère générique.
hadoop fs -rm hadoop/retail/*
16. Vider la poubelle
hadoop fs -expunge
17. Enfin, supprimez tout le répertoire de vente au détail et tous les
de son contenu dans HDFS.
hadoop fs -rm -r hadoop/retail
18. Répertorie le répertoire de hadoop à nouveau
hadoop fs -ls hadoop
19. Ajoutez le fichier achats.txt à partir du répertoire local
nommé "/ home / training /" dans le répertoire
https://riptutorial.com/fr/home 16
hadoop que vous avez créé dans HDFS
hadoop fs -copyFromLocal /home/training/purchases.txt hadoop/
20. Pour afficher le contenu de votre fichier texte payments.txt
qui est présent dans votre répertoire hadoop.
hadoop fs -cat hadoop/purchases.txt
21. Ajoutez le fichier achats.txt du répertoire «hadoop» présent dans le répertoire HDFS
dans le répertoire "data" présent dans votre répertoire local
hadoop fs -copyToLocal hadoop/purchases.txt /home/training/data
22. cp est utilisé pour copier des fichiers entre les répertoires présents dans HDFS
hadoop fs -cp /user/training/*.txt /user/training/hadoop
23. La commande '-get' peut être utilisée alternativement pour la commande '-
https://riptutorial.com/fr/home 17
copyToLocal'
hadoop fs -get hadoop/sample.txt /home/training/
24. Affiche le dernier kilo-octet du fichier «achats.txt» à la sortie standard.
hadoop fs -tail hadoop/purchases.txt
25. Les autorisations de fichier par défaut sont 666 dans HDFS
Utilisez la commande '-chmod' pour modifier les autorisations d'un fichier
hadoop fs -ls hadoop/purchases.txt sudo -u hdfs hadoop fs -chmod 600 hadoop/purchases.txt
26. Les noms par défaut du propriétaire et du groupe sont la formation, la formation
Utilisez '-chown' pour changer le nom du propriétaire et le nom du groupe simultanément
hadoop fs -ls hadoop/purchases.txt sudo -u hdfs hadoop fs -chown root:root hadoop/purchases.txt
https://riptutorial.com/fr/home 18
27. Le nom par défaut du groupe est l'entraînement
Utilisez la commande '-chgrp' pour changer le nom du groupe
hadoop fs -ls hadoop/purchases.txt sudo -u hdfs hadoop fs -chgrp training hadoop/purchases.txt
28. Déplacer un répertoire d'un endroit à un autre
hadoop fs -mv hadoop apache_hadoop
29. Le facteur de réplication par défaut dans un fichier est 3.
Utilisez la commande '-setrep' pour modifier le facteur de réplication d'un fichier
hadoop fs -setrep -w 2 apache_hadoop/sample.txt
30. Copiez un répertoire d'un nœud du cluster vers un autre
Utilisez la commande '-distcp' pour copier,
https://riptutorial.com/fr/home 19
Option -overwrite pour remplacer les fichiers existants
-update commande pour synchroniser les deux répertoires
hadoop fs -distcp hdfs://namenodeA/apache_hadoop hdfs://namenodeB/hadoop
31. Commande pour que le nœud de nom quitte le mode sécurisé
hadoop fs -expunge sudo -u hdfs hdfs dfsadmin -safemode leave
32. Liste toutes les commandes du shell du système de fichiers hadoop
hadoop fs
33. Obtenez les valeurs de quota hdfs et le nombre actuel de noms et d'octets utilisés.
hadoop fs -count -q [-h] [-v] <directory>...<directory>
34. Last but not least, demandez toujours de l'aide!
https://riptutorial.com/fr/home 20
hadoop fs -help
Commandes Hadoop v2
appendToFile: Ajoute un seul src ou plusieurs srcs du système de fichiers local au système de fichiers de destination. Lit également l'entrée de stdin et ajoute au système de fichiers de destination. Gardez le comme -
hdfs dfs -appendToFile [localfile1 localfile2 ..] [/HDFS/FILE/PATH..]
cat: copie les chemins source vers la sortie standard.
hdfs dfs -cat URI [URI …]
chgrp: modifie l'association de groupe de fichiers. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires. L'utilisateur doit être le propriétaire du fichier ou le superutilisateur.
hdfs dfs -chgrp [-R] GROUP URI [URI …]
chmod: modifie les permissions des fichiers. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires. L'utilisateur doit être le propriétaire du fichier ou le superutilisateur
hdfs dfs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI …]
chown: modifie le propriétaire des fichiers. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires. L'utilisateur doit être le superutilisateur.
hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ]
copyFromLocal: Fonctionne de manière similaire à la commande put, sauf que la source est limitée à une référence de fichier local.
hdfs dfs -copyFromLocal <localsrc> URI
copyToLocal: Fonctionne de manière similaire à la commande get, sauf que la destination est limitée à une référence de fichier local.
hdfs dfs -copyToLocal [-ignorecrc] [-crc] URI <localdst>
count: Compte le nombre de répertoires, de fichiers et d'octets sous les chemins correspondant au modèle de fichier spécifié.
hdfs dfs -count [-q] [-h] <paths>
https://riptutorial.com/fr/home 21
cp: copie un ou plusieurs fichiers d'une source spécifiée vers une destination spécifiée. Si vous spécifiez plusieurs sources, la destination spécifiée doit être un répertoire.
hdfs dfs -cp URI [URI …] <dest>
du: Affiche la taille du fichier spécifié ou la taille des fichiers et des répertoires contenus dans le répertoire spécifié. Si vous spécifiez l'option -s, affiche un résumé agrégé des tailles de fichiers plutôt que des tailles de fichiers individuelles. Si vous spécifiez l'option -h, formatez les tailles de fichier de manière "lisible par l'homme".
hdfs dfs -du [-s] [-h] URI [URI …]
dus: affiche un résumé des tailles de fichiers; équivalent à hdfs dfs -du –s.
hdfs dfs -dus <args>
expulsion: vide la corbeille. Lorsque vous supprimez un fichier, il n'est pas supprimé immédiatement de HDFS, mais est renommé en un fichier dans le répertoire / trash. Tant que le fichier y reste, vous pouvez le supprimer si vous changez d'avis, même si seule la dernière copie du fichier supprimé peut être restaurée.
hdfs dfs –expunge
get: copie les fichiers sur le système de fichiers local. Les fichiers qui échouent à un contrôle de redondance cyclique (CRC) peuvent toujours être copiés si vous spécifiez l'option -ignorecrc. Le CRC est une technique courante pour détecter les erreurs de transmission de données. Les fichiers de somme de contrôle CRC ont l'extension .crc et sont utilisés pour vérifier l'intégrité des données d'un autre fichier. Ces fichiers sont copiés si vous spécifiez l'option -crc.
hdfs dfs -get [-ignorecrc] [-crc] <src> <localdst>
getmerge: Concatène les fichiers dans src et écrit le résultat dans le fichier de destination local spécifié. Pour ajouter un caractère de nouvelle ligne à la fin de chaque fichier, spécifiez l’option addnl.
hdfs dfs -getmerge <src> <localdst> [addnl]
ls: renvoie des statistiques pour les fichiers ou répertoires spécifiés.
hdfs dfs -ls <args>
lsr: Sert de version récursive de ls; similaire à la commande Unix ls -R.
hdfs dfs -lsr <args>
mkdir: Crée des répertoires sur un ou plusieurs chemins spécifiés. Son comportement est
https://riptutorial.com/fr/home 22
similaire à la commande Unix mkdir -p, qui crée tous les répertoires qui mènent au répertoire spécifié s'ils n'existent pas déjà.
hdfs dfs -mkdir <paths>
moveFromLocal: Fonctionne de la même manière que la commande put, sauf que la source est supprimée après sa copie.
hdfs dfs -moveFromLocal <localsrc> <dest>
mv: déplace un ou plusieurs fichiers d'une source spécifiée vers une destination spécifiée. Si vous spécifiez plusieurs sources, la destination spécifiée doit être un répertoire. Le déplacement de fichiers entre systèmes de fichiers n'est pas autorisé.
hdfs dfs -mv URI [URI …] <dest>
put: copie les fichiers du système de fichiers local vers le système de fichiers de destination. Cette commande peut également lire les entrées de stdin et écrire dans le système de fichiers de destination.
hdfs dfs -put <localsrc> ... <dest>
rm: Supprime un ou plusieurs fichiers spécifiés. Cette commande ne supprime pas les répertoires ou fichiers vides. Pour contourner la corbeille (si elle est activée) et supprimer immédiatement les fichiers spécifiés, spécifiez l'option -skipTrash.
hdfs dfs -rm [-skipTrash] URI [URI …]
rm r: Sert de version récursive de –rm.
hdfs dfs -rm -r [-skipTrash] URI [URI …]
setrep: modifie le facteur de réplication pour un fichier ou un répertoire spécifié. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires.
hdfs dfs -setrep <rep> [-R] <path>
stat: affiche des informations sur le chemin spécifié.
hdfs dfs -stat URI [URI …]
tail: Affiche le dernier kilo-octet d'un fichier spécifié à stdout. La syntaxe prend en charge l'option Unix -f, qui permet de surveiller le fichier spécifié. Lorsque de nouvelles lignes sont ajoutées au fichier par un autre processus, tail met à jour l'affichage.
hdfs dfs -tail [-f] URI
https://riptutorial.com/fr/home 23
test: renvoie les attributs du fichier ou du répertoire spécifié. Spécifie -e pour déterminer si le fichier ou le répertoire existe; -z pour déterminer si le fichier ou le répertoire est vide; et -d pour déterminer si l'URI est un répertoire.
hdfs dfs -test -[ezd] URI
text: génère un fichier source spécifié au format texte. Les formats de fichier d'entrée valides sont zip et TextRecordInputStream.
hdfs dfs -text <src>
touchz: Crée un nouveau fichier vide de taille 0 dans le chemin spécifié.
hdfs dfs -touchz <path>
Lire Commandes Hadoop en ligne: https://riptutorial.com/fr/hadoop/topic/3870/commandes-hadoop
https://riptutorial.com/fr/home 24
Chapitre 3: Débogage du code Java Hadoop MR dans un environnement de développement eclipse local.
Introduction
La chose fondamentale à retenir ici est que le débogage d'un travail Hadoop MR sera similaire à toute application à déboguer à distance dans Eclipse.
Un outil de débogage ou de débogage est un programme informatique utilisé pour tester et déboguer d'autres programmes (le programme «cible»). Il est particulièrement utile pour un environnement Hadoop dans lequel il y a peu de place à l'erreur et une petite erreur peut entraîner une perte considérable.
Remarques
C'est tout ce que vous devez faire.
Examples
Étapes de configuration
Comme vous le savez, Hadoop peut être exécuté dans l'environnement local selon 3 modes différents:
Mode local1. Mode pseudo-distribué2. Mode entièrement distribué (cluster)3.
En général, vous exécuterez votre configuration de hadoop local en mode pseudo-distribué pour exploiter HDFS et Map Reduce (MR). Cependant, vous ne pouvez pas déboguer les programmes MR dans ce mode, car chaque tâche Map / Reduce s'exécute dans un processus JVM distinct. Vous devez donc revenir au mode Local où vous pouvez exécuter vos programmes MR dans un processus JVM unique.
Voici les étapes simples et rapides pour le déboguer dans votre environnement local:
Exécutez hadoop en mode local pour le débogage afin que les tâches du mappeur et du réducteur s'exécutent dans une seule machine virtuelle Java au lieu de machines virtuelles distinctes. Les étapes ci-dessous vous aident à le faire.
1.
Configurez HADOOP_OPTS pour activer le débogage. Ainsi, lorsque vous exécuterez votre travail Hadoop, il attendra que le débogueur se connecte. Vous trouverez ci-dessous la
2.
https://riptutorial.com/fr/home 25
commande pour déboguer le même sur le port 8080.
(export HADOOP_OPTS = ”- agentlib: jdwp = transport = dt_socket, serveur = y, suspendre = y, adresse = 8008“)
Configurez la valeur fs.default.name dans le fichier core-site.xml pour le fichier: /// à partir de hdfs: //. Vous n'utiliserez pas hdfs en mode local.
3.
Configurez la valeur de mapred.job.tracker dans mapred-site.xml sur local. Cela indiquera à Hadoop d'exécuter les tâches MR dans une seule JVM.
4.
Créez une configuration de débogage pour Eclipse et définissez le port sur 8008. Pour cela, accédez aux configurations du débogueur et créez un nouveau type de configuration d'application Java distante et définissez le port comme 8080 dans les paramètres.
5.
Exécutez votre travail de hadoop (il attendra que le débogueur se connecte), puis lancez Eclipse en mode débogage avec la configuration ci-dessus. Assurez-vous de mettre un point de rupture en premier.
6.
Lire Débogage du code Java Hadoop MR dans un environnement de développement eclipse local. en ligne: https://riptutorial.com/fr/hadoop/topic/10063/debogage-du-code-java-hadoop-mr-dans-un-environnement-de-developpement-eclipse-local-
https://riptutorial.com/fr/home 26
Chapitre 4: Données de chargement Hadoop
Examples
Charger des données dans hadoop hdfs
ÉTAPE 1: CRÉER UN ANNUAIRE DANS HDFS, TÉLÉCHARGER UN FICHIER ET LISTE DE CONTENUS
Apprenons en écrivant la syntaxe. Vous pourrez copier et coller les exemples de commandes suivants dans votre terminal:
hadoop fs -mkdir:
Prend l'URI du chemin comme argument et crée un répertoire ou plusieurs répertoires.
Usage:
# hadoop fs -mkdir <paths>
Exemple:
hadoop fs -mkdir /user/hadoop hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2 /user/hadoop/dir3
hadoop fs -put:
Copie un seul fichier src ou plusieurs fichiers src du système de fichiers local vers le système de fichiers distribué Hadoop.
Usage:
# hadoop fs -put <local-src> ... <HDFS_dest_path>
Exemple:
hadoop fs -put popularNames.txt /user/hadoop/dir1/popularNames.txt
https://riptutorial.com/fr/home 27
hadoop fs -copyFromLocal:
Copie un seul fichier src ou plusieurs fichiers src du système de fichiers local vers le système de fichiers distribué Hadoop.
Usage:
# hadoop fs -copyFromLocal <local-src> ... <HDFS_dest_path>
Exemple:
hadoop fs -copyFromLocal popularNames.txt /user/hadoop/dir1/popularNames.txt
hadoop fs -moveFromLocal:
Semblable à la commande put, sauf que la source locale est supprimée après sa copie.
Usage:
# hadoop fs -moveFromLocal <local-src> ... <HDFS_dest_path>
Exemple:
hadoop fs -moveFromLocal popularNames.txt /user/hadoop/dir1/popularNames.txt
OUTIL DE TRANSFERT DE DONNÉES SQOOP:
Nous pouvons également charger des données dans HDFS directement à partir de bases de données relationnelles à l'aide de Sqoop (un outil de ligne de commande pour le transfert de données du SGBDR vers HDFS et inversement).
Usage:
$ sqoop import --connect CONNECTION_STRING --username USER_NAME --table TABLE_NAME
https://riptutorial.com/fr/home 28
Exemple:
$ sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST
Lire Données de chargement Hadoop en ligne: https://riptutorial.com/fr/hadoop/topic/3846/donnees-de-chargement-hadoop
https://riptutorial.com/fr/home 29
Chapitre 5: Introduction à MapReduce
Syntaxe
Pour exécuter l'exemple, la syntaxe de la commande est la suivante:
bin/hadoop jar hadoop-*-examples.jar wordcount [-m <#maps>] [-r <#reducers>] <in-dir> <out-dir>
•
Pour copier des données dans HDFS (à partir du local):
bin/hadoop dfs -mkdir <hdfs-dir> //not required in hadoop 0.17.2 and later bin/hadoop dfs -copyFromLocal <local-dir> <hdfs-dir>
•
Remarques
Programme Word Count utilisant MapReduce dans Hadoop.
Examples
Programme de comptage de mots (en Java et Python)
Le programme de comptage de mots est similaire au programme "Hello World" dans MapReduce.
Hadoop MapReduce est une infrastructure logicielle permettant d'écrire facilement des applications qui traitent de grandes quantités de données (ensembles de données de plusieurs téraoctets) en parallèle sur de grands clusters (des milliers de nœuds) de matériel de base de manière fiable et tolérante aux pannes.
Un travail MapReduce divise généralement le jeu de données d'entrée en blocs indépendants qui sont traités par les tâches de carte de manière totalement parallèle. Le framework trie les sorties des cartes, qui sont ensuite entrées dans les tâches de réduction. Généralement, l'entrée et la sortie du travail sont stockées dans un système de fichiers. La structure prend en charge la planification des tâches, leur surveillance et la ré-exécution des tâches ayant échoué.
Exemple de compte de mots:
WordCount exemple lit des fichiers texte et compte combien de fois les mots se produisent. L'entrée est constituée de fichiers texte et la sortie est constituée de fichiers texte, dont chaque ligne contient un mot et le nombre de fois où elle s'est produite, séparés par un onglet.
Chaque mappeur prend une ligne en entrée et la divise en mots. Il émet alors une paire clé / valeur du mot et chaque réducteur additionne les comptes pour chaque mot et émet une seule clé / valeur avec le mot et la somme.
https://riptutorial.com/fr/home 30
En tant qu'optimisation, le réducteur est également utilisé comme combineur sur les sorties de la carte. Cela réduit la quantité de données envoyées sur le réseau en combinant chaque mot en un seul enregistrement.
Code de nombre de mots:
package org.myorg; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.*; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } } public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "wordcount"); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class);
https://riptutorial.com/fr/home 31
job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); } }
Pour exécuter l'exemple, la syntaxe de la commande est la suivante:
bin/hadoop jar hadoop-*-examples.jar wordcount [-m <#maps>] [-r <#reducers>] <in-dir> <out-dir>
Tous les fichiers du répertoire d'entrée (appelés in-dir dans la ligne de commande ci-dessus) sont lus et les comptes de mots dans l'entrée sont écrits dans le répertoire de sortie (appelé out-dir ci-dessus). Il est supposé que les entrées et les sorties sont stockées dans HDFS. Si votre entrée n'est pas déjà dans HDFS, mais plutôt dans un système de fichiers local, vous devez copier les données dans HDFS en utilisant une commande comme celle-ci:
bin/hadoop dfs -mkdir <hdfs-dir> //not required in hadoop 0.17.2 and later bin/hadoop dfs -copyFromLocal <local-dir> <hdfs-dir>
Word Count exemple en Python:
mapper.py
import sys for line in sys.stdin: # remove leading and trailing whitespace line = line.strip() # split the line into words words = line.split() # increase counters for word in words: print '%s\t%s' % (word, 1)
réducteur.py
import sys current_word = None current_count = 0 word = None for line in sys.stdin: # remove leading and trailing whitespaces line = line.strip() # parse the input we got from mapper.py word, count = line.split('\t', 1) # convert count (currently a string) to int try: count = int(count) except ValueError:
https://riptutorial.com/fr/home 32
# count was not a number, so silently # ignore/discard this line continue if current_word == word: current_count += count else: if current_word: print '%s\t%s' % (current_word, current_count) current_count = count current_word = word if current_word == word: print '%s\t%s' % (current_word, current_count)
Le programme ci-dessus peut être exécuté en utilisant cat filename.txt | python mapper.py | sort -k1,1 | python reducer.py
Lire Introduction à MapReduce en ligne: https://riptutorial.com/fr/hadoop/topic/3879/introduction-a-mapreduce
https://riptutorial.com/fr/home 33
Chapitre 6: Qu'est-ce que HDFS?
Remarques
Une bonne explication de HDFS et de son fonctionnement.
La syntaxe devrait contenir les commandes pouvant être utilisées dans HDFS.
Examples
HDFS - Système de fichiers distribué Hadoop
Le système de fichiers distribué Hadoop (HDFS) est un système de fichiers basé sur Java qui fournit un stockage de données évolutif et fiable conçu pour couvrir de grands groupes de serveurs de base. HDFS, MapReduce et YARN constituent le cœur d'Apache ™ Hadoop®.
HDFS est conçu pour être hautement tolérant aux pannes, ce qui est possible en enregistrant plusieurs copies (3 par défaut) d'un bloc de données donné sur plusieurs nœuds.
Recherche de fichiers dans HDFS
Pour rechercher un fichier dans le système de fichiers Hadoop Distributed:
hdfs dfs -ls -R / | grep [search_term]
Dans la commande ci-dessus,
-ls sert à lister les fichiers
-R est pour récursif (itérer dans les sous-répertoires)
/ signifie depuis le répertoire racine
| pour diriger la sortie de la première commande vers la seconde
Commande grep pour extraire les chaînes correspondantes
[search_term] nom du fichier à rechercher dans la liste de tous les fichiers du système de fichiers hadoop.
Vous pouvez également utiliser la commande ci-dessous pour rechercher et appliquer également certaines expressions:
hadoop fs -find / -name test -print
Trouve tous les fichiers qui correspondent à l'expression spécifiée et leur applique les actions sélectionnées. Si aucun chemin n'est spécifié, le répertoire de travail actuel est utilisé par défaut.
https://riptutorial.com/fr/home 34
Si aucune expression n'est spécifiée, la valeur par défaut est -print.
Les expressions principales suivantes sont reconnues:
name pattern•iname pattern•
Evalue comme true si le nom de base du fichier correspond au modèle utilisant la globalisation du système de fichiers standard. Si -iname est utilisé, la correspondance est insensible à la casse.
print•print0Always•
Évalue à vrai. Fait en sorte que le chemin d'accès actuel soit écrit sur la sortie standard. Si l'expression -print0 est utilisée, un caractère ASCII NULL est ajouté.
Les opérateurs suivants sont reconnus:
expression -a expression expression -and expression expression expression
Bloque et divise HDFS
Taille de bloc et blocs dans HDFS : HDFS a pour principe de stocker des données dans des blocs à chaque fois qu'un fichier est chargé. Les blocs sont les partitions physiques des données dans HDFS (ou dans tout autre système de fichiers, d'ailleurs).
Chaque fois qu'un fichier est chargé sur le HDFS, il est divisé physiquement (oui, le fichier est divisé) en différentes parties appelées blocs. Le nombre de blocs dépend de la valeur de dfs.block.size dans hdfs-site.xml
Idéalement, la taille du bloc est définie sur une valeur élevée telle que 64/128/256 Mo (contre 4 Ko dans le FS normal). La valeur de taille de bloc par défaut sur la plupart des distributions de Hadoop 2.x est de 128 Mo. La raison d’une taille de bloc plus élevée est due au fait que Hadoop est conçu pour traiter PetaBytes de données avec chaque fichier allant de quelques centaines de méga-octets à l’ordre de TeraBytes.
Disons par exemple que vous avez un fichier de taille 1024 Mo. Si votre taille de bloc est de 128 Mo, vous obtiendrez 8 blocs de 128 Mo chacun. Cela signifie que votre namenode devra stocker les métadonnées de 8 x 3 = 24 fichiers (3 étant le facteur de réplication).
Considérons le même scénario avec une taille de bloc de 4 Ko. Il en résultera 1GB / 4KB = 250000 blocs, ce qui nécessitera la namenode pour enregistrer les métadonnées pour 750000 blocs pour seulement un fichier de 1 Go. Étant donné que toutes ces informations relatives aux métadonnées sont stockées en mémoire, il est préférable d'utiliser une taille de bloc supérieure pour économiser ce bit de charge supplémentaire sur le NameNode.
Encore une fois, la taille du bloc n'est pas extrêmement élevée, comme 1 Go, etc., car, idéalement, 1 mappeur est lancé pour chaque bloc de données. Ainsi, si vous définissez la
1.
https://riptutorial.com/fr/home 35
taille du bloc sur 1 Go, vous risquez de perdre le parallélisme, ce qui peut ralentir le débit global.
2.) Fractionner la taille dans HDFS : les fractionnements dans le traitement Hadoop sont les blocs de données logiques. Lorsque les fichiers sont divisés en blocs, hadoop ne respecte aucun fichier binaire. Il divise simplement les données en fonction de la taille du bloc. Disons que si vous avez un fichier de 400 Mo, avec 4 lignes et que chaque ligne contient 100 Mo de données, vous obtiendrez 3 blocs de 128 MB x 3 et 16 MB x 1 . Mais lorsque les fractionnements d'entrée sont calculés alors que la saisie des données, les limites des fichiers / enregistrements sont gardées à l'esprit et dans ce cas nous aurons 4 fractionnements d'entrée de 100 Mo chacun, si vous utilisez, par exemple, NLineInputFormat .
La taille de fractionnement peut également être définie par travail en utilisant la propriété mapreduce.input.fileinputformat.split.maxsize
Une très bonne explication de Blocks vs Splits peut être trouvée dans cette réponse SO /
Lire Qu'est-ce que HDFS? en ligne: https://riptutorial.com/fr/hadoop/topic/3845/qu-est-ce-que-hdfs-
https://riptutorial.com/fr/home 36
Chapitre 7: teinte
Introduction
Hue est une interface utilisateur permettant de se connecter et de travailler avec la plupart des technologies Bigdata couramment utilisées, telles que HDFS, Hive, Spark, Hbase, Sqoop, Impala, Pig, Oozie, etc.
Hue, une application Web de Django, a été principalement conçue comme un plan de travail pour exécuter des requêtes Hive. Plus tard, la fonctionnalité de Hue a été améliorée pour prendre en charge différents composants de Hadoop Ecosystem. Il est disponible en tant que logiciel open source sous licence Apache.
Examples
Processus de configuration
Dépendances d'instalation
Les détails du processus d'installation de Hue ne sont pas disponibles pour la plupart des systèmes d'exploitation. En fonction du système d'exploitation, les dépendances à installer peuvent être différentes avant l'exécution du script d'installation fourni dans le package d'installation :
CentOS
sudo yum install ant sudo yum install python-devel.x86_64 sudo yum install krb5-devel.x86_64 sudo yum install krb5-libs.x86_64 sudo yum install libxml2.x86_64 sudo yum install python-lxml.x86_64 sudo yum install libxslt-devel.x86_64 sudo yum install mysql-devel.x86_64 sudo yum install openssl-devel.x86_64 sudo yum install libgsasl-devel.x86_64 sudo yum install sqlite-devel.x86_64 sudo yum install openldap-devel.x86_64 sudo yum install -y libffi libffi-devel sudo yum install mysql-devel gcc gcc-devel python-devel sudo yum install rsync sudo yum install maven wget https://bootstrap.pypa.io/ez_setup.py -O - | sudo python
GMP1.
CentOS> 7.x sudo yum install libgmp3-dev
•
https://riptutorial.com/fr/home 37
CentOS <6.x sudo yum install gmp gmp-devel gmp-status
•
Installation de teinte dans Ubuntu
Cette installation suppose que hadoop soit pré-installé sous utilisateur hadoop .
Conditions préalables:
Hue dépend de ces paquets suivants
gcc1. g ++2. libxml2-dev3. libxlst-dev4. libsasl2-dev5. libsasl2-modules-gssapi-mit6. libmysqlclient-dev7. python-dev8. python-setuptools9. libsqlite3-dev10. fourmi11. libkrb5-dev12. libtidy-0.99-013. libldap2-dev14. libssl-dev15. libgmp3-dev16.
Installer tous les paquets
sudo apt-get update sudo apt-get install gcc g++ libxml2-dev libxslt-dev libsasl2-dev libsasl2-modules-gssapi-mit libmysqlclient-dev python-dev python-setuptools libsqlite3-dev ant libkrb5-dev libtidy-0.99-0 libldap2-dev libssl-dev libgmp3-dev
Installation et configuration
Effectuer l'installation en tant qu'utilisateur hadoop .
su - hadoop
Téléchargez Hue sur gethue.com (ce lien est un exemple obtenu sur le site Web de Hue)
wget https://dl.dropboxusercontent.com/u/730827/hue/releases/3.9.0/hue-3.9.0.tgz
1.
Extraire l'archive tar téléchargée
tar -xvf hue-3.9.0.tgz
2.
Exécuter la commande d'installation3.
https://riptutorial.com/fr/home 38
cd hue-3.9.0 PREFIX=/home/hadoop/ make install
Une fois le processus ci-dessus terminé,
Mettre à jour le fichier ~/.bashrc ,
export HUE_HOME=/home/hadoop/hue export PATH=$PATH:$HUE_HOME/build/env/bin
source après l'ajout des entrées, source ~ / .bashrc
4.
Configurer Hue (3 fichiers à éditer)5.
cd $HUE_HOME/desktop/conf
hue.ini
[desktop] server_user=hadoop server_group=hadoop default_user=hadoop default_hdfs_superuser=hadoop
•
cd $HADOOP_CONF_DIR
core-site.xml
<property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value>*</value> </property>
•
hdfs-site.xml
<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property>
•
Démarrer Hue (Démarrer les démons Hadoop si ce n'est déjà fait)
nohup supervisor &
6.
Connectez-vous à l'interface Web de Hue: http: // localhost: 8888
nom d'utilisateur: hadoop
mot de passe : user_choice
7.
https://riptutorial.com/fr/home 39
Lire teinte en ligne: https://riptutorial.com/fr/hadoop/topic/6133/teinte
https://riptutorial.com/fr/home 40
Crédits
S. No
Chapitres Contributeurs
1Démarrer avec hadoop
Ani Menon, Community, franklinsijo, Harinder, ItayB, Sandeep Chatterjee, Shailesh Kumar Dayananda, sunkuet02, Udeet Solanki, Venkata Karthik
2 Commandes Hadoop Ambrish, Ani Menon, jedijs, philantrovert
3
Débogage du code Java Hadoop MR dans un environnement de développement eclipse local.
Manish Verma
4Données de chargement Hadoop
Ani Menon, Backtrack, BruceWayne, NeoWelkin, Tejus Prasad
5Introduction à MapReduce
Ani Menon, Arduino_Sentinel, Tejus Prasad, Udeet Solanki, user3335966
6Qu'est-ce que HDFS?
Ani Menon, NeoWelkin, neuromouse, philantrovert, Suraj Kumar Yadav, Tejus Prasad
7 teinte andriosr, franklinsijo
https://riptutorial.com/fr/home 41