Objectif : Il s'agit d'un cours de niveau introduction pour administrateur Hadoop, pour but de développement Programme :
Linux Install
Hadoop
MapReduce
HDFS
CCP: Data Scientist Les experts de CCP ont démontré leurs compétences dans le travail avec les données volumineuses à un niveau élite. Les candidats doivent prouver leurs capacités dans des conditions réelles en concevant et en développant une solution de science de prêts pour la production de données qui est évalué par les pairs pour sa précision, l'évolutivité et la robustesse.
Les candidats doivent passer tous deux des éléments suivants pour réussir le CCP complet.
Data sciences Essentials (DS-200)
Dans la partie examen écrit de CCP:DS, les candidats sont évalués sur leur connaissance des données scientifiques. Les candidats doivent passer DS-200 pour être admissibles à un défi scientifique de données. DS-200 est disponible toute l'année.
Data Science Challenge
Dans la partie stage de CCP:DS, les candidats sont objectivement évalués et classés basé sur leurs performances sur un problème de science des données réelles. Une défit doit être passé dans les 24 mois lors des examens DS-200 pour accrocher un CCP:DS. Les défis sont offerts deux fois par an, tous les autres trimestres. DS-200
Sections d'examen
Acquisition de données
Évaluation des données
Transformation de données
Apprentissage de base de la machine
Clustering
Classification
Filtrage collaboratif
Sélection de modèle/composant
Probabilité
Visualisation
Optimisation
Data Evaluation Objectives
Connaissance des types de fichiers couramment utilisés pour l'entrée et de sortie Méthodes pour l'utilisation avec différents formats y compris les fichiers binaires, JSON, XML et .csv Outils, techniques et utilitaires pour l'évaluation des données de la ligne de commande et connaissance des techniques d'échantillonnage, filtrage et connaissance Hadoop SequenceFiles et la sérialisation à l'aide d'Avro
Study Resources
Transformation de données Objectifs
Écrire un travail de Hadoop Streaming
Écrire un script qui reçoit les enregistrements sur stdin et écrivez-les sur stdout
Appeler les outils Unix pour convertir des formats de fichiers
Rejoignez les ensembles de données
Écrire des scripts pour anonymiser les ensembles de données
Écrire un mappeur à l'aide de Python et invoquer Hadoop en streaming
Écrire une sous-classe personnalisée du format FileOutput
Écrire des dossiers dans un nouveau format Avro ou Sequence
Ressources d'étude
Hadoop en Streaming
Wiki Hadoop en Streaming
Apache Hive
Tutoriel de Hive
Mode d'emploi multilingue de Hive
Documentation de jointures de Hive
Apache Pig
Opérateurs relationnels de Pig
Blog de manuels sur les cadres de Python pour Hadoop
Hadoop : Guide, 3e édition : chapitres 7, 12
Hadoop dans la pratique : Chapitre 8, 10
Machine Learning Basics Objectifs
Comprendre comment utiliser les mappeurs et réducteurs pour créer des modèles de prévision
Comprendre les différents types d'apprentissage automatique, y compris l'apprentissage supervisé et non supervisé
Reconnaître les utilisations appropriées des éléments suivants : algorithmes paramétrique/non paramétrique
Victor machines, noyaux, réseaux de neurones, clustering, réduction dimensionnelle et systèmes de recommandation
Ressources d'étude
Apache Mahout
Apache Mahout wiki
Articles de Cloudera sur Apache Mahout
Hadoop dans la pratique : chapitre 9
Hadoop : Guide, 3e édition : chapitre 16
Algorithmes du Web Intelligent : chapitre 7
Guide programmeurs d'exploration de données
Mise en cluster Objectifs
Définir clustering et identifier les cas d'utilisation appropriée
Identifier les différents modèles, y compris le centre de gravité, répartition, densité, groupe et graphique
Décrire la valeur et l'utilisation de paramètres de similitude y compris la corrélation de Pearson
La distance euclidienne de bloc
Identifier les algorithmes applicables à chaque modèle (k-means, SVD/PCA, etc.)
Ressources d'étude
Programmation Intelligence Collective : chapitre 3
Algorithmes du Web Intelligent : chapitre 4
Mahout en Action : partie 2
Classification Objectifs
Décrire les étapes de la formation d'un ensemble
Cas de régression logistique, le théorème de Bayes
Formules et techniques de classification
Ressources d'étude
Programmation Intelligence Collective : chapitres 6, 7, 8, 9, 12
Algorithmes du Web Intelligent : chapitres 5, 6
Mahout en Action : partie 3
Filtrage collaboratif Objectifs
Identifier l'utilisation des techniques de filtrage collaboratif basée sur l'utilisateur et basées sur l'article
Décrire les limites et les points forts des techniques de filtrage collaboratifs
Déterminer l'implémentation appropriée de filtrage collaborative (scenario)
Déterminer les paramètres pour évaluer l'exactitude d'un système (scenario)
Ressources d'étude
Moteurs de recommandation avec Apache Mahout
Programmation Intelligence Collective : chapitre 2
Algorithmes du Web Intelligent : chapitre 3
Mahout en Action : partie 1
Modèle/fonctionnalité sélection Objectifs
Décrire le rôle et la fonction de sélection des fonctionnalités
Analyser un scénario et déterminer les caractéristiques appropriées
Analyser un scénario et déterminer les méthodes de déploiement
Ressources d'étude
Programmation Intelligence Collective : chapitre 10
Reconnaissance des formes et Machine Learning : chapitre 1.3
Probabilité Objectifs
Analyser un scénario et déterminer la probabilité d'un résultat particulier
Percentiles d'échantillon
Déterminer une plage d'éléments basés sur un exemple de fonction de densité de probabilité
Résumer une distribution d'un nombre d'échantillon
Ressources d'étude
Programmation Intelligence Collective : chapitre 8
Reconnaissance des formes et Machine Learning : chapitre 2
BetterExplained.com sur la probabilité, statistiques, théorème de Bayes
Visualisation Objectifs
Déterminer la visualisation plus efficace pour un problème donné
Analyser une visualisation de données et interpréter sa signification
Ressources d'étude
Visualisation : approches modernes
Notions de visualisation de donnée
Echantillon visualisations
visualisation de donne.ch
Data Visualisation de donne pour la perception humaine
Optimisation Objectifs
Méthodes d'optimisation
Identifier de 1er ordre et 2e ordre des techniques d'optimisation
Déterminer le taux d'apprentissage pour un algorithme particulier
Déterminer les sources d'erreurs dans un modèle
Ressources d'étude
Leon Bottou sur apprentissage stochastique de conférences de pointe sur l'apprentissage de la Machine
Leon Bottou sur des algorithmes en ligne et approximations stochastiques
Programmation Intelligence Collective : chapitre 5
Texte de données volumineuses et traitement avec MapReduce : chapitre 6
CCAH: Administrateur Hadoop Code examen : CCA-410 Sections d'examen 1.LE HDFS (38 %)
2. MapReduce (10 %)
3. Hadoop Cluster planification (12 %)
4. Hadoop Cluster Installation et Administration (17 %)
5. Gestion des ressources (6 %)
6. Surveillance et logging(12 %)
7. écosystème (5 %) 1. HDFS (38 %) Objectifs
Décrire la fonction de tous les démons Hadoop
Décrire le fonctionnement normal d'un cluster Apache Hadoop, stockage de données
Identifier les systèmes qui motivent un système informatiques comme Apache Hadoop.
Classes principaux objectifs de conception HDFS
Un scénario donné, identifier les cas d'utilisation appropriée pour Fédération HDFS
Démon d'un cluster HDFS HA-Quorum et composants identifiez u
Analyser le rôle de sécurité HDFS (Kerberos)
Décrire fichier lire et écrire des chemins
Ressources d'étude
Hadoop : Guide, 3e édition : chapitre 3
Hadoop opérations : chapitre 2
Hadoop dans la pratique : appendice C: HDFS disséqué
CDH4 Guide de la haute disponibilité
CDH4 HA avec docs de stockage basé sur le Quorum
Apache HDFS haute disponibilité en utilisant les docs de gestionnaire de Journal de Quorum
2. MapReduce (10 %) Objectifs
Comprendre comment déployer MapReduce v1 (MRv1)
Comprendre comment déployer MapReduce v2 (MRv2 / YARN)
Comprendre stratégie de conception de base pour MapReduce v2 (MRv2)
Ressources d'étude
Docs Apache Yarn (Remarque : nous ne contrôlons pas les liens apache.org. Ils ont eu un temps d’arrêt du 11 février 2013. Il est possible d’obtenir une erreur 404).
Docs de déploiement pour CDH4 Yarn
3. Hadoop Cluster planification (12 %) Objectifs
Principaux points à considérer dans le choix du matériel et des systèmes d'exploitation pour cluster Apache Hadoop.
Analyser les choix dans la sélection d'un système
Tune du noyau et permutation de disque
Modèle de scénario et de la charge de travail, identifier une configuration matérielle appropriée au scénario
Dimensionnement de Cluster dans un scénario et la fréquence d'exécution, identifier les spécificités de la charge de travail, y compris les CPU, mémoire, stockage, I/O disque
Disque de dimensionnement et Configuration, y compris JBOD ou RAID, SANs, virtualisation et taille d'un cluster de disque
Topologies de réseau : comprendre l'utilisation du réseau en Hadoop (pour HDFS et MapReduce) et de proposer ou d'identifier les principaux composants de conception de réseau pour un scénario donné.
Ressources d'étude
Hadoop opérations : chapitre 4
4. Installation d'un Cluster de Hadoop et Administration (17 %) Objectifs
Comment déterminer le cluster gère par défaillances de disque et de la machine.
Analyser une configuration de journalisation et format de fichier de configuration de journalisation
Comprendre les rudiments métriques de Hadoop et la surveillance de la santé de cluster
Identifier la fonction et le but des outils disponibles pour la surveillance
Identifier la fonction et le but des outils disponibles pour gérer le système de fichiers Apache Hadoop.
Ressources d'étude
Opérations de Hadoop, chapitre 5
5. Gestion des resources (6 %) Objectifs
Comprendre les buts généraux de la conception de chacun de Hadoop planificateurs.
Comment déterminer le planificateur FIFO alloue aux ressources de cluster (scenario).
Comment déterminer Fair Scheduler alloue aux ressources de cluster (scenario).
Comment déterminer le planificateur de capacités alloue aux ressources de cluster (scenario).
Ressources d'étude
Un jeu de diapositives de Matei Zaharia, développeur de Fair Scheduler
Opérations de Hadoop, chapitre 7
Docs capacité planificateur Apache (Remarque : nous ne contrôlons pas les liens apache.org. Ils ont eu un temp d’arrêt depuis 11 février 2013. Il est possible d’obtenir une erreur 404).
6. Surveillance et logging(12 %) Objectifs
Comprendre les fonctions et les caractéristiques des capacités collection métriques Hadoop¡¯s
Analyser les noms des noyaux et les interfaces utilisateur Web JobTracker
Interpréter une configuration de log4j
Comprendre comment surveiller les démons Hadoop
Utilisation et surveillance des CPU sur des noyaux maîtres
Expliquer comment surveiller le swap et mémoire sur tous les noyaux
Identifier comment afficher et gérer les fichiers journaux Hadoop¡¯s
Interpréter un fichier journal
Ressources d'étude 7. l'écosystème Hadoop (5 %) Objectifs
Comprendre écosystème projets et ce que vous devez faire pour les déployer sur un cluster.
Ressources d'étude
Hadoop : Guide, 3e édition : chapitres 11, 12, 14, 15
Hadoop dans la pratique : chapitres 10, 11
Hadoop en Action : chapitres 10, 11
Docs Apache Hive
Docs Apache Pig
Introduction au vidéo Pig
Site de docs Apache Sqoop
Aaron Kimball sur Sqoop Hadoop monde 2012
Cloudera Manager, série de vidéos de formation en ligne
Chaque projet de l'écosystème de Hadoop est au moins un livre consacré. La portée de l'examen ne nécessite pas de connaissance approfondie de la programmation dans Hive, Pig, Sqoop, et
gestionnaire de Cloudera, , etc. plutôt comment ces projets contribuent à l'ensemble de données dans un écosystème. CCSHB : HBase Specialist Code examen : BCC-400
BCC-400 est conçu pour tester une maîtrise avec les concepts et les compétences dans les domaines suivants : Concepts de base HBase
Reconnaître les caractéristiques fondamentales Apache HBase et son rôle dans un écosystème de données Identifier les différences entre Apache HBase et un SGBDR traditionnel.
Décrire la relation entre Apache HBase et HDFS.
Déterminer les caractéristiques d'application qui font la demande du scénario pour Apache HBase.
Modèle de données
Décrire comment un tableau d'Apache HBase est stocké physiquement sur le disque
Identifier les différences entre une famille de colonne et un identificateur de colonne
Scénario de chargement des données
Décrire comment les cellules Apache HBase stockent des données
Détailler ce qui se passe aux données lorsqu'il est supprimé.
Architecture
Identifier les principaux composants d'un cluster Apache HBase.
Reconnaître le fonctionnement des régions et leurs avantages selon des scénarios divers
Décrire comment un client trouve une ligne dans une table HBase
Comprendre la fonction et l'objet de compressions mineures et majeures
Compte tenu d'un scénario de crash du serveur et décrire comment Apache HBase bascule vers un autre serveur
Décrire les fractionnements de RegionServer.
Conception de schémas
Décrire les facteurs a considérer lors du création des colonne avec un modèle d'accès
Définir les touches de ligne pour des performances optimales de lecture
Définir les touches de ligne pour la localité.
API
Décrire les fonctions et l'objectif de la classe HBase Admin avec un tableau et le rowkey
Utilisez l'opération de get() pour revenir à des versions spécifiques de cette ligne
Décrire le comportement de la méthode checkAndPut().
Administration
Identifier comment créer, décrire et accéder aux données dans les tableaux a partir du Shell
Décrire comment les données sont charge en bloc dans Apache HBase.
Reconnaître les avantages des fractionnements gère.
CCDH: Développeur Hadoop Code examen: CCD-410
Chaque candidat reçoit 50-55 questions directes. Les questions sont de manière dynamique et basées sur le pourcentage de Difficulté afin que chaque candidat reçoit un examen à un niveau constant. Chaque test comprend également au moins cinq dosés, questions expérimentale (beta).
Infrastructure : Composants de l'Hadoop qui sont en dehors des préoccupations d'un emploi particulier de MapReduce dont un développeur a besoin de maître (25 %)
Gestion des données : Développement, mise en œuvre et l'exécution des commandes de bien gérer le cycle de vie complet de données d'un travail de Hadoop (30 %)
Travail mécanique : Les processus et les commandes de contrôle des tâches et l'exécution en mettant l'accent sur le processus plutôt que sur les données (25 %)
Interrogation : Extraire des informations des données (20 %) 1. Infrastructure objectifs
Reconnaître et identifier les démons Apache Hadoop et comment elles fonctionnent aussi bien dans le traitement et le stockage des données
Comprendre comment Apache Hadoop exploite localité de données
Identifier le rôle et l'utilisation de ces deux MapReduce v1 (MRv1) et MapReduce v2 (MRv2 / YARN) démons
Analyser les avantages et les défis de l'architecture HDFS
Analyser comment HDFS implémente des tailles de fichiers, bloque les tailles et l'abstraction
Comprendre valeurs de réplication et besoins de stockage pour réplication
Déterminez comment HDFS stocke, lit et écrit des fichiers
Identifier le rôle d’Apache Hadoop Classes, Interfaces et méthodes
Comprendre comment Hadoop Streaming pourrait s'appliquer à un flux de travail.
2. objectifs de gestion de données
Importer une table de base de données dans Hive à l'aide de Sqoop
Créer une table à l'aide de Hive (lors de l'importation de Sqoop)
Utiliser avec les types de clé pour écrire des taches fonctionnels de MapReduce.
Travailler en MapReduce et déterminer le cycle de vie d'un mappeur et le cycle de vie d'un réducteur
Analyser et déterminer les relations entre les clés d'entrée à clés de sortie en termes de type et numéro, le tri des clés et le tri des valeurs
Donner des exemples de données d'entrée, identifier le nombre, le type et la valeur des clés émis et les valeurs des mappeurs ainsi que les données émises de chaque réducteur et le nombre et le contenu du ou des fichiers de sortie
Mise en œuvre et comprendre les limitations et stratégies pour se joindre à des groupes de données dans MapReduce
Comprendre fonctions du partitionnement et reconnaître les cas d'utilisation appropriée pour chacun
Reconnaître le processus et le rôle du tri et shuffle.
Comprendre les clés de valeur commune dans le cadre de MapReduce et les interfaces qu'ils implémentent
Types clé de valeur utilisable pour écrire des taches fonctionnelles de MapReduce.
3. Travail mécanique des objectifs
Construire des paramètres de configuration de travail approprié et les commandes utilisées dans la soumission de travaux
Analyser un travail MapReduce et déterminer comment les entrées et les sorties des données sont gérés
Analyser et déterminer InputFormat et OutputFormat pour sélection basée sur les exigences du poste
Analyser l'ordre des opérations dans une tache de MapReduce
Comprendre le rôle de RecordReader et de compression et des fichiers de séquence
Utiliser le cache distribué pour distribuer les données à des tâches de fonction MapReduce.
Construire et orchestrer un flux de travail avec Oozie.
4. objectifs de l'interrogation
Ecrire une tache de MapReduce pour mettre en œuvre une instruction HiveQl
Ecrire un travail de MapReduce pour interroger des données stockées dans le HDFS.
CISCO Les certifications Cisco, reconnues comme la référence et la norme industrielle en matière de conception et d’assistance réseau, garantissant de hauts niveaux de spécialisation et de crédibilité.
Depuis les technologies élémentaires de mise en réseau jusqu’aux domaines techniques plus spécifiques et plus évolués comme la sécurité, le sans fil, les réseaux de diffusion de contenu et la téléphonie IP, les certifications Cisco valident les connaissances, garantissent les compétences professionnelles et multiplient les opportunités de carrières et d’avancement. Avec des employés certifiés Cisco, l’entreprise peut tirer le meilleur parti de son investissement de réseau en minimisant le temps de panne, en renforçant la productivité de ses collaborateurs et en améliorant la satisfaction de ses clients. |