Programme Information général








télécharger 2.23 Mb.
titreProgramme Information général
page3/30
date de publication02.04.2018
taille2.23 Mb.
typeProgramme
p.21-bal.com > finances > Programme
1   2   3   4   5   6   7   8   9   ...   30

Objectif :
Il s'agit d'un cours de niveau introduction pour administrateur Hadoop, pour but de développement
Programme :


  • Linux Install

  • Hadoop

  • MapReduce

  • HDFS


CCP: Data Scientist
Les experts de CCP ont démontré leurs compétences dans le travail avec les données volumineuses à un niveau élite. Les candidats doivent prouver leurs capacités dans des conditions réelles en concevant et en développant une solution de science de prêts pour la production de données qui est évalué par les pairs pour sa précision, l'évolutivité et la robustesse.

Les candidats doivent passer tous deux des éléments suivants pour réussir le CCP complet.

Data sciences Essentials (DS-200)

Dans la partie examen écrit de CCP:DS, les candidats sont évalués sur leur connaissance des données scientifiques. Les candidats doivent passer DS-200 pour être admissibles à un défi scientifique de données. DS-200 est disponible toute l'année.

Data Science Challenge

Dans la partie stage de CCP:DS, les candidats sont objectivement évalués et classés basé sur leurs performances sur un problème de science des données réelles. Une défit doit être passé dans les 24 mois lors des examens DS-200 pour accrocher un CCP:DS. Les défis sont offerts deux fois par an, tous les autres trimestres.
DS-200

Sections d'examen

  • Acquisition de données

  • Évaluation des données

  • Transformation de données

  • Apprentissage de base de la machine

  • Clustering

  • Classification

  • Filtrage collaboratif

  • Sélection de modèle/composant

  • Probabilité

  • Visualisation

  • Optimisation


Data Evaluation
Objectives

 Connaissance des types de fichiers couramment utilisés pour l'entrée et de sortie Méthodes pour l'utilisation avec différents formats y compris les fichiers binaires, JSON, XML et .csv Outils, techniques et utilitaires pour l'évaluation des données de la ligne de commande et connaissance des techniques d'échantillonnage, filtrage et connaissance Hadoop SequenceFiles et la sérialisation à l'aide d'Avro

Study Resources


Transformation de données
Objectifs

  • Écrire un travail de Hadoop Streaming

  • Écrire un script qui reçoit les enregistrements sur stdin et écrivez-les sur stdout

  • Appeler les outils Unix pour convertir des formats de fichiers

  • Rejoignez les ensembles de données

  • Écrire des scripts pour anonymiser les ensembles de données

  • Écrire un mappeur à l'aide de Python et invoquer Hadoop en streaming

  • Écrire une sous-classe personnalisée du format FileOutput

  • Écrire des dossiers dans un nouveau format Avro ou Sequence


Ressources d'étude

  • Hadoop en Streaming

  • Wiki Hadoop en Streaming

  • Apache Hive

  • Tutoriel de Hive

  • Mode d'emploi multilingue de Hive

  • Documentation de jointures de Hive

  • Apache Pig

  • Opérateurs relationnels de Pig

  • Blog de manuels sur les cadres de Python pour Hadoop

  • Hadoop : Guide, 3e édition : chapitres 7, 12

  • Hadoop dans la pratique : Chapitre 8, 10


Machine Learning Basics
Objectifs


  • Comprendre comment utiliser les mappeurs et réducteurs pour créer des modèles de prévision

  • Comprendre les différents types d'apprentissage automatique, y compris l'apprentissage supervisé et non supervisé

  • Reconnaître les utilisations appropriées des éléments suivants : algorithmes paramétrique/non paramétrique

  • Victor machines, noyaux, réseaux de neurones, clustering, réduction dimensionnelle et systèmes de recommandation


Ressources d'étude


  • Apache Mahout

  • Apache Mahout wiki

  • Articles de Cloudera sur Apache Mahout

  • Hadoop dans la pratique : chapitre 9

  • Hadoop : Guide, 3e édition : chapitre 16

  • Algorithmes du Web Intelligent : chapitre 7

  • Guide programmeurs d'exploration de données



Mise en cluster
Objectifs


  • Définir clustering et identifier les cas d'utilisation appropriée

  • Identifier les différents modèles, y compris le centre de gravité, répartition, densité, groupe et graphique

  • Décrire la valeur et l'utilisation de paramètres de similitude y compris la corrélation de Pearson

  • La distance euclidienne de bloc

  • Identifier les algorithmes applicables à chaque modèle (k-means, SVD/PCA, etc.)


Ressources d'étude


  • Programmation Intelligence Collective : chapitre 3

  • Algorithmes du Web Intelligent : chapitre 4

  • Mahout en Action : partie 2


Classification
Objectifs


  • Décrire les étapes de la formation d'un ensemble

  • Cas de régression logistique, le théorème de Bayes

  • Formules et techniques de classification


Ressources d'étude


  • Programmation Intelligence Collective : chapitres 6, 7, 8, 9, 12

  • Algorithmes du Web Intelligent : chapitres 5, 6

  • Mahout en Action : partie 3


Filtrage collaboratif
Objectifs


  • Identifier l'utilisation des techniques de filtrage collaboratif basée sur l'utilisateur et basées sur l'article

  • Décrire les limites et les points forts des techniques de filtrage collaboratifs

  • Déterminer l'implémentation appropriée de filtrage collaborative (scenario)

  • Déterminer les paramètres pour évaluer l'exactitude d'un système (scenario)


Ressources d'étude


  • Moteurs de recommandation avec Apache Mahout

  • Programmation Intelligence Collective : chapitre 2

  • Algorithmes du Web Intelligent : chapitre 3

  • Mahout en Action : partie 1


Modèle/fonctionnalité sélection
Objectifs


  • Décrire le rôle et la fonction de sélection des fonctionnalités

  • Analyser un scénario et déterminer les caractéristiques appropriées

  • Analyser un scénario et déterminer les méthodes de déploiement


Ressources d'étude


  • Programmation Intelligence Collective : chapitre 10

  • Reconnaissance des formes et Machine Learning : chapitre 1.3


Probabilité
Objectifs


  • Analyser un scénario et déterminer la probabilité d'un résultat particulier

  • Percentiles d'échantillon

  • Déterminer une plage d'éléments basés sur un exemple de fonction de densité de probabilité

  • Résumer une distribution d'un nombre d'échantillon


Ressources d'étude


  • Programmation Intelligence Collective : chapitre 8

  • Reconnaissance des formes et Machine Learning : chapitre 2

  • BetterExplained.com sur la probabilité, statistiques, théorème de Bayes


Visualisation
Objectifs


  • Déterminer la visualisation plus efficace pour un problème donné

  • Analyser une visualisation de données et interpréter sa signification


Ressources d'étude


  • Visualisation : approches modernes

  • Notions de visualisation de donnée

  • Echantillon visualisations

  • visualisation de donne.ch

  • Data Visualisation de donne pour la perception humaine


Optimisation
Objectifs


  • Méthodes d'optimisation

  • Identifier de 1er ordre et 2e ordre des techniques d'optimisation

  • Déterminer le taux d'apprentissage pour un algorithme particulier

  • Déterminer les sources d'erreurs dans un modèle


Ressources d'étude


  • Leon Bottou sur apprentissage stochastique de conférences de pointe sur l'apprentissage de la Machine

  • Leon Bottou sur des algorithmes en ligne et approximations stochastiques

  • Programmation Intelligence Collective : chapitre 5

  • Texte de données volumineuses et traitement avec MapReduce : chapitre 6


CCAH: Administrateur Hadoop
Code examen : CCA-410
Sections d'examen
1.LE HDFS (38 %)

2. MapReduce (10 %)

3. Hadoop Cluster planification (12 %)

4. Hadoop Cluster Installation et Administration (17 %)

5. Gestion des ressources (6 %)

6. Surveillance et logging(12 %)

7. écosystème (5 %)
1. HDFS (38 %)
Objectifs


  • Décrire la fonction de tous les démons Hadoop

  • Décrire le fonctionnement normal d'un cluster Apache Hadoop, stockage de données

  • Identifier les systèmes qui motivent un système informatiques comme Apache Hadoop.

  • Classes principaux objectifs de conception HDFS

  • Un scénario donné, identifier les cas d'utilisation appropriée pour Fédération HDFS

  • Démon d'un cluster HDFS HA-Quorum et composants identifiez u

  • Analyser le rôle de sécurité HDFS (Kerberos)

  • Décrire fichier lire et écrire des chemins


Ressources d'étude


  • Hadoop : Guide, 3e édition : chapitre 3

  • Hadoop opérations : chapitre 2

  • Hadoop dans la pratique : appendice C: HDFS disséqué

  • CDH4 Guide de la haute disponibilité

  • CDH4 HA avec docs de stockage basé sur le Quorum

  • Apache HDFS haute disponibilité en utilisant les docs de gestionnaire de Journal de Quorum


2. MapReduce (10 %)
Objectifs


  • Comprendre comment déployer MapReduce v1 (MRv1)

  • Comprendre comment déployer MapReduce v2 (MRv2 / YARN)

  • Comprendre stratégie de conception de base pour MapReduce v2 (MRv2)


Ressources d'étude


  • Docs Apache Yarn (Remarque : nous ne contrôlons pas les liens apache.org. Ils ont eu un temps d’arrêt du 11 février 2013. Il est possible d’obtenir une erreur 404).

  • Docs de déploiement pour CDH4 Yarn


3. Hadoop Cluster planification (12 %)
Objectifs


  • Principaux points à considérer dans le choix du matériel et des systèmes d'exploitation pour cluster Apache Hadoop.

  • Analyser les choix dans la sélection d'un système

  • Tune du noyau et permutation de disque

  • Modèle de scénario et de la charge de travail, identifier une configuration matérielle appropriée au scénario

  • Dimensionnement de Cluster dans un scénario et la fréquence d'exécution, identifier les spécificités de la charge de travail, y compris les CPU, mémoire, stockage, I/O disque

  • Disque de dimensionnement et Configuration, y compris JBOD ou RAID, SANs, virtualisation et taille d'un cluster de disque

  • Topologies de réseau : comprendre l'utilisation du réseau en Hadoop (pour HDFS et MapReduce) et de proposer ou d'identifier les principaux composants de conception de réseau pour un scénario donné.


Ressources d'étude


  • Hadoop opérations : chapitre 4


4. Installation d'un Cluster de Hadoop et Administration (17 %)
Objectifs


  • Comment déterminer le cluster gère par défaillances de disque et de la machine.

  • Analyser une configuration de journalisation et format de fichier de configuration de journalisation

  • Comprendre les rudiments métriques de Hadoop et la surveillance de la santé de cluster

  • Identifier la fonction et le but des outils disponibles pour la surveillance

  • Identifier la fonction et le but des outils disponibles pour gérer le système de fichiers Apache Hadoop.


Ressources d'étude


  • Opérations de Hadoop, chapitre 5


5. Gestion des resources (6 %)
Objectifs


  • Comprendre les buts généraux de la conception de chacun de Hadoop planificateurs.

  • Comment déterminer le planificateur FIFO alloue aux ressources de cluster (scenario).

  • Comment déterminer Fair Scheduler alloue aux ressources de cluster (scenario).

  • Comment déterminer le planificateur de capacités alloue aux ressources de cluster (scenario).


Ressources d'étude


  • Un jeu de diapositives de Matei Zaharia, développeur de Fair Scheduler

  • Opérations de Hadoop, chapitre 7

  • Docs capacité planificateur Apache (Remarque : nous ne contrôlons pas les liens apache.org. Ils ont eu un temp d’arrêt depuis 11 février 2013. Il est possible d’obtenir une erreur 404).


6. Surveillance et logging(12 %)
Objectifs


  • Comprendre les fonctions et les caractéristiques des capacités collection métriques Hadoop¡¯s

  • Analyser les noms des noyaux et les interfaces utilisateur Web JobTracker

  • Interpréter une configuration de log4j

  • Comprendre comment surveiller les démons Hadoop

  • Utilisation et surveillance des CPU sur des noyaux maîtres

  • Expliquer comment surveiller le swap et mémoire sur tous les noyaux

  • Identifier comment afficher et gérer les fichiers journaux Hadoop¡¯s

  • Interpréter un fichier journal


Ressources d'étude
7. l'écosystème Hadoop (5 %)
Objectifs


  • Comprendre écosystème projets et ce que vous devez faire pour les déployer sur un cluster.


Ressources d'étude


  • Hadoop : Guide, 3e édition : chapitres 11, 12, 14, 15

  • Hadoop dans la pratique : chapitres 10, 11

  • Hadoop en Action : chapitres 10, 11

  • Docs Apache Hive

  • Docs Apache Pig

  • Introduction au vidéo Pig

  • Site de docs Apache Sqoop

  • Aaron Kimball sur Sqoop Hadoop monde 2012

  • Cloudera Manager, série de vidéos de formation en ligne


Chaque projet de l'écosystème de Hadoop est au moins un livre consacré. La portée de l'examen ne nécessite pas de connaissance approfondie de la programmation dans Hive, Pig, Sqoop, et

gestionnaire de Cloudera, , etc. plutôt comment ces projets contribuent à l'ensemble de données dans un écosystème.
CCSHB : HBase Specialist
Code examen : BCC-400

BCC-400 est conçu pour tester une maîtrise avec les concepts et les compétences dans les domaines suivants :
Concepts de base HBase


  • Reconnaître les caractéristiques fondamentales Apache HBase et son rôle dans un écosystème de données Identifier les différences entre Apache HBase et un SGBDR traditionnel.

  • Décrire la relation entre Apache HBase et HDFS.

  • Déterminer les caractéristiques d'application qui font la demande du scénario pour Apache HBase.


Modèle de données


  • Décrire comment un tableau d'Apache HBase est stocké physiquement sur le disque

  • Identifier les différences entre une famille de colonne et un identificateur de colonne

  • Scénario de chargement des données

  • Décrire comment les cellules Apache HBase stockent des données

  • Détailler ce qui se passe aux données lorsqu'il est supprimé.



Architecture

  • Identifier les principaux composants d'un cluster Apache HBase.

  • Reconnaître le fonctionnement des régions et leurs avantages selon des scénarios divers

  • Décrire comment un client trouve une ligne dans une table HBase

  • Comprendre la fonction et l'objet de compressions mineures et majeures

  • Compte tenu d'un scénario de crash du serveur et décrire comment Apache HBase bascule vers un autre serveur

  • Décrire les fractionnements de RegionServer.


Conception de schémas


  • Décrire les facteurs a considérer lors du création des colonne avec un modèle d'accès

  • Définir les touches de ligne pour des performances optimales de lecture

  • Définir les touches de ligne pour la localité.


API


  • Décrire les fonctions et l'objectif de la classe HBase Admin avec un tableau et le rowkey

  • Utilisez l'opération de get() pour revenir à des versions spécifiques de cette ligne

  • Décrire le comportement de la méthode checkAndPut().


Administration


  • Identifier comment créer, décrire et accéder aux données dans les tableaux a partir du Shell

  • Décrire comment les données sont charge en bloc dans Apache HBase.

  • Reconnaître les avantages des fractionnements gère.


CCDH: Développeur Hadoop
Code examen: CCD-410

Chaque candidat reçoit 50-55 questions directes. Les questions sont de manière dynamique et basées sur le pourcentage de Difficulté afin que chaque candidat reçoit un examen à un niveau constant. Chaque test comprend également au moins cinq dosés, questions expérimentale (beta).

Infrastructure : Composants de l'Hadoop qui sont en dehors des préoccupations d'un emploi particulier de MapReduce dont un développeur a besoin de maître (25 %)

Gestion des données : Développement, mise en œuvre et l'exécution des commandes de bien gérer le cycle de vie complet de données d'un travail de Hadoop (30 %)

Travail mécanique : Les processus et les commandes de contrôle des tâches et l'exécution en mettant l'accent sur le processus plutôt que sur les données (25 %)

Interrogation : Extraire des informations des données (20 %)
1. Infrastructure objectifs


  • Reconnaître et identifier les démons Apache Hadoop et comment elles fonctionnent aussi bien dans le traitement et le stockage des données

  • Comprendre comment Apache Hadoop exploite localité de données

  • Identifier le rôle et l'utilisation de ces deux MapReduce v1 (MRv1) et MapReduce v2 (MRv2 / YARN) démons

  • Analyser les avantages et les défis de l'architecture HDFS

  • Analyser comment HDFS implémente des tailles de fichiers, bloque les tailles et l'abstraction

  • Comprendre valeurs de réplication et besoins de stockage pour réplication

  • Déterminez comment HDFS stocke, lit et écrit des fichiers

  • Identifier le rôle d’Apache Hadoop Classes, Interfaces et méthodes

  • Comprendre comment Hadoop Streaming pourrait s'appliquer à un flux de travail.


2. objectifs de gestion de données


  • Importer une table de base de données dans Hive à l'aide de Sqoop

  • Créer une table à l'aide de Hive (lors de l'importation de Sqoop)

  • Utiliser avec les types de clé pour écrire des taches fonctionnels de MapReduce.

  • Travailler en MapReduce et déterminer le cycle de vie d'un mappeur et le cycle de vie d'un réducteur

  • Analyser et déterminer les relations entre les clés d'entrée à clés de sortie en termes de type et numéro, le tri des clés et le tri des valeurs

  • Donner des exemples de données d'entrée, identifier le nombre, le type et la valeur des clés émis et les valeurs des mappeurs ainsi que les données émises de chaque réducteur et le nombre et le contenu du ou des fichiers de sortie

  • Mise en œuvre et comprendre les limitations et stratégies pour se joindre à des groupes de données dans MapReduce

  • Comprendre fonctions du partitionnement et reconnaître les cas d'utilisation appropriée pour chacun

  • Reconnaître le processus et le rôle du tri et shuffle.

  • Comprendre les clés de valeur commune dans le cadre de MapReduce et les interfaces qu'ils implémentent

  • Types clé de valeur utilisable pour écrire des taches fonctionnelles de MapReduce.

3. Travail mécanique des objectifs

  • Construire des paramètres de configuration de travail approprié et les commandes utilisées dans la soumission de travaux

  • Analyser un travail MapReduce et déterminer comment les entrées et les sorties des données sont gérés

  • Analyser et déterminer InputFormat et OutputFormat pour sélection basée sur les exigences du poste

  • Analyser l'ordre des opérations dans une tache de MapReduce

  • Comprendre le rôle de RecordReader et de compression et des fichiers de séquence

  • Utiliser le cache distribué pour distribuer les données à des tâches de fonction MapReduce.

  • Construire et orchestrer un flux de travail avec Oozie.

4. objectifs de l'interrogation

  • Ecrire une tache de MapReduce pour mettre en œuvre une instruction HiveQl

  • Ecrire un travail de MapReduce pour interroger des données stockées dans le HDFS.


CISCO
Les certifications Cisco, reconnues comme la référence et la norme industrielle en matière de conception et d’assistance réseau, garantissant de hauts niveaux de spécialisation et de crédibilité.

Depuis les technologies élémentaires de mise en réseau jusqu’aux domaines techniques plus spécifiques et plus évolués comme la sécurité, le sans fil, les réseaux de diffusion de contenu et la téléphonie IP, les certifications Cisco valident les connaissances, garantissent les compétences professionnelles et multiplient les opportunités de carrières et d’avancement. Avec des employés certifiés Cisco, l’entreprise peut tirer le meilleur parti de son investissement de réseau en minimisant le temps de panne, en renforçant la productivité de ses collaborateurs et en améliorant la satisfaction de ses clients.
1   2   3   4   5   6   7   8   9   ...   30

similaire:

Programme Information général iconProgramme général

Programme Information général iconProgramme général

Programme Information général iconProgramme général : Objets d’étude

Programme Information général iconBaccalauréat blanc géNÉral
«En prenant comme exemple la transmission de deux gènes liés, montrez comment lors de la méiose IL peut s’effectuer un brassage de...

Programme Information général iconEn général Dans l’éducation Audiovisuel
«l’introduction des technologies de l’information et de la communication, quoiqu’elle soit inéluctable, ne saurait apporter des réponses...

Programme Information général iconAprès les allégements, quelle refondation ?
«Qu’est-ce qu’un programme ?» qui devait donner un cadre général et les grandes orientations

Programme Information général iconL’enseignement des Sciences de la Vie et de la Terre
Les systèmes dynamiques complexes renferment une certaine information et sont capables de moduler cette information en fonction de...

Programme Information général iconRapport general
«La Redynamisation du Sport et de l’Education Physique» se sont déroulés conformément aux orientations contenues dans le document...

Programme Information général iconEmmanuel Hoog, Président Directeur Général de l’ina
«L’Appel du 18 juin 1940» recouvre l’ensemble des initiatives prises par le général de Gaulle pour lutter contre le défaitisme de...

Programme Information général iconDu programme de 1
«observer» et la sous-partie Sources de lumière colorées du programme de 1ère S








Tous droits réservés. Copyright © 2016
contacts
p.21-bal.com