[wpms_breadcrumb reverse="0"]
Les distributions HADOOP

Data Analyst – Analyse de données en environnement Hadoop

Reference : HAD01
3 jours - 1950 € HT
Prochaines sessions
    Data Analyst – Analyse de données en environnement Hadoop
    Objectifs

    • Expliquer ce qu’est Hadoop et YARN
    • Expliquer les cas d’utilisation de Hadoop
    • Expliquer comment HDFS Federation fonctionne dans Hadoop 2.0
    • Expliquer les différents outils et les Framework dans un environnement Hadoop 2.0
    • Expliquer l’architecture d’Hadoop Distributed File System (HDFS)
    • Utiliser le client Hadoop pour saisir les données dans HDFS
    • Utiliser Sqoop pour transférer les données entre Hadoop et une base de données en relation.
    • Expliquer l’architecture de MapReduce
    • Expliquer l’architecture de YARN
    • Faire tourner une tache de MapReduce sur YARN
    • Ecrire un script Pig pour explorer et transformer les données dans le HDFS
    • Définir les liens Pig avancées
    • Utiliser Pig pour structurer les données dans le Big Data non structuré.
    • Expliquer et utiliser les différences formats de fichiers Hive
    • Appeler une fonction User defined avec Pig
    • Comprendre comment les tables Hive sont définies et implémentées.
    • Utiliser les nouvelles fonctions de fenêtres de Hive
    • Planifier un workflow récurant en utilisant Oozie Coordinator
    • Utiliser Hive pour SQL- Requêtes pour performer l’analyse de données
    • Ecrire des requêtes Hive
    • Performer l’analyse de données comme quantiles et le rang de page de données Big Data en utilisant la bibliothèque DataFu Pig.
    • Expliquer l’utilisation et le but de HCatalog
    • Utiliser HCatalog avec Pig et Hive
    • Définir un workflow en utilisant Oozie.
    • Planifier un workflow récurant en utilisant Oozie Coordinator
    • Connaitre les principes de la variante Impala portée par la distribution Cloudera
    • Connaitre les principes de la variante Apache TEZ portée par la distribution Hortonworks
    • Interroger une base NoSQL à partir d’Hadoop

    Pré requis

    • Cette formation Data Analyst – Analyse de données en environnement Hadoop nécessite de connaitre les principes de la programmation et avoir de l’expérience dans le développement de logiciels.
    • Une connaissance de SQL est un plus.

    Descriptions

    Modalités pédagogiques

    Cours dispensé en mode présentiel avec une alternance d’apports théoriques et méthodologiques, et de mises en situations pratiques

    Public visé
    Inscription

    Programmes de Data Analyst – Analyse de données en environnement Hadoop

    INTRODUCTION

    • Présentation générale d’Hadoop
    • Exemples d’utilisation dans différents secteurs
    • Historique et chiffres clés : Quand parle-t-on de Big Data ?

    L’ECOSYSTEME D’HADOOP

    • Le système de fichier HDFS
    • Le paradigme MapReduce et l’utilisation à travers YARN

    MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP

    • Hue : Comment fonctionne cette interface web ?
    • Hive : Pourquoi Hive n’est pas une base de données ?
    • Requête sur Hive
    • Utilisation de HCatalog
    • Utilisation avancée sur Hive
    • Utilisation de fonctions utilisateurs
    • Paramétrage de requête

    Pig : Fonctionnement de Pig

    • Programmation avec Pig Latin
    • Utilisation du mode Local
    • Utilisation de fonctions utilisateurs

    Tez : Qu’est-ce que Tez ?

    • Comment et quand l’utiliser ?

    Oozie :    Fonctionnement de Oozie

    • Création de Workflows avec Oozie
    • Manipulation des workflows
    • Ajout d’éléments d’exploitation dans les workflows
    • Ajout de conditions d’exécution
    • Paramétrage des workflows

    Sqoop : A quoi sert Sqoop ?

    • Chargement des données depuis une base de données relationnelle
    • Chargement des données depuis Hadoop
    • Utilisation et paramétrage avancée

    Les particularités des distributions : Impala, Hawq

    • Quelles sont les bonnes pratiques d’utilisation des différents outils ?
    COVID – 19

    Informations importantes concernant la situation actuelle

    En savoir en plus