[wpms_breadcrumb reverse="0"]
Les distributions HADOOP

Hadoop – stockage avec HBase

Reference : HAD08

2

jours
- 1 225 €  € HT
Télécharger la fiche
Prochaines sessions
    Hadoop – stockage avec HBase
    Objectifs

    • Comprendre le fonctionnement de HBase, savoir mettre en place une configuration distribuée.

    Pré requis

    • Connaissance des principes de base Hadoop et des bases de données.

    Modalités et délais d’accès

    Bulletin d'inscription à retourner complété

    Pré-inscription

    Programmes de Hadoop – stockage avec HBase

    Introduction

    • Rappels rapides sur l’ecosystème Hadoop.
    • Fonctionnalités, architecture
    • Présentation HBase. Historique. Lien avec HDFS.
    • Format des données.
    • Définitions : table, région, ligne, famille de colonnes,cellules, espace de nommage, …
    • Fonctionnalités : failover automatique, sharding,
    • interface avec des jobs MapReduce.

    Architecture

    • HBase master node, Region Master
    • liens avec les clients HBase
    • Rôle de Zookeeper.

    Installation

    • Choix des packages.
    • Installation et configuration dans le fichier conf/hbase-site.xml
    • Démarrage en mode standalone start-hbase.
    • Test de connexion avec hbase shell
    • Installation en mode distribué.
    • Interrogations depuis le serveur http intégré.

    HBase utilisation : shell

    • Présentation des différentes interfaces disponibles.
    • Travaux pratiques avec hbase shell.
    • Commandes de base, syntaxe, variables,
    • manipulation des données : create, list, put, scan, get
    • désactiver une table ou l’effacer : disable (enable), drop, …
    • Programmation de scripts.
    • Gestion des tables :
    • principe des filtres.
    • Mise en oeuvre de filtres de recherche,
    • paramètres des tables.
    • Les espaces de nommage.

    Cluster HBase

    • Fonctionnement en mode distribué
    • Première étape :
    • fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper)
    • Mise en oeuvre avec HDFS dans un environnement distribué.
    • Tables réparties : mise en oeuvre des splits.

    Programmation

    • Introduction, les APIs (REST, Avro, Java, Ruby, …)
    • Utilisation d’un client Java .
    • Gestion des tables.
    • Lien avec MapReduce.
    • Accès JMX.
    • Exemple d’un client JMX