[wpms_breadcrumb reverse="0"]
Les distributions HADOOP

Hadoop – stockage avec HBase

Reference : HAD08
2 jours - 1,225 € € HT
Prochaines sessions
  • Le 15/10/2020
  • Le 07/12/2020
Hadoop – stockage avec HBase
Objectifs

  • Comprendre le fonctionnement de HBase, savoir mettre en place une configuration distribuée.

Pré requis

  • Connaissance des principes de base Hadoop et des bases de données.

Modalités pédagogiques

Cours dispensé en mode présentiel avec une alternance d’apports théoriques et méthodologiques, et de mises en situations pratiques

Public visé
Inscription

Programmes de Hadoop – stockage avec HBase

Introduction

  • Rappels rapides sur l’ecosystème Hadoop.
  • Fonctionnalités, architecture
  • Présentation HBase. Historique. Lien avec HDFS.
  • Format des données.
  • Définitions : table, région, ligne, famille de colonnes,cellules, espace de nommage, …
  • Fonctionnalités : failover automatique, sharding,
  • interface avec des jobs MapReduce.

Architecture

  • HBase master node, Region Master
  • liens avec les clients HBase
  • Rôle de Zookeeper.

Installation

  • Choix des packages.
  • Installation et configuration dans le fichier conf/hbase-site.xml
  • Démarrage en mode standalone start-hbase.
  • Test de connexion avec hbase shell
  • Installation en mode distribué.
  • Interrogations depuis le serveur http intégré.

HBase utilisation : shell

  • Présentation des différentes interfaces disponibles.
  • Travaux pratiques avec hbase shell.
  • Commandes de base, syntaxe, variables,
  • manipulation des données : create, list, put, scan, get
  • désactiver une table ou l’effacer : disable (enable), drop, …
  • Programmation de scripts.
  • Gestion des tables :
  • principe des filtres.
  • Mise en oeuvre de filtres de recherche,
  • paramètres des tables.
  • Les espaces de nommage.

Cluster HBase

  • Fonctionnement en mode distribué
  • Première étape :
  • fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper)
  • Mise en oeuvre avec HDFS dans un environnement distribué.
  • Tables réparties : mise en oeuvre des splits.

Programmation

  • Introduction, les APIs (REST, Avro, Java, Ruby, …)
  • Utilisation d’un client Java .
  • Gestion des tables.
  • Lien avec MapReduce.
  • Accès JMX.
  • Exemple d’un client JMX