Cours de Big Data

CentraleDigitalLab@LaPlateforme


Stéphane Vialle, CentraleSupélec & LISN, Stephane.Vialle@centralesupelec.fr 

Gianluca Quercini, CentraleSupélec & LISN, Gianluca.Quercini@centralesupelec.fr


Ce cours à comme objectif principal d'appréhender l'algorithmique et la programmation dans des paradigmes BigData (diverses variantes de Map-Reduce, l'analyse de documents structurés dans des Bases de Données NoSQL...), mais aussi de connaître les principes  techniques sous-jacents des environnements de Big Data (systèmes de fichiers distribués, tolérance aux pannes et résistance à la charge par redondance...). Une présentation quantifiée du concept de Passage à l'Echelle complète le cours, et des TP sur les environnements Spark et MongoDB illustreront les concepts vus en cours.
    1a - MapReduce & Spark
    1 slides par page 2 slides par page 6 slides par page
    1b - Spark optimisation
    1 slides par page 2 slides par page 6 slides par page
    1c - Spark application deployment (TP1 & TP2)
    1 slides par page 2 slides par page 6 slides par page
    2 - Métriques de passage à l'échelle
    1 slides par page 2 slides par page 6 slides par page
    3a - Emergence du NoSQL
    1 slides par page 2 slides par page 6 slides par page
    3b - Distributed and NoSQL databases 1 slides par page 2 slides par page 6 slides par page
    Spark-SQL
    Documentation Spark-SQL
    3d - MongoDB : syntaxe et exemples (TD3 & TP3) 1 slides par page 2 slides par page 6 slides par page

    MongoDB introduction notebook

    MongoDB manual
    TD 1 : Conception d'algorithmes Map-Reduce de base en Spark
    Enoncé
    TD 2 : Conception d'algorithmes Map-Reduce avancés en Spark
    Enoncé
    TD 3 : Syntaxe de MongoDB et exemples
    voir slides 3d
    TP 1 Part-1 : Accès au cluster Spark du DCE en mode graphique
    TP 1 Part-2 : Conception d'algorithmes Map-Reduce de base en Spark
    Enoncé-accès-dcejs
    Enoncé-MapReduce-basic
    TP 2 : Conception d'algorithmes Map-Reduce avancés en Spark Enoncé-MapReduce-advanced
    TP 3 : Part 1 : Accès aux serveurs MongoDB du DCE
    TP 3 : Part 2 : Prise en main et interrogation d'une BdD MongoDB
    Enoncé-accès-dcejs
    Enoncé-MongoDB
     
    Spark
    Exercice S1
    Exercice S2


    MongoDB
    Exercice M1




    BdD NoSQL :
    Hadoop & Map-Reduce :
    Spark :