Cours de Big Data

CentraleDigitalLab@LaPlateforme


Stéphane Vialle, CentraleSupélec & LRI, Stephane.Vialle@centralesupelec.fr 

Gianluca Quercini, CentraleSupélec & LRI, Gianluca.Quercini@centralesupelec.fr


Ce cours à comme objectif principal d'appréhender l'algorithmique et la programmation dans des paradigmes BigData (diverses variantes de Map-Reduce, l'analyse de documents structurés dans des Bases de Données NoSQL...), mais aussi de connaître les principes  techniques sous-jacents des environnements de Big Data (systèmes de fichiers distribués, tolérance aux pannes et résistance à la charge par redondance...). Une présentation quantifiée du concept de Passage à l'Echelle complète le cours, et des TP sur les environnements Spark et MongoDB illustreront les concepts vus en cours.
    1 - MapReduce & Spark
    1 slides par page 2 slides par page 6 slides par page
    2 - Technologies du Big Data
    1 slides par page 2 slides par page 6 slides par page
    3 - Métriques et analyse de performances 1 slides par page 2 slides par page 6 slides par page
    4 - BdD NoSQL et MongoDB
    1 slides par page 2 slides par page 6 slides par page







    Spark-SQL
    Documentation Spark-SQL
    TD 1 : Conception d'algorithmes Map-Reduce de base en Spark
    Enoncé
    TD 2 : Conception d'algorithmes Map-Reduce avancés en Spark
    Enoncé
    TP 1 Part-1 : MapReduce en Spark : accès au cluster Spark du DCE
    TP 1 Part-2 : Conception d'algorithmes Map-Reduce de base en Spark
    TP 1 Part-3 : Conception d'algorithmes Map-Reduce avancés en Spark
    Enoncé
    Enoncé
    Enoncé
    TP 2 : MongoDB : syntaxe et exemples
    TP 2 : MongoDB : interrogation d'une BdD
    Documentation
    Enoncé
     
    Spark
    Exercice S1
    Exercice S2


    MongoDB
    Exercice M1




    BdD NoSQL :
    Hadoop & Map-Reduce :
    Spark :