Cours de Big Data

CentraleDigitalLab@LaPlateforme


Stéphane Vialle, CentraleSupélec & LISN, Stephane.Vialle@centralesupelec.fr 

Gianluca Quercini, CentraleSupélec & LISN, Gianluca.Quercini@centralesupelec.fr


Ce cours à comme objectif principal d'appréhender l'algorithmique et la programmation dans des paradigmes BigData (diverses variantes de Map-Reduce, l'analyse de documents structurés dans des Bases de Données NoSQL...), mais aussi de connaître les principes  techniques sous-jacents des environnements de Big Data (systèmes de fichiers distribués, tolérance aux pannes et résistance à la charge par redondance...). Une présentation quantifiée du concept de Passage à l'Echelle complète le cours, et des TP sur les environnements Spark et MongoDB illustreront les concepts vus en cours.
    Organisation du cours
    1 slides par page
    1a - Spark programming basics
    1 slides par page 2 slides par page 6 slides par page
    1b - Spark optimizations
    1 slides par page 2 slides par page 6 slides par page
    1c - Spark application deployment
    1 slides par page 2 slides par page 6 slides par page
    1d - HDFS principles
    1 slides par page 2 slides par page 6 slides par page
    2 - Performance, efficiency and scalability metrics
    1 slides par page 2 slides par page 6 slides par page
    3a - Emergence and principles of NoSQL DBs
    1 slides par page 2 slides par page 6 slides par page
    3b - From SQL to NoSQL: Spark SQL and NoSQL DBs
    1 slides par page 2 slides par page 6 slides par page

    Documentation Spark-SQL
    3c - MongoDB : syntax and examples (TD 3)
    1 slides par page 2 slides par page 6 slides par page

    MongoDB introduction notebook

    MongoDB manual
    Tut1: Designing basic Map-Reduce algorithms in Spark
    Statement
    Tut2: Designing advanced Map-Reduce algorithms in Spark
    Statement
    Tut3: MongoDB syntax and examples
    See slides 3d
    Lab1 Part-0: Access to the DCE Spark cluster
                        Video of Spark cluster access via "vscode"
    Lab1 Part-1: Discovering HDFS and Spark commands
    Doc-dcejs-ssh-vscode
    Video-vscode
    Discovering-hdfs-spark
    Lab1 Part-2: Designing basic Map-Reduce algorithms in Spark Statement
    Lab2: Designing advanced Map-Reduce algorithms in Spark Statement
    Lab3 Part-1: Access to the DCE's MongoDB servers
    Lab3 Part-2: Getting started and querying a MongoDB database
    MongoDB server acess
    Statement
     
    Spark
    Exercice S1
    Exercice S2


    MongoDB
    Exercice M1




    BdD NoSQL :
    Hadoop & Map-Reduce :
    Spark :