Cours de Big Data

5ème année ingénieur de Polytech Paris-Sud

Stéphane Vialle, CentraleSupélec & LISN, Stephane.Vialle@centralesupelec.fr 

Gianluca Quercini, CentraleSupélec & LISN, Gianluca.Quercini@centralesupelec.fr

Ce cours à comme objectif principal d'appréhender l'algorithmique et la programmation dans des paradigmes BigData (diverses variantes de Map-Reduce, l'analyse de documents structurés dans des Bases de Données NoSQL...), mais aussi de connaître les principes  techniques sous-jacents des environnements de Big Data (systèmes de fichiers distribués, tolérance aux pannes et résistance à la charge par redondance...). Une présentation quantifiée du concept de Passage à l'Echelle termine le cours, et des TP sur les environnements Spark et MongoDB illustreront les concepts vus en cours.
    1a - Map-Reduce & Spark
    1 slide par page 6 slides par page
    1b - Spark optimizations
    1 slide par page 6 slides par page
    1c - Spark deployment
    1 slide par page 6 slides par page
    2 - Technologies d'Hadoop (avec HDFS)
    1 slide par page 6 slides par page
    3 - Performance, efficiency and scalability metrics
    1 slide par page 6 slides par page
    4a - Emergence et principes des BdD NoSQL
    1 slide par page 6 slides par page
    4b - Distributed and  NoSQL databases
    1 slide par page
    6 slides par page
    4c - Spark-SQL Cours / Exemple interactif de Spark-SQL
    4d - MongoDB : syntaxe et exemples (TP2)
    1slide par page 6 slides par page
    TD 1 : Conception d'algorithmes Map-Reduce
    Enoncé
    TD 2 : Analyse de performances
    Enoncé
    TP1 Part-0 : Accès au cluster Spark du DCE par "dcejs", par "ssh" ou par "vscode"
                        Accès au cluster Spark par "vscode"
    TP1 Part-1 : Prise en main des commandes HDFS et Spark
    Documentation-dcejs-ssh-vscode
    Documentation-vscode
    Prise en main de hdfs et spark
    TP1 Part-2 : MapReduce en Spark : algorithmique et programmation distribuées en Spark
                        Exercice 4 : Graphiques de performance
    Enoncé-exercices
    Excel file
    TP2 Part-0 : Connexion au DCE en "ssh"
    TP2 Part-1 : Syntaxe et exemples de MongoDB
    Documentation-dcejs-ssh
    Documentation MongoDB
    TP2 Part-2 : Interrogation de données en MongoDB (énoncé) Enoncé-exercices
     
    Spark
    Exercice S1
    Exercice S2


    MongoDB
    Exercice M1




    27/09/2023 Cours-1
    Bât 620
    Salle A205
    27/09/2023 Cours-2
    Bât 620
    Salle A205
    04/10/2023
    Cours-3
    Bât 620
    Salle A102
    04/10/2023
    TD-1
    Bât 620
    Salle A102
    10/09/2023
    Cours-4
    Bât 620
    Salle A203
    10/09/2023
    Cours-5
    Bât 620
    Salle A203
    18/10/2023
    TP-1
    Bât 620
    Salle B009
    20/10/2023
    Cours-6
    Bât 640
    Salle E101
    20/10/2023
    Cours-7
    Bât 640
    Salle E101
    24/10/2023
    Cours-8
    Bât 620
    Salle A103
    24/10/2023
    Cours-9
    Bât 620
    Salle A103
    25/10/2023
    TP-2
    Bât 620
    Salle B014
    07/11/2023
    TD-2
    Bât 620
    Salle A100




    jj/mm/2023
    EE



    BdD NoSQL :
    Hadoop & Map-Reduce :
    Spark :