Cours de Big Data

5ème année ingénieur de Polytech Paris-Sud

Stéphane Vialle, CentraleSupélec & LISN, Stephane.Vialle@centralesupelec.fr 

Gianluca Quercini, CentraleSupélec & LISN, Gianluca.Quercini@centralesupelec.fr

Ce cours à comme objectif principal d'appréhender l'algorithmique et la programmation dans des paradigmes BigData (diverses variantes de Map-Reduce, l'analyse de documents structurés dans des Bases de Données NoSQL...), mais aussi de connaître les principes  techniques sous-jacents des environnements de Big Data (systèmes de fichiers distribués, tolérance aux pannes et résistance à la charge par redondance...). Une présentation quantifiée du concept de Passage à l'Echelle termine le cours, et des TP sur les environnements Spark et MongoDB illustreront les concepts vus en cours.
    1a - Map-Reduce & Spark
    1 slide par page 6 slides par page
    1b - Spark optimizations
    1 slide par page 6 slides par page
    1c - Spark deployment
    1 slide par page 6 slides par page
    2 - Technologies d'Hadoop (avec HDFS)
    1 slide par page 6 slides par page
    3 - Performance, efficiency and scalability metrics
    1 slide par page 6 slides par page
    4a - Emergence et principes des BdD NoSQL
    1 slide par page 6 slides par page
    4b - Distributed and  NoSQL databases
    1 slide par page
    6 slides par page
    4c - Spark-SQL Cours / Exemple interactif de Spark-SQL
    4d - MongoDB : syntaxe et exemples (TP2)
    1slide par page 6 slides par page
    TD 1 : Conception d'algorithmes Map-Reduce
    Enoncé
    TD 2 : Analyse de performances
    Enoncé
    TP1 Part-0 : Accès au cluster Spark du DCE par "dcejs", par "ssh" ou par "vscode"
                        Video d'accès au cluster Spark par "vscode"
    TP1 Part-1 : Prise en main des commandes HDFS et Spark
    Doc-dcejs-ssh-vscode
    Video-vscode
    Prise en main de hdfs et spark
    TP1 Part-2 : MapReduce en Spark : algorithmique et programmation distribuées en Spark
                        Exercice 4 : Graphiques de performance
    Enoncé-exercices
    Excel file
    TP2 Part-0 : Connexion au DCE en "ssh"
    TP2 Part-1 : Syntaxe et exemples de MongoDB
    Documentation-dcejs-ssh
    Documentation MongoDB
    TP2 Part-2 : Interrogation de données en MongoDB (énoncé) Enoncé-exercices
     
    Spark
    Exercice S1
    Exercice S2


    MongoDB
    Exercice M1




    27/09/2024 Cours-1
    Bât 620
    Salle A201
    01/10/2024 Cours-2


    08/10/2024
    Cours-3 & 4


    14/10/2024
    TD-1


    16/10/2024
    TP1


    21/10/2024
    Cours-5


    22/10/2024
    Cours-6


    05/11/2024
    Cours-7


    05/11/2024
    TD-2


    13/11/2024
    TP-2






    jj/mm/2023
    EE



    BdD NoSQL :
    Hadoop & Map-Reduce :
    Spark :