
Cours de Big Data
CentraleDigitalLab@LaPlateforme
Stéphane Vialle, CentraleSupélec & LRI, Stephane.Vialle@centralesupelec.fr
Gianluca Quercini, CentraleSupélec & LRI, Gianluca.Quercini@centralesupelec.fr
-
Thème et objectifs du cours :
Ce
cours à comme objectif principal d'appréhender l'algorithmique et la
programmation dans des paradigmes BigData (diverses variantes de
Map-Reduce, l'analyse de documents structurés dans des Bases de Données
NoSQL...), mais aussi de connaître les principes techniques
sous-jacents des environnements de Big Data (systèmes de fichiers
distribués, tolérance aux pannes et résistance à la charge par
redondance...). Une présentation quantifiée du concept de Passage à
l'Echelle complète le cours, et des TP sur les environnements Spark et
MongoDB illustreront les concepts vus en cours.
-
Contenu du cours :
- Paradigmes de programmation Map‐Reduce et mise en oeuvre avec Spark
- Introduction aux technologies (internes) des environnements Big Data
- Problématique du Passage à l’Echelle
- BdD SQL et NoSQL à large échelle et mise en oeuvre en MongoDB
- Supports de cours :
1 - MapReduce & Spark
|
 | 1 slides par page |
 |
2 slides par page |
 | 6 slides par page |
2 - Technologies du Big Data
|
 | 1 slides par page |
 | 2 slides par page |
 | 6 slides par page |
3 - Métriques et analyse de performances
|
 | 1 slides par page |
 | 2 slides par page |
 | 6 slides par page |
4 - BdD NoSQL et MongoDB
|
 |
1 slides par page |
 |
2 slides par page |
 |
6 slides par page |
|
|
|
|
|
|
|
Spark-SQL
|
Documentation Spark-SQL
|
TD 1 : Conception d'algorithmes Map-Reduce de base en Spark
|
Enoncé
|
TD 2 : Conception d'algorithmes Map-Reduce avancés en Spark
|
Enoncé
|
TP 1 Part-1 : MapReduce en Spark : accès au cluster Spark du DCE
TP 1 Part-2 : Conception d'algorithmes Map-Reduce de base en Spark
TP 1 Part-3 : Conception d'algorithmes Map-Reduce avancés en Spark
|
Enoncé
Enoncé
Enoncé
|
TP 2 : MongoDB : syntaxe et exemples
TP 2 : MongoDB : interrogation d'une BdD
|
Documentation
Enoncé
|
BdD NoSQL :
- Kristina Chorodorw. MongoDB. The Definitive Guide. 2nd edition. O'Reilly. 2013.
- Rudi Bruchez. Les bases de données NoSQL et le Big Data. 2ème édition. Eyrolles. 2016.
Hadoop & Map-Reduce :
- Tom White. Hadoop. The definitive Guide. 3rd edition. O'Reilly. 2013.
- Donald Miner and Adam Shook. MapReduce Design Patterns. O'Reilly. 2013.
Spark :
- M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley,
M.J. Franklin, S. Shenker, and I. Stoica. Resilient Distributed
Datasets : A Fault-tolerant Abstraction for In-memory Cluster
Computing. In Proceedings of the 9th USENIX Conference on Networked
Systems Design and Implementation, NSDI’12, 2012.
- H. Karau, A. Konwinski, P.Wendell, and M.Zaharia. Learning Spark. O’Reilly, 1st edition, 2015.
- H. Karau and R. Warren. High Performance Spark. O’Reilly, 1st edition, 2017.