Cours de Big Data

CentraleDigitalLab@LaPlateforme

Stéphane Vialle, CentraleSupélec & LISN, Stephane.Vialle@centralesupelec.fr

Gianluca Quercini, CentraleSupélec & LISN, Gianluca.Quercini@centralesupelec.fr

Thème et objectifs du cours :

Ce cours à comme objectif principal d'appréhender l'algorithmique et la programmation dans des paradigmes BigData (diverses variantes de Map-Reduce, l'analyse de documents structurés dans des Bases de Données NoSQL...), mais aussi de connaître les principes techniques sous-jacents des environnements de Big Data (systèmes de fichiers distribués, tolérance aux pannes et résistance à la charge par redondance...). Une présentation quantifiée du concept de Passage à l'Echelle complète le cours, et des TP sur les environnements Spark et MongoDB illustreront les concepts vus en cours.

Contenu du cours :
1. Paradigmes de programmation Map‐Reduce, optimisation et mise en oeuvre avec Spark sur cluster de PCs
2. Problématique et métrique du Passage à l’Echelle
3. BdD SQL et NoSQL à large échelle, Spark-SQL, et mise en oeuvre en MongoDB
Supports de cours :

Organisation du cours
1 slides par page

1a - Spark programming basics
1 slides par page 2 slides par page 6 slides par page
1b - Spark optimizations
1 slides par page 2 slides par page 6 slides par page

1c - Spark application deployment
1 slides par page 2 slides par page 6 slides par page

1d - HDFS principles
1 slides par page 2 slides par page 6 slides par page

2 - Performance, efficiency and scalability metrics
1 slides par page 2 slides par page 6 slides par page

3a - Emergence and principles of NoSQL DBs
1 slides par page 2 slides par page 6 slides par page

3b - From SQL to NoSQL: Spark SQL and NoSQL DBs
1 slides par page 2 slides par page 6 slides par page

Documentation Spark-SQL

3c - MongoDB : syntax and examples (TD 3)
1 slides par page 2 slides par page 6 slides par page

MongoDB introduction notebook

MongoDB manual

Tutorials:

Tut1: Designing basic Map-Reduce algorithms in Spark	Statement
Tut2: Designing advanced Map-Reduce algorithms in Spark	Statement
Tut3: MongoDB syntax and examples	See slides 3d

Labs:

Lab1 Part-0: Access to the DCE Spark cluster Video of Spark cluster access via "vscode" Lab1 Part-1: Discovering HDFS and Spark commands	Doc-dcejs-ssh-vscode Video-vscode Discovering-hdfs-spark
Lab1 Part-2: Designing basic Map-Reduce algorithms in Spark	Statement
Lab2: Designing advanced Map-Reduce algorithms in Spark	Statement
Lab3 Part-1: Access to the DCE's MongoDB servers Lab3 Part-2: Getting started and querying a MongoDB database	MongoDB server acess Statement

Exercices :

Spark	Exercice S1	Exercice S2
MongoDB	Exercice M1

Bibliographie :

BdD NoSQL :

Kristina Chorodorw. MongoDB. The Definitive Guide. 2nd edition. O'Reilly. 2013.

Rudi Bruchez. Les bases de données NoSQL et le Big Data. 2ème édition. Eyrolles. 2016.

Hadoop & Map-Reduce :

Tom White. Hadoop. The definitive Guide. 3rd edition. O'Reilly. 2013.

Donald Miner and Adam Shook. MapReduce Design Patterns. O'Reilly. 2013.

Spark :

M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M.J. Franklin, S. Shenker, and I. Stoica. Resilient Distributed Datasets : A Fault-tolerant Abstraction for In-memory Cluster Computing. In Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, NSDI’12, 2012.

H. Karau, A. Konwinski, P.Wendell, and M.Zaharia. Learning Spark. O’Reilly, 1st edition, 2015.

H. Karau and R. Warren. High Performance Spark. O’Reilly, 1st edition, 2017.

Organisation du cours		1 slides par page
1a - Spark programming basics		1 slides par page	2 slides par page	6 slides par page
1b - Spark optimizations		1 slides par page	2 slides par page	6 slides par page
1c - Spark application deployment		1 slides par page	2 slides par page	6 slides par page
1d - HDFS principles		1 slides par page	2 slides par page	6 slides par page
2 - Performance, efficiency and scalability metrics		1 slides par page	2 slides par page	6 slides par page
3a - Emergence and principles of NoSQL DBs		1 slides par page	2 slides par page	6 slides par page
3b - From SQL to NoSQL: Spark SQL and NoSQL DBs		1 slides par page	2 slides par page	6 slides par page
	Documentation Spark-SQL
3c - MongoDB : syntax and examples (TD 3)		1 slides par page	2 slides par page	6 slides par page
	MongoDB introduction notebook
	MongoDB manual

Cours de Big Data

CentraleDigitalLab@LaPlateforme

Thème et objectifs du cours :

Contenu du cours :

Tutorials:

Labs:

Exercices :

Bibliographie :