Optimiser l’utilisation du cluster EMR pour profiter de toute sa capacité et ainsi pouvoir
scaler suite à l’augmentation de la volumétrie de données à venir.
Notre approche est la suivante :
- Analyse de la typologie des données (schéma, format…)
- Analyse du code source de l’application lancée sur le cluster (parallélisme, shuffles…)
- Analyse de la configuration du cluster EMR (applications installées, nombre de workers, allocation mémoire, spots…)
Le succès de cette phase est une utilisation optimale du cluster EMR en observant 100% de CPU sur l’ensemble des nodes, une allocation mémoire suffisante pour empêcher le swap et le parallélisme optimal de données depuis Amazon S3.
Solutions : Amazon EMR, Amazon S3, Jupyter, Hadoop