Para todos los que trabajamos con Big Data, es evidente que uno de los mayores retos es la configuración y puesta a punto de un ambiente funcional. Por mucho tiempo, la solución rápida para esto han sido las imágenes de sistemas para su virtualización. Sin embargo, existe una mejor solución: Los contenedores de Docker.
Les comparto un contenedor Docker que tiene el ambiente Big Data mas usado en la actualidad:
- Apache Hadoop (HDFS & YARN).
- Apache Spark.
- Apache Hive (on Spark).
- Python 3 y herramientas para HDFS.
![](https://i0.wp.com/blog.leonelatencio.com/wp-content/uploads/2017/02/Docker.png?resize=300%2C150)
Para instalar directamente desde los repositorios de Docker:
docker build -t sequenceiq/hadoop-docker:2.7.1 .
docker pull sequenceiq/spark:1.6.0