Contenedor Docker: Herramientas de Big Data

Para todos los que trabajamos con Big Data, es evidente que uno de los mayores retos es la configuración y puesta a punto de un ambiente funcional. Por mucho tiempo, la solución rápida para esto han sido las imágenes de sistemas para su virtualización. Sin embargo, existe una mejor solución: Los contenedores de Docker.

Les comparto un contenedor Docker que tiene el ambiente  Big Data mas usado en la actualidad:

  • Apache Hadoop (HDFS & YARN).
  • Apache Spark.
  • Apache Hive (on Spark).
  • Python 3 y herramientas para HDFS.
Descargar haciendo click en la imagen!

 

Para instalar directamente desde los repositorios de Docker:

docker build  -t sequenceiq/hadoop-docker:2.7.1 .
docker pull sequenceiq/spark:1.6.0

Also published on Medium.

Publicado por

sansagara

Software and Data Engineer. Tech Passionate. Open Source Advocate.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *