Apache Hadoop é un proxecto da fundación Apache Software Foundation que desenvolve software de código aberto para a computación distribuída fiábel e escalábel. Inclúe os compoñentes Core , HBase , Pig , ZooKeeper e Hive
Apache Hadoop Core é a parte central dese proxecto. Consiste nunha plataforma de software que permite escribir e executar aplicacións que procesen grandes cantidades de datos facilmente.
Entre as características que o fan especialmente útil atópanse:
- Escalábel: Hadoop pode almacenar e procesar de forma fiábel petabytes de información.
- Económico: Os datos e o procesado distribúense entre agrupamentos de ordenadores comúns. Estes agrupamentos poden poden estar formados por milleiros de nodos.
- Eficiente: Ó distribuír os datos, Hadoop pode facer o procesamento en paralelo nos nodos onde se almacenen os datos. Isto faino extremadamente rápido.
- Fiábel: Hadoop mantén múltiplas copias dos datos, e relanza as tarefas que poidan fallar.
Hadoop Core conta coa súa propia versión de MapReduce , o framework desenvolvido por Google para a computación distribuída. Para isto, emprega o Sistema de Ficheiros Distribuído Hadoop (HDFS , polas súas siglas en inglés).
MapReduce divide os aplicativos en moitos bloques de traballo pequenos. HDFS crea múltiplas réplicas de bloques de datos para aumentar a fiablilidade, colocándoos en diferentes nodos do agrupamento. Logo, empregando MapReduce, estes bloques pódense procesar aló onde estean.
Hadoop foi xa probado en agrupamentos de ordenadores con 2.000 nodos. O obxectivo do deseño actual son agrupamentos de 10.000 nodos.
Atopado vía www.imatica.org.
