Apache Hadoop: Core

Apache Hadoop é un proxecto da fundación Apache Software Foundation que desenvolve software de código aberto para a computación distribuída fiábel e escalábel. Inclúe os compoñentes Core , HBase , Pig , ZooKeeper e Hive

Apache Hadoop Core é a parte central dese proxecto. Consiste nunha plataforma de software que permite escribir e executar aplicacións que procesen grandes cantidades de datos facilmente.

Entre as características que o fan especialmente útil atópanse:

Escalábel: Hadoop pode almacenar e procesar de forma fiábel petabytes de información.
Económico: Os datos e o procesado distribúense entre agrupamentos de ordenadores comúns. Estes agrupamentos poden poden estar formados por milleiros de nodos.
Eficiente: Ó distribuír os datos, Hadoop pode facer o procesamento en paralelo nos nodos onde se almacenen os datos. Isto faino extremadamente rápido.
Fiábel: Hadoop mantén múltiplas copias dos datos, e relanza as tarefas que poidan fallar.

Hadoop Core conta coa súa propia versión de MapReduce , o framework desenvolvido por Google para a computación distribuída. Para isto, emprega o Sistema de Ficheiros Distribuído Hadoop (HDFS , polas súas siglas en inglés).

MapReduce divide os aplicativos en moitos bloques de traballo pequenos. HDFS crea múltiplas réplicas de bloques de datos para aumentar a fiablilidade, colocándoos en diferentes nodos do agrupamento. Logo, empregando MapReduce, estes bloques pódense procesar aló onde estean.

Hadoop foi xa probado en agrupamentos de ordenadores con 2.000 nodos. O obxectivo do deseño actual son agrupamentos de 10.000 nodos.

Atopado vía www.imatica.org.

Compartir: