Hadoop, cos’è e come funziona
Hadoop è una piattaforma per processare grandi quantità di dati e supporta le analisi di grandi quantità di dati in un’ottica business oriented. Hadoop è uno dei primi framework per lavorare su Big Data, e tuttora uno dei più affidabili.
Hadoop è un’implementazione Open Source di una piattaforma proprietaria di Google, MapReduce. Il suo funzionamento quindi ricalca quello di MapReduce, che in sintesi riduce il processamento dei dati in due fasi distinte che prendono i nomi da due comandi del linguaggio Lisp: Map e Reduce. Nella fase Map i dati vengono elaborati individualmente, mentre nella fase Reduce i dati che hanno delle “affinità” (dipendenti dal tipo di calcolo che si vuole fare) vengono elaborati insieme.
Quali sono i componenti di Hadoop?
In Hadoop ci sono tre componenti principali:
- HDFS: un file system distribuito, ovvero progettato per essere usato su computer collegati tra di loro in rete;
- MapReduce: che è l’ambiente vero e proprio;
- YARN: che si occupa di gestire le risorse e controlla l’esecuzione.
Quali sono le analitiche di Hadoop?
Hadoop ha tantissime analitiche, il cui utilizzo dipende dalle specifiche funzionalità richieste. Tra le tante citiamo HIVE e PIG. HIVE è una infrastruttura data warehouse che supporta il riepilogo dei dati, le interrogazioni e le analisi. PIG, invece, è una piattaforma che offre un linguaggio di alto livello per fare interrogazione dei dati, insieme all’infrastruttura per elaborare i programmi.
Distribuzioni commerciali di Hadoop, quali sono gli strumenti inclusi?
Le distribuzioni comprendono tantissimi strumenti. Tra questi:
1) Spark: è un motore di elaborazione di grandi quantità di dati;
2) Kafka: un motore real-time;
3) Impala: è il database analitico nativo di Hadoop;
4) Flume: serve a collezionare ed elaborare log.
Da Hadoop a Spark: quale evoluzione?
Spark, come accennato in precedenza, è un motore di elaborazione di grandi quantità di dati alternativo ad Hadoop. Spark processa i dati in memoria ed è stato dimostrato che, per alcune tipologie di task, riesce a essere anche 100 volte più veloce di Hadoop.
Redatto da Lucia D’Adamo, in collaborazione con Luigi Laura, supervisionato da Marco Pirrone