Home » Big Data » Spark e Hadoop a confronto: quello che i CIO dovrebbero sapere

Spark e Hadoop a confronto: quello che i CIO dovrebbero sapere

Tech Page One

Spark e Hadoop a confronto: quello che i CIO dovrebbero sapere

 

Secondo un’idea ampiamente diffusa, la piattaforma utilizzabile per i Big Data è una sola. Hadoop è diventato sinonimo di Big Data, al punto che i due termini sono quasi interscambiabili.

Almeno finora, perché negli ultimi due anni abbiamo visto avanzare un’altra tecnologia, Apache Spark, che secondo alcuni sarà l’infrastruttura del futuro per i Big Data. Mettiamo a confronto le due soluzioni: qual è la migliore?

La risposta non è semplice, perché le due tecnologie non sono pensate per svolgere le stesse attività. Possono lavorare congiuntamente, e spesso lo fanno. Non si tratta di tecnologie concorrenti nel vero senso della parola, in quanto sono entrambe piattaforme open source e quindi non soggette a pressioni di natura commerciale. Sicuramente alcune aziende sceglieranno una delle due tecnologie, ma molte le supporteranno tranquillamente entrambe.

Dunque non c’è alcuna rivalità. Intervenendo a un convegno su Hadoop tenutosi a marzo di quest’anno, Matt Cutting, uno dei suoi creatori, ha anzi affermato che il ruolo di Hadoop è destinato a ridimensionarsi in futuro, e che ci sarà più spazio per Spark. La sua idea è che Spark sostituirà il software di elaborazione batch Map Reduce, ma in questo scenario Spark e Hadoop saranno utilizzati congiuntamente.

Storage distribuito

Spark e Hadoop a confronto: quello che i CIO dovrebbero sapereUno dei problemi di Spark – che ne complica la distribuzione in molti progetti relativi ai Big Data – è che non possiede un proprio sistema di storage distribuito, che consente di elaborare enormi set di dati (nell’ordine di petabyte) su normali dischi rigidi, senza richiedere dispositivi personalizzati. D’altro canto, Spark è in grado di gestire l’elaborazione in tempo reale e l’apprendimento delle macchine in maniera molto più efficiente rispetto ad Hadoop. Ciò significa che Spark fornisce vantaggi significativi negli scenari in cui le aziende hanno l’esigenza di elaborare immediatamente i dati.

Questo è solo un esempio delle diverse funzioni che Hadoop e Spark sono in grado di svolgere. Possono funzionare indipendentemente l’uno dall’altro, ma anche essere distribuiti insieme. È però fondamentale capire che lo scopo principale di framework come Hadoop o Spark è favorire il processo di raccolta delle informazioni.

Elaborazione più rapida

Le aziende moderne vogliono informazioni sempre più precise e le vogliono ottenere in maniera rapida ed economicamente conveniente. E sceglieranno i metodi più adatti allo scopo. Ad esempio, se un’azienda gestisce set di dati di grandi dimensioni, ma tutti contenuti in database strutturati e basati su SQL, Hadoop sarà uno strumento adatto. Se occorre considerare anche social media o videoclip, ovvero elaborare dati non strutturati, Spark potrebbe essere la soluzione migliore.

A ognuno il suo: l’aspetto essenziale di entrambe le piattaforme è che servono a supportare i progetti relativi ai Big Data, che in futuro diventeranno cruciali per la maggior parte delle aziende.

 

 

Maxwell Cooter

Maxwell Cooter

Max è un giornalista freelance che copre una varietà di materie relazionate con l’IT. È stato il fondatore di Cloud Pro, una delle prime guide sul mondo cloud. Successivamente ha fondato anche IDG’s techworld ed ha lavorato come editore per Network Week. Da freelancer, ha potuto collaborare con IDG Direct, SC Magazine, Computer Weekly, Computer Resellers News, Internet Magazine, PC Business World e molti altri. Ha anche avuto l’opportunità di partecipare a diverse conferenze ed è stato telecronista per BBC, ITN e Computer TV Channel CNBC.

Ultimi post:

 

Tag: Big Data