Hive vs Impala

Hive vs Impala

Hive vs Impala

Differenza Tra Hive vs Impala

Hive è un magazzino di dati del software di un progetto costruito su APACHE HADOOP sviluppato da Jeff e il suo gruppo Facebook con una versione stabile corrente di 2.3.0 rilasciato. Viene utilizzato per riassumere i Big data e semplifica l’interrogazione e l’analisi. Apache Hive è uno standard efficace per SQL-in Hadoop. Impala è un motore di query SQL elaborazione parallela che gira su Apache Hadoop e utilizzare per elaborare i dati che memorizza in HBase (Hadoop Database) e Hadoop Distributed File System. Impala è un prodotto open-source per l’elaborazione parallela (MPP) motore di query SQL per i dati memorizzati in un cluster di sistema locale in esecuzione su Apache Hadoop. Apache Hive e Impala sono entrambi parti chiave del sistema Hadoop.

Quindi studiamo sia Hive che Impala in dettaglio:

Inizia la Tua Connessione Dati ovviamente la Scienza

Hadoop, i Dati della Scienza, Statistiche & altri

GRUPPO

  • Apache Hive aiuta nella analisi di enormi set di dati memorizzati in Hadoop file system (HDFS) e altri compatibili con i sistemi di file.
  • Hive QL – Per l’interrogazione dei dati memorizzati nel cluster Hadoop.
  • Sfrutta la scalabilità di Hadoop per traduzione.
  • Hive NON è un database completo.
  • Non fornisce aggiornamenti a livello di record.
  • Hadoop è un sistema orientato ai lotti.
  • Le query hive hanno una latenza elevata a causa di MapReduce.
  • Hive non fornisce funzionalità vicine a OLAP.
  • Più adatto per applicazioni di Data Warehouse.
  • Esecuzione di query tramite MapReduce.
  • il linguaggio di query può essere utilizzato con funzioni scalari personalizzate (UDF), aggregazioni (UDAF) e funzioni di tabella (UDTF).
  • Hive fornisce anche l’indicizzazione per accelerare, tipo di indice tra cui compattazione e indice bitmap a partire da 0.10, sono previsti più tipi di indice.
  • I tipi di archiviazione supportati da Hive sono RCfile, HBase, ORC e testo normale.
  • Query simili a SQL (Hive QL), che vengono convertite implicitamente in processi MapReduce o Tez o Spark.
  • Per impostazione predefinita, Hive memorizza i metadati in un database Apache Derby incorporato.

IMPALA

  • Impala è un motore di query che gira su Hadoop. La distribuzione pubblica del beta test è stata annunciata nell’ottobre 2012 ed è diventata generalmente disponibile a maggio 2013.
  • Supporta lo storage HDFS Apache HBase e Amazon S3.
  • Legge i formati di file Hadoop, inclusi testo, Parquet, Avro, RCFile, LZO e file di sequenza.
  • Supporta la sicurezza Hadoop (autenticazione Kerberos).
  • Utilizza metadati, driver ODBC e sintassi SQL da Apache Hive.
  • Supporta più codec di compressione:

(a) Snappy (Consigliato per il suo equilibrio efficace tra rapporto di compressione e velocità di decompressione),

(b) Gzip (consigliato quando si raggiunge il massimo livello di compressione),

(c) Sgonfiare (non supportato per i file di testo), Bzip2, LZO (solo per i file di testo);

  • Consente di eseguire query su strutture nidificate tra cui mappe, strutture e array.
  • Consente query simultanee multiutente e consente anche il controllo dell’ammissione sulla base della priorità e dell’accodamento delle query.

Confronti testa a testa tra Hive e Impala (Infografica)

Di seguito è riportato il confronto Top 20 tra Hive e Impala:

Hive vs Impala

Hive vs Impala

Differenza fondamentale Tra Alveare e Impala

Le differenze tra Alveare e Impala sono spiegati di seguito riportati:

  • Hive è sviluppato da Jeff e il suo gruppo Facebook, ma Impala è sviluppato da Apache Software Foundation.
  • Hive supporta il formato di file del formato ottimizzato row colonnar (ORC) con compressione Zlib ma Impala supporta il formato Parquet con compressione snappy.
  • Hive è scritto in Java ma Impala è scritto in C++.
  • La velocità di elaborazione delle query in Hive è lenta ma Impala è 6-69 volte più veloce di Hive.
  • In Hive La latenza è alta ma in Impala la latenza è bassa.
  • Hive supporta l’archiviazione di file RC e ORC, ma Impala storage supporta Hadoop e Apache HBase.
  • Hive genera espressione di query in fase di compilazione, ma in Impala generazione di codice per “big loops” avviene durante il runtime.
  • Hive non supporta l’elaborazione parallela, ma Impala supporta l’elaborazione parallela.
  • Hive supporta MapReduce ma Impala non supporta MapReduce.
  • In Hive, non esiste alcuna funzione di sicurezza, ma Impala supporta l’autenticazione Kerberos.
  • In un aggiornamento di qualsiasi progetto in cui la compatibilità e la velocità sono entrambi importanti Hive è la scelta ideale, ma per un nuovo progetto, Impala è la scelta ideale.
  • Hive è Fault tolerant ma Impala non supporta la tolleranza ai guasti.
  • Hive supporta il tipo complesso ma Impala non supporta i tipi complessi.
  • Hive è basato su batch Hadoop MapReduce ma Impala è database MPP.
  • Hive non supporta il calcolo interattivo, ma Impala supporta il calcolo interattivo.
  • Query Hive ha un problema di” avvio a freddo”, ma nel processo daemon Impala vengono avviati al momento dell’avvio stesso.
  • Hive resource manager è YARN (Ancora un altro negoziatore di risorse) ma in Impala resource manager è nativo *YARN.
  • Le distribuzioni Hive sono tutte Hadoop distribution, Hortonworks (Tez, LLAP) ma nella distribuzione Impala sono Cloudera MapR (*Amazon EMR).
  • Il pubblico Hive è Data Engineers ma in Impala audience sono Data Analyst/Data scientist.
  • Il throughput Hive è alto ma in Impala il throughput è basso.

Hive e Impala Tabella di confronto

Il confronto primario tra Hive e Impala sono discussi di seguito.

Numero di serie. Basis For Comparison Hive Impala
Developed By Facebook Apache Software
Foundation
File Format
  • Sequence file.
  • Text File.
  • Optimized row columnar (ORC) format with Zlib compression.
  • RC file format.
  • Parquet format with snappy compression.
  • Avro
  • LZO
  • Sequence file.
Language Written in JAVA Written in C++
Processing Speed Hive is Slow Impala is Fast
Latency High Low
Storage Support RC file, ORC Hadoop, Apache HBase
Code Conversion Generates query expression at compile time Code generation happens at runtime.
Supports Parallel Processing No Yes
MapReduce Support Yes No
Hadoop Security No Supports Kerberos Authentication.
Usage Ideal for project up-gradation Ideal for starting New Project.
Fault-Tolerant Hive is Fault Tolerant. Does not Supports Fault tolerance.
Complex Types Hive supports complex types. Impala does not support complex types.
Database Type Hive is a batch-based Hadoop MapReduce. It is MPP database
Interactive Computing Does not support Interactive computing. Supports Interactive Computing.
Execution Hive query has a problem with “Cold Start” Impala process always starts at the Boot-time of Daemons.
Resource Management YARN Native *YARN
Distributions HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) Cloudera MapR,
(*Amazon EMR)
Audience Data Engineers Data Analista/Scienziati Dati
Throughput High Throughput Bassa velocità di trasmissione

Conclusione

In questo articolo, abbiamo cercato vetrina che cosa sono due tecnologie vale a dire Hive vs Impala e anche la differenza di base tra queste tecnologie. In termini pratici, possiamo dire che Hive e Impala non sono i concorrenti che entrambi appartengono alla stessa fondazione che è nota come MapReduce per l’esecuzione delle query, l’uso di entrambi può creare la differenza. Secondo il nostro bisogno possiamo usarlo insieme o il meglio in base alla compatibilità, necessità e prestazioni. Hive query language è Hive QL che è un linguaggio molto versatile e universale mentre Impala è ad alta intensità di memoria e non funziona bene per l’elaborazione di operazioni di dati pesanti esempio join query. Se nel tuo progetto il lavoro è correlato all’elaborazione batch per una grande quantità di dati, l’Hive migliorerà in quel caso e se il tuo lavoro è correlato al processo in tempo reale di una query ad hoc sui dati, Impala sarà migliore in quel caso.

Articoli consigliati

Questa è stata una guida per Hive vs Impala. Qui abbiamo discusso Hive vs Impala confronto testa a testa, differenze chiave, insieme con infografica e tabella di confronto. Puoi anche vedere i seguenti articoli per saperne di più

  1. Apache Hive vs Apache Scintilla SQL – 13 Sorprendenti Differenze
  2. Hive VS HUE – Top 6 Raffronti Utili Per Imparare
  3. Apache Pig vs Apache Hive – 12 Utile Differenze
  4. Hadoop vs Hive – scopri Le Migliori Differenze
  5. Utilizzo di ORDINE Funzione dell’Alveare
  6. Guida Completa per Impala Database
2 Azioni

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.