Differenza Tra Hive vs Impala
Hive è un magazzino di dati del software di un progetto costruito su APACHE HADOOP sviluppato da Jeff e il suo gruppo Facebook con una versione stabile corrente di 2.3.0 rilasciato. Viene utilizzato per riassumere i Big data e semplifica l’interrogazione e l’analisi. Apache Hive è uno standard efficace per SQL-in Hadoop. Impala è un motore di query SQL elaborazione parallela che gira su Apache Hadoop e utilizzare per elaborare i dati che memorizza in HBase (Hadoop Database) e Hadoop Distributed File System. Impala è un prodotto open-source per l’elaborazione parallela (MPP) motore di query SQL per i dati memorizzati in un cluster di sistema locale in esecuzione su Apache Hadoop. Apache Hive e Impala sono entrambi parti chiave del sistema Hadoop.
Quindi studiamo sia Hive che Impala in dettaglio:
Inizia la Tua Connessione Dati ovviamente la Scienza
Hadoop, i Dati della Scienza, Statistiche & altri
GRUPPO
- Apache Hive aiuta nella analisi di enormi set di dati memorizzati in Hadoop file system (HDFS) e altri compatibili con i sistemi di file.
- Hive QL – Per l’interrogazione dei dati memorizzati nel cluster Hadoop.
- Sfrutta la scalabilità di Hadoop per traduzione.
- Hive NON è un database completo.
- Non fornisce aggiornamenti a livello di record.
- Hadoop è un sistema orientato ai lotti.
- Le query hive hanno una latenza elevata a causa di MapReduce.
- Hive non fornisce funzionalità vicine a OLAP.
- Più adatto per applicazioni di Data Warehouse.
- Esecuzione di query tramite MapReduce.
- il linguaggio di query può essere utilizzato con funzioni scalari personalizzate (UDF), aggregazioni (UDAF) e funzioni di tabella (UDTF).
- Hive fornisce anche l’indicizzazione per accelerare, tipo di indice tra cui compattazione e indice bitmap a partire da 0.10, sono previsti più tipi di indice.
- I tipi di archiviazione supportati da Hive sono RCfile, HBase, ORC e testo normale.
- Query simili a SQL (Hive QL), che vengono convertite implicitamente in processi MapReduce o Tez o Spark.
- Per impostazione predefinita, Hive memorizza i metadati in un database Apache Derby incorporato.
IMPALA
- Impala è un motore di query che gira su Hadoop. La distribuzione pubblica del beta test è stata annunciata nell’ottobre 2012 ed è diventata generalmente disponibile a maggio 2013.
- Supporta lo storage HDFS Apache HBase e Amazon S3.
- Legge i formati di file Hadoop, inclusi testo, Parquet, Avro, RCFile, LZO e file di sequenza.
- Supporta la sicurezza Hadoop (autenticazione Kerberos).
- Utilizza metadati, driver ODBC e sintassi SQL da Apache Hive.
- Supporta più codec di compressione:
(a) Snappy (Consigliato per il suo equilibrio efficace tra rapporto di compressione e velocità di decompressione),
(b) Gzip (consigliato quando si raggiunge il massimo livello di compressione),
(c) Sgonfiare (non supportato per i file di testo), Bzip2, LZO (solo per i file di testo);
- Consente di eseguire query su strutture nidificate tra cui mappe, strutture e array.
- Consente query simultanee multiutente e consente anche il controllo dell’ammissione sulla base della priorità e dell’accodamento delle query.
Confronti testa a testa tra Hive e Impala (Infografica)
Di seguito è riportato il confronto Top 20 tra Hive e Impala:
Differenza fondamentale Tra Alveare e Impala
Le differenze tra Alveare e Impala sono spiegati di seguito riportati:
- Hive è sviluppato da Jeff e il suo gruppo Facebook, ma Impala è sviluppato da Apache Software Foundation.
- Hive supporta il formato di file del formato ottimizzato row colonnar (ORC) con compressione Zlib ma Impala supporta il formato Parquet con compressione snappy.
- Hive è scritto in Java ma Impala è scritto in C++.
- La velocità di elaborazione delle query in Hive è lenta ma Impala è 6-69 volte più veloce di Hive.
- In Hive La latenza è alta ma in Impala la latenza è bassa.
- Hive supporta l’archiviazione di file RC e ORC, ma Impala storage supporta Hadoop e Apache HBase.
- Hive genera espressione di query in fase di compilazione, ma in Impala generazione di codice per “big loops” avviene durante il runtime.
- Hive non supporta l’elaborazione parallela, ma Impala supporta l’elaborazione parallela.
- Hive supporta MapReduce ma Impala non supporta MapReduce.
- In Hive, non esiste alcuna funzione di sicurezza, ma Impala supporta l’autenticazione Kerberos.
- In un aggiornamento di qualsiasi progetto in cui la compatibilità e la velocità sono entrambi importanti Hive è la scelta ideale, ma per un nuovo progetto, Impala è la scelta ideale.
- Hive è Fault tolerant ma Impala non supporta la tolleranza ai guasti.
- Hive supporta il tipo complesso ma Impala non supporta i tipi complessi.
- Hive è basato su batch Hadoop MapReduce ma Impala è database MPP.
- Hive non supporta il calcolo interattivo, ma Impala supporta il calcolo interattivo.
- Query Hive ha un problema di” avvio a freddo”, ma nel processo daemon Impala vengono avviati al momento dell’avvio stesso.
- Hive resource manager è YARN (Ancora un altro negoziatore di risorse) ma in Impala resource manager è nativo *YARN.
- Le distribuzioni Hive sono tutte Hadoop distribution, Hortonworks (Tez, LLAP) ma nella distribuzione Impala sono Cloudera MapR (*Amazon EMR).
- Il pubblico Hive è Data Engineers ma in Impala audience sono Data Analyst/Data scientist.
- Il throughput Hive è alto ma in Impala il throughput è basso.
Hive e Impala Tabella di confronto
Il confronto primario tra Hive e Impala sono discussi di seguito.
Numero di serie. | Basis For Comparison | Hive | Impala |
Developed By | Apache Software Foundation |
||
File Format |
|
|
|
Language | Written in JAVA | Written in C++ | |
Processing Speed | Hive is Slow | Impala is Fast | |
Latency | High | Low | |
Storage Support | RC file, ORC | Hadoop, Apache HBase | |
Code Conversion | Generates query expression at compile time | Code generation happens at runtime. | |
Supports Parallel Processing | No | Yes | |
MapReduce Support | Yes | No | |
Hadoop Security | No | Supports Kerberos Authentication. | |
Usage | Ideal for project up-gradation | Ideal for starting New Project. | |
Fault-Tolerant | Hive is Fault Tolerant. | Does not Supports Fault tolerance. | |
Complex Types | Hive supports complex types. | Impala does not support complex types. | |
Database Type | Hive is a batch-based Hadoop MapReduce. | It is MPP database | |
Interactive Computing | Does not support Interactive computing. | Supports Interactive Computing. | |
Execution | Hive query has a problem with “Cold Start” | Impala process always starts at the Boot-time of Daemons. | |
Resource Management | YARN | Native *YARN | |
Distributions | HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) | Cloudera MapR, (*Amazon EMR) |
|
Audience | Data Engineers | Data Analista/Scienziati Dati | |
Throughput | High Throughput | Bassa velocità di trasmissione |
Conclusione
In questo articolo, abbiamo cercato vetrina che cosa sono due tecnologie vale a dire Hive vs Impala e anche la differenza di base tra queste tecnologie. In termini pratici, possiamo dire che Hive e Impala non sono i concorrenti che entrambi appartengono alla stessa fondazione che è nota come MapReduce per l’esecuzione delle query, l’uso di entrambi può creare la differenza. Secondo il nostro bisogno possiamo usarlo insieme o il meglio in base alla compatibilità, necessità e prestazioni. Hive query language è Hive QL che è un linguaggio molto versatile e universale mentre Impala è ad alta intensità di memoria e non funziona bene per l’elaborazione di operazioni di dati pesanti esempio join query. Se nel tuo progetto il lavoro è correlato all’elaborazione batch per una grande quantità di dati, l’Hive migliorerà in quel caso e se il tuo lavoro è correlato al processo in tempo reale di una query ad hoc sui dati, Impala sarà migliore in quel caso.
Articoli consigliati
Questa è stata una guida per Hive vs Impala. Qui abbiamo discusso Hive vs Impala confronto testa a testa, differenze chiave, insieme con infografica e tabella di confronto. Puoi anche vedere i seguenti articoli per saperne di più
- Apache Hive vs Apache Scintilla SQL – 13 Sorprendenti Differenze
- Hive VS HUE – Top 6 Raffronti Utili Per Imparare
- Apache Pig vs Apache Hive – 12 Utile Differenze
- Hadoop vs Hive – scopri Le Migliori Differenze
- Utilizzo di ORDINE Funzione dell’Alveare
- Guida Completa per Impala Database