forskel mellem Hive vs Impala
hive er et datalagerprogram, der er bygget oven på Apache Hadoop udviklet af Jeffs team på Facebook med en nuværende stabil version af 2.3.0 udgivet. Det bruges til at opsummere Big data og gør det nemt at forespørge og analysere. Apache Hive er en effektiv standard for Hadoop. Impala er en parallel behandling af forespørgselsmotor, der kører på Apache Hadoop og bruger til at behandle de data, der gemmer i HBase (Hadoop Database) og Hadoop distribueret filsystem. Impala er et open source-produkt til parallel behandling (MPP) forespørgselsmotor til data gemt i en lokal systemklynge, der kører på Apache Hadoop. Apache Hive og Impala er begge centrale dele af Hadoop-systemet.
så lad os studere både Hive og Impala i detaljer:
Start dit gratis Datavidenskabskursus
Hadoop, datavidenskab, statistik & andre
Hive
- apache Hive hjælper med at analysere det enorme datasæt, der er gemt i Hadoop-filsystemet (HDFS) og andre kompatible filsystemer.Hive-for at forespørge data gemt i Hadoop Cluster.
- udnytter skalerbarheden af Hadoop ved oversættelse.
- Hive er ikke en komplet Database.
- det giver ikke opdateringer på rekordniveau.
- Hadoop er Batch orienteret System.
- Hive forespørgsler har høj latenstid på grund af MapReduce.
- Hive giver ikke funktioner i det er tæt på OLAP.
- bedst egnet til datalager applikationer.
- forespørgsel udførelse via MapReduce.
- forespørgselssprog kan bruges med brugerdefinerede skalarfunktioner (UDF ‘er), aggregeringer (UDAF’ er) og tabelfunktioner (UDTF ‘ er).
- Hive giver også indeksering for at accelerere, indekstype inklusive komprimering og bitmapindeks fra 0,10, flere indekstyper er planlagt.
- Lagringstyper, der understøttes af Hive, er RCfile, HBase, ORC og almindelig tekst.hvis du er i stand til at oprette en konto, skal du bruge den til at sende en e-mail til din e-mail-adresse.
- Hive gemmer som standard metadata i en integreret Apache Derby-database.
IMPALA
- Impala er en forespørgselsmotor, der kører på Hadoop. Det offentlig beta test distribution blev annonceret i oktober 2012 og blev generelt tilgængelig i maj 2013.
- det understøtter HDFS Apache HBase opbevaring og
S3. - læser Hadoop filformater, herunder tekst, parket, Avro, RCFile, LSO og Sekvensfil.
- understøtter Hadoop-sikkerhed (Kerberos-godkendelse).
- bruger metadata, ODBC-driver og syntaks fra Apache Hive.
- det understøtter flere komprimeringskodeker:
(a) Snappy (anbefales til effektiv balance mellem kompressionsforhold og dekompressionshastighed),
(b) Gcip (anbefales ved opnåelse af det højeste komprimeringsniveau),
(c) Deflate (understøttes ikke til tekstfiler), Bcip2, LSO (kun til tekstfiler);
- det giver dig mulighed for at forespørge på indlejrede strukturer, herunder kort, structs og arrays.
- det tillader samtidige forespørgsler med flere brugere og tillader også adgangskontrol på grundlag af prioritering og kø af forespørgsler.
Head to Head sammenligninger mellem Hive og Impala (Infographics)
nedenfor er de 20 bedste sammenligninger mellem Hive og Impala:
nøgleforskel mellem Hive og Impala
forskellene mellem Hive og Impala er forklaret i punkter præsenteret nedenfor:
- Hive er udviklet af Jeffs team på Facebook Impala er udviklet af Apache Foundation.Hive understøtter filformat med optimeret rækkekolumnar (ORC) – format med komprimering, men Impala understøtter Parketformatet med snappy komprimering.Hive er skrevet i Java, men Impala er skrevet i C++.
- Forespørgselsbehandlingshastighed i Hive er langsom, men Impala er 6-69 gange hurtigere end Hive.
- I Hive Latency er høj, men i Impala Latency er lav.Hive understøtter lagring af RC-fil og ORC, men Impala storage understøtter Hadoop og Apache HBase.
- Hive genererer forespørgselsudtryk på kompileringstidspunktet, men i Impala-kodegenerering for “store sløjfer” sker under runtime.Hive understøtter ikke parallel behandling, men Impala understøtter parallel behandling.Hive understøtter MapReduce, men Impala understøtter ikke MapReduce.
- I Hive er der ingen sikkerhedsfunktion, men Impala understøtter Kerberos-godkendelse.
- i en opgradering af ethvert projekt, hvor kompatibilitet og hastighed begge er vigtige Hive er et ideelt valg, men for et nyt projekt er Impala det ideelle valg.Hive er fejltolerant, men Impala understøtter ikke fejltolerance.Hive understøtter kompleks type, men Impala understøtter ikke komplekse typer.
- Hive er batchbaseret Hadoop MapReduce, men Impala er MPP-database.Hive understøtter ikke interaktiv computing, men Impala understøtter interaktiv computing.
- Hive forespørgsel har et problem med “kold start”, men i Impala dæmon proces startes ved opstart tid selv.
- Hive resource manager er garn (endnu en ressource forhandler), men i Impala resource manager er native *garn.Hivefordelinger er alle Hadoop-distributioner, men i Impala-distributionen er Cloudera MapR (*EMR).Hive audience er dataingeniører, men i Impala audience er dataanalytiker/dataforskere.
- Hive throughput er høj, men i Impala throughput er lav.
sammenligning af Hive og Impala
den primære sammenligning mellem Hive og Impala diskuteres nedenfor.
Serienr. | Basis For Comparison | Hive | Impala |
Developed By | Apache Software Foundation |
||
File Format |
|
|
|
Language | Written in JAVA | Written in C++ | |
Processing Speed | Hive is Slow | Impala is Fast | |
Latency | High | Low | |
Storage Support | RC file, ORC | Hadoop, Apache HBase | |
Code Conversion | Generates query expression at compile time | Code generation happens at runtime. | |
Supports Parallel Processing | No | Yes | |
MapReduce Support | Yes | No | |
Hadoop Security | No | Supports Kerberos Authentication. | |
Usage | Ideal for project up-gradation | Ideal for starting New Project. | |
Fault-Tolerant | Hive is Fault Tolerant. | Does not Supports Fault tolerance. | |
Complex Types | Hive supports complex types. | Impala does not support complex types. | |
Database Type | Hive is a batch-based Hadoop MapReduce. | It is MPP database | |
Interactive Computing | Does not support Interactive computing. | Supports Interactive Computing. | |
Execution | Hive query has a problem with “Cold Start” | Impala process always starts at the Boot-time of Daemons. | |
Resource Management | YARN | Native *YARN | |
Distributions | HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) | Cloudera MapR, (*Amazon EMR) |
|
Audience | Data Engineers | Data Analytiker/dataforskere | |
gennemstrømning | høj gennemstrømning | lav gennemstrømning |
konklusion
i denne artikel har vi forsøgt at fremvise, at hvad er to teknologier, nemlig Hive vs Impala, og også den grundlæggende forskel mellem disse teknologier. I praksis kan vi sige, at Hive og Impala ikke er konkurrenterne, de tilhører begge det samme fundament, der er kendt som MapReduce til udførelse af forespørgsler, brugen af begge kan skabe forskellen. I henhold til vores behov kan vi bruge det sammen eller det bedste i henhold til kompatibilitet, behov, og ydeevne. Hive-forespørgselssprog er Hive-sprog, som er meget alsidigt og universelt sprog, mens Impala er hukommelsesintensiv og ikke fungerer godt til behandling af tunge dataoperationer. Hvis arbejdet i dit projekt er relateret til batchbehandling for en stor mængde data, vil Hive bedre i så fald, og hvis dit arbejde er relateret til realtidsprocessen for en ad hoc-forespørgsel om data, vil Impala være bedre i så fald.
Anbefalede artikler
dette har været en guide til Hive vs Impala. Her har vi diskuteret Hive vs Impala head to head sammenligning, nøgleforskelle, sammen med infografik og sammenligningstabel. Du kan også se på følgende artikler for at lære mere –13 fantastiske forskelle