Hive vs Impala | Top 20 gavnlige forskelle, du bør vide

Hive vs Impala

forskel mellem Hive vs Impala
Head to Head sammenligninger mellem Hive og Impala (Infographics)
nøgleforskel mellem Hive og Impala
sammenligning af Hive og Impala
konklusion
Anbefalede artikler

forskel mellem Hive vs Impala

hive er et datalagerprogram, der er bygget oven på Apache Hadoop udviklet af Jeffs team på Facebook med en nuværende stabil version af 2.3.0 udgivet. Det bruges til at opsummere Big data og gør det nemt at forespørge og analysere. Apache Hive er en effektiv standard for Hadoop. Impala er en parallel behandling af forespørgselsmotor, der kører på Apache Hadoop og bruger til at behandle de data, der gemmer i HBase (Hadoop Database) og Hadoop distribueret filsystem. Impala er et open source-produkt til parallel behandling (MPP) forespørgselsmotor til data gemt i en lokal systemklynge, der kører på Apache Hadoop. Apache Hive og Impala er begge centrale dele af Hadoop-systemet.

så lad os studere både Hive og Impala i detaljer:

Start dit gratis Datavidenskabskursus

Hadoop, datavidenskab, statistik & andre

Hive

apache Hive hjælper med at analysere det enorme datasæt, der er gemt i Hadoop-filsystemet (HDFS) og andre kompatible filsystemer.Hive-for at forespørge data gemt i Hadoop Cluster.
udnytter skalerbarheden af Hadoop ved oversættelse.
Hive er ikke en komplet Database.
det giver ikke opdateringer på rekordniveau.
Hadoop er Batch orienteret System.
Hive forespørgsler har høj latenstid på grund af MapReduce.
Hive giver ikke funktioner i det er tæt på OLAP.
bedst egnet til datalager applikationer.
forespørgsel udførelse via MapReduce.
forespørgselssprog kan bruges med brugerdefinerede skalarfunktioner (UDF ‘er), aggregeringer (UDAF’ er) og tabelfunktioner (UDTF ‘ er).
Hive giver også indeksering for at accelerere, indekstype inklusive komprimering og bitmapindeks fra 0,10, flere indekstyper er planlagt.
Lagringstyper, der understøttes af Hive, er RCfile, HBase, ORC og almindelig tekst.hvis du er i stand til at oprette en konto, skal du bruge den til at sende en e-mail til din e-mail-adresse.
Hive gemmer som standard metadata i en integreret Apache Derby-database.

IMPALA

Impala er en forespørgselsmotor, der kører på Hadoop. Det offentlig beta test distribution blev annonceret i oktober 2012 og blev generelt tilgængelig i maj 2013.
det understøtter HDFS Apache HBase opbevaring og S3.
læser Hadoop filformater, herunder tekst, parket, Avro, RCFile, LSO og Sekvensfil.
understøtter Hadoop-sikkerhed (Kerberos-godkendelse).
bruger metadata, ODBC-driver og syntaks fra Apache Hive.
det understøtter flere komprimeringskodeker:

(a) Snappy (anbefales til effektiv balance mellem kompressionsforhold og dekompressionshastighed),

(b) Gcip (anbefales ved opnåelse af det højeste komprimeringsniveau),

det giver dig mulighed for at forespørge på indlejrede strukturer, herunder kort, structs og arrays.
det tillader samtidige forespørgsler med flere brugere og tillader også adgangskontrol på grundlag af prioritering og kø af forespørgsler.

Head to Head sammenligninger mellem Hive og Impala (Infographics)

nedenfor er de 20 bedste sammenligninger mellem Hive og Impala:

Hive vs Impala

nøgleforskel mellem Hive og Impala

forskellene mellem Hive og Impala er forklaret i punkter præsenteret nedenfor:

Hive er udviklet af Jeffs team på Facebook Impala er udviklet af Apache Foundation.Hive understøtter filformat med optimeret rækkekolumnar (ORC) – format med komprimering, men Impala understøtter Parketformatet med snappy komprimering.Hive er skrevet i Java, men Impala er skrevet i C++.
Forespørgselsbehandlingshastighed i Hive er langsom, men Impala er 6-69 gange hurtigere end Hive.
I Hive Latency er høj, men i Impala Latency er lav.Hive understøtter lagring af RC-fil og ORC, men Impala storage understøtter Hadoop og Apache HBase.
Hive genererer forespørgselsudtryk på kompileringstidspunktet, men i Impala-kodegenerering for “store sløjfer” sker under runtime.Hive understøtter ikke parallel behandling, men Impala understøtter parallel behandling.Hive understøtter MapReduce, men Impala understøtter ikke MapReduce.
I Hive er der ingen sikkerhedsfunktion, men Impala understøtter Kerberos-godkendelse.
i en opgradering af ethvert projekt, hvor kompatibilitet og hastighed begge er vigtige Hive er et ideelt valg, men for et nyt projekt er Impala det ideelle valg.Hive er fejltolerant, men Impala understøtter ikke fejltolerance.Hive understøtter kompleks type, men Impala understøtter ikke komplekse typer.
Hive er batchbaseret Hadoop MapReduce, men Impala er MPP-database.Hive understøtter ikke interaktiv computing, men Impala understøtter interaktiv computing.
Hive forespørgsel har et problem med “kold start”, men i Impala dæmon proces startes ved opstart tid selv.
Hive resource manager er garn (endnu en ressource forhandler), men i Impala resource manager er native *garn.Hivefordelinger er alle Hadoop-distributioner, men i Impala-distributionen er Cloudera MapR (*EMR).Hive audience er dataingeniører, men i Impala audience er dataanalytiker/dataforskere.
Hive throughput er høj, men i Impala throughput er lav.

sammenligning af Hive og Impala

den primære sammenligning mellem Hive og Impala diskuteres nedenfor.

Serienr.	Basis For Comparison	Hive	Impala
	Developed By	Facebook	Apache Software Foundation
	File Format	Sequence file. Text File. Optimized row columnar (ORC) format with Zlib compression. RC file format.	parket formatith Avro Sekvensfil.
	Language	Written in JAVA	Written in C++
	Processing Speed	Hive is Slow	Impala is Fast
	Latency	High	Low
	Storage Support	RC file, ORC	Hadoop, Apache HBase
	Code Conversion	Generates query expression at compile time	Code generation happens at runtime.
	Supports Parallel Processing	No	Yes
	MapReduce Support	Yes	No
	Hadoop Security	No	Supports Kerberos Authentication.
	Usage	Ideal for project up-gradation	Ideal for starting New Project.
	Fault-Tolerant	Hive is Fault Tolerant.	Does not Supports Fault tolerance.
	Complex Types	Hive supports complex types.	Impala does not support complex types.
	Database Type	Hive is a batch-based Hadoop MapReduce.	It is MPP database
	Interactive Computing	Does not support Interactive computing.	Supports Interactive Computing.
	Execution	Hive query has a problem with “Cold Start”	Impala process always starts at the Boot-time of Daemons.
	Resource Management	YARN	Native *YARN
	Distributions	HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP)	Cloudera MapR, (*Amazon EMR)
	Audience	Data Engineers	Data Analytiker/dataforskere
	gennemstrømning	høj gennemstrømning	lav gennemstrømning

konklusion

i denne artikel har vi forsøgt at fremvise, at hvad er to teknologier, nemlig Hive vs Impala, og også den grundlæggende forskel mellem disse teknologier. I praksis kan vi sige, at Hive og Impala ikke er konkurrenterne, de tilhører begge det samme fundament, der er kendt som MapReduce til udførelse af forespørgsler, brugen af begge kan skabe forskellen. I henhold til vores behov kan vi bruge det sammen eller det bedste i henhold til kompatibilitet, behov, og ydeevne. Hive-forespørgselssprog er Hive-sprog, som er meget alsidigt og universelt sprog, mens Impala er hukommelsesintensiv og ikke fungerer godt til behandling af tunge dataoperationer. Hvis arbejdet i dit projekt er relateret til batchbehandling for en stor mængde data, vil Hive bedre i så fald, og hvis dit arbejde er relateret til realtidsprocessen for en ad hoc-forespørgsel om data, vil Impala være bedre i så fald.

Anbefalede artikler

dette har været en guide til Hive vs Impala. Her har vi diskuteret Hive vs Impala head to head sammenligning, nøgleforskelle, sammen med infografik og sammenligningstabel. Du kan også se på følgende artikler for at lære mere –13 fantastiske forskelle

Hive VS HUE – Top 6 nyttige sammenligninger for at lære

Apache Pig vs Apache Hive – Top 12 nyttige forskelle

Hadoop vs Hive – Find ud af de bedste forskelle

ved hjælp af rækkefølge efter funktion i Hive

komplet Guide til Impala Database

2 aktier