Hive vs Impala | Topp 20 fördelaktiga skillnader du borde veta

Hive vs Impala

skillnad mellan Hive vs Impala
Head to Head jämförelser mellan Hive Och Impala (Infographics)
viktig skillnad mellan Hive Och Impala
Hive Och Impala jämförelsetabell
slutsats
Rekommenderade artiklar

skillnad mellan Hive vs Impala

hive är ett datalager mjukvaruprojekt byggt ovanpå Apache Hadoop utvecklat av Jeffs team på Facebook med en aktuell stabil version av 2.3.0 släppt. Den används för att sammanfatta Big data och gör det enkelt att fråga och analysera. Apache Hive är en effektiv standard för SQL-in Hadoop. Impala är en parallell bearbetning SQL query engine som körs på Apache Hadoop och använda för att bearbeta data som lagrar i HBase (Hadoop Database) och Hadoop distribuerade filsystem. Impala är en öppen källkodsprodukt för parallell bearbetning (MPP) SQL-frågemotor för data lagrade i ett lokalt systemkluster som körs på Apache Hadoop. Apache Hive och Impala båda är viktiga delar av Hadoop-systemet.

så låt oss studera både Hive och Impala i detalj:

starta din gratis Datavetenskapskurs

Hadoop, datavetenskap, statistik & andra

Hive

Apache Hive hjälper till att analysera den enorma dataset som lagras i Hadoop file system (HDFS) och andra kompatibla filsystem.
Hive QL – för att fråga data lagrade i Hadoop-kluster.
utnyttjar skalbarheten av Hadoop genom översättning.
Hive är inte en fullständig databas.
Det ger inte uppdateringar på rekordnivå.
Hadoop är Satsorienterat System.
Hive-frågor har hög latens på grund av MapReduce.
Hive ger inte funktioner i det är nära OLAP.
passar bäst för Datalagerapplikationer.
Frågekörning via MapReduce.
query language kan användas med anpassade skalära funktioner (UDF: s), aggregeringar (UDAF: s) och tabellfunktioner (UDTF: s).
Hive ger också indexering för att accelerera, indextyp inklusive komprimering och bitmapp index från och med 0,10, fler indextyper planeras.
Lagringstyper som stöds av Hive är RCfile, HBase, ORC och oformaterad text.
SQL-liknande frågor (Hive QL), som implicit omvandlas till MapReduce eller Tez, eller Spark jobb.
Som standard lagrar Hive metadata i en inbäddad Apache Derby-databas.

IMPALA

Impala är en frågemotor som körs på Hadoop. Den offentliga betatestdistributionen tillkännagavs i oktober 2012 och blev allmänt tillgänglig i maj 2013.
den stöder HDFS Apache HBase-lagring och Amazon S3.
läser Hadoop-filformat, inklusive text, parkett, Avro, RCFile, LZO och Sekvensfil.
stöder Hadoop-säkerhet (Kerberos-autentisering).
använder metadata, ODBC-drivrutin och SQL-syntax från Apache Hive.
den stöder flera komprimeringscodecs:

(a) Snappy (rekommenderas för sin effektiva balans mellan kompressionsförhållande och dekompressionshastighet),

(b) Gzip (rekommenderas när man uppnår den högsta komprimeringsnivån),

Det låter dig fråga om kapslade strukturer inklusive kartor, strukturer och arrayer.
Det tillåter flera användare samtidiga frågor och tillåter också antagningskontroll på grundval av prioritering och kö av frågor.

Head to Head jämförelser mellan Hive Och Impala (Infographics)

nedan är topp 20 jämförelse mellan Hive och Impala:

Hive vs Impala

viktig skillnad mellan Hive Och Impala

skillnaderna mellan Hive och Impala förklaras i punkter som presenteras nedan:

Hive är utvecklad av Jeffs team på Facebook men Impala är utvecklat av Apache Software Foundation.
Hive stöder filformat för optimerat radkolumnformat (ORC) med Zlib-komprimering, men Impala stöder Parkettformatet med snygg komprimering.
Hive är skrivet i Java men Impala är skrivet i C++.
Query processorhastighet I Hive är långsam men Impala är 6-69 gånger snabbare än Hive.
I Hive är latensen hög men i Impala är latensen låg.Hive stöder lagring av RC-fil och ORC men Impala lagringsstöd är Hadoop och Apache HBase.
Hive genererar frågeuttryck vid kompileringstid men i Impala kodgenerering för ”stora loopar” händer under körning.
Hive stöder inte parallell bearbetning men Impala stöder parallell bearbetning.
Hive stöder MapReduce men Impala stöder inte MapReduce.
I Hive finns det ingen säkerhetsfunktion men Impala stöder Kerberos-autentisering.
i en uppgradering av alla projekt där kompatibilitet och hastighet båda är viktiga är Hive ett idealiskt val men för ett nytt projekt är Impala det perfekta valet.
Hive är feltolerant men Impala stöder inte feltolerans.
Hive stöder komplex typ men Impala stöder inte komplexa typer.
Hive är batchbaserad Hadoop MapReduce men Impala är MPP-databas.
Hive stöder inte interaktiv databehandling, men Impala stöder interaktiv databehandling.
Hive query har ett problem med ”kallstart” men i Impala daemon processen startas vid starttiden själv.
Hive resource manager är garn (ännu en Resursförhandlare) men i Impala resource manager är native *garn.Hive distributioner är alla Hadoop distribution, Hortonworks (Tez, LLAP) men i Impala distribution är Cloudera MapR (*Amazon EMR).Hive-publiken är dataingenjörer men i Impala är publiken dataanalytiker / datavetenskapare.
Hive-genomströmningen är hög men i Impala är genomströmningen låg.

Hive Och Impala jämförelsetabell

den primära jämförelsen mellan Hive och Impala diskuteras nedan.

serienummer.	Basis For Comparison	Hive	Impala
	Developed By	Facebook	Apache Software Foundation
	File Format	Sequence file. Text File. Optimized row columnar (ORC) format with Zlib compression. RC file format.	Parkettformatith Avro LZO Sekvensfil.
	Language	Written in JAVA	Written in C++
	Processing Speed	Hive is Slow	Impala is Fast
	Latency	High	Low
	Storage Support	RC file, ORC	Hadoop, Apache HBase
	Code Conversion	Generates query expression at compile time	Code generation happens at runtime.
	Supports Parallel Processing	No	Yes
	MapReduce Support	Yes	No
	Hadoop Security	No	Supports Kerberos Authentication.
	Usage	Ideal for project up-gradation	Ideal for starting New Project.
	Fault-Tolerant	Hive is Fault Tolerant.	Does not Supports Fault tolerance.
	Complex Types	Hive supports complex types.	Impala does not support complex types.
	Database Type	Hive is a batch-based Hadoop MapReduce.	It is MPP database
	Interactive Computing	Does not support Interactive computing.	Supports Interactive Computing.
	Execution	Hive query has a problem with ”Cold Start”	Impala process always starts at the Boot-time of Daemons.
	Resource Management	YARN	Native *YARN
	Distributions	HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP)	Cloudera MapR, (*Amazon EMR)
	Audience	Data Engineers	Data Analytiker/datavetare
	genomströmning	hög genomströmning	låg genomströmning

slutsats

i den här artikeln har vi försökt visa att vad är två tekniker nämligen Hive vs Impala är och även den grundläggande skillnaden mellan dessa tekniker. I praktiken kan vi säga att Hive och Impala inte är konkurrenterna de båda tillhör samma grund som kallas MapReduce för att utföra frågorna, användningen av båda kan skapa skillnaden. Enligt vårt behov kan vi använda det tillsammans eller det bästa enligt kompatibilitet, behov och prestanda. Hive query language är Hive QL som är mycket mångsidigt och universellt språk medan Impala är minnesintensivt och inte fungerar bra för bearbetning av tunga dataoperationer. Om ditt projektarbete är relaterat till batchbehandling för en stor mängd data, kommer bikupan att bli bättre i så fall och om ditt arbete är relaterat till realtidsprocessen för en ad hoc-fråga på data kommer Impala att bli bättre i så fall.

Rekommenderade artiklar

detta har varit en guide till Hive vs Impala. Här har vi diskuterat Hive vs Impala head to head jämförelse, viktiga skillnader, tillsammans med infographics och jämförelsetabell. Du kan också titta på följande artiklar för att lära dig mer –

Apache Hive vs Apache Spark SQL – 13 fantastiska skillnader
Hive VS HUE – Topp 6 Användbara jämförelser för att lära dig
Apache Pig vs Apache Hive – topp 12 Användbara skillnader
Hadoop vs Hive – ta reda på de bästa skillnaderna
använda ordning efter funktion I Hive
komplett Guide till Impala databas

2 aktier