skillnad mellan Hive vs Impala
hive är ett datalager mjukvaruprojekt byggt ovanpå Apache Hadoop utvecklat av Jeffs team på Facebook med en aktuell stabil version av 2.3.0 släppt. Den används för att sammanfatta Big data och gör det enkelt att fråga och analysera. Apache Hive är en effektiv standard för SQL-in Hadoop. Impala är en parallell bearbetning SQL query engine som körs på Apache Hadoop och använda för att bearbeta data som lagrar i HBase (Hadoop Database) och Hadoop distribuerade filsystem. Impala är en öppen källkodsprodukt för parallell bearbetning (MPP) SQL-frågemotor för data lagrade i ett lokalt systemkluster som körs på Apache Hadoop. Apache Hive och Impala båda är viktiga delar av Hadoop-systemet.
så låt oss studera både Hive och Impala i detalj:
starta din gratis Datavetenskapskurs
Hadoop, datavetenskap, statistik & andra
Hive
- Apache Hive hjälper till att analysera den enorma dataset som lagras i Hadoop file system (HDFS) och andra kompatibla filsystem.
- Hive QL – för att fråga data lagrade i Hadoop-kluster.
- utnyttjar skalbarheten av Hadoop genom översättning.
- Hive är inte en fullständig databas.
- Det ger inte uppdateringar på rekordnivå.
- Hadoop är Satsorienterat System.
- Hive-frågor har hög latens på grund av MapReduce.
- Hive ger inte funktioner i det är nära OLAP.
- passar bäst för Datalagerapplikationer.
- Frågekörning via MapReduce.
- query language kan användas med anpassade skalära funktioner (UDF: s), aggregeringar (UDAF: s) och tabellfunktioner (UDTF: s).
- Hive ger också indexering för att accelerera, indextyp inklusive komprimering och bitmapp index från och med 0,10, fler indextyper planeras.
- Lagringstyper som stöds av Hive är RCfile, HBase, ORC och oformaterad text.
- SQL-liknande frågor (Hive QL), som implicit omvandlas till MapReduce eller Tez, eller Spark jobb.
- Som standard lagrar Hive metadata i en inbäddad Apache Derby-databas.
IMPALA
- Impala är en frågemotor som körs på Hadoop. Den offentliga betatestdistributionen tillkännagavs i oktober 2012 och blev allmänt tillgänglig i maj 2013.
- den stöder HDFS Apache HBase-lagring och Amazon S3.
- läser Hadoop-filformat, inklusive text, parkett, Avro, RCFile, LZO och Sekvensfil.
- stöder Hadoop-säkerhet (Kerberos-autentisering).
- använder metadata, ODBC-drivrutin och SQL-syntax från Apache Hive.
- den stöder flera komprimeringscodecs:
(a) Snappy (rekommenderas för sin effektiva balans mellan kompressionsförhållande och dekompressionshastighet),
(b) Gzip (rekommenderas när man uppnår den högsta komprimeringsnivån),
(c) Deflate (stöds inte för textfiler), Bzip2, LZO( endast för textfiler);
- Det låter dig fråga om kapslade strukturer inklusive kartor, strukturer och arrayer.
- Det tillåter flera användare samtidiga frågor och tillåter också antagningskontroll på grundval av prioritering och kö av frågor.
Head to Head jämförelser mellan Hive Och Impala (Infographics)
nedan är topp 20 jämförelse mellan Hive och Impala:
viktig skillnad mellan Hive Och Impala
skillnaderna mellan Hive och Impala förklaras i punkter som presenteras nedan:
- Hive är utvecklad av Jeffs team på Facebook men Impala är utvecklat av Apache Software Foundation.
- Hive stöder filformat för optimerat radkolumnformat (ORC) med Zlib-komprimering, men Impala stöder Parkettformatet med snygg komprimering.
- Hive är skrivet i Java men Impala är skrivet i C++.
- Query processorhastighet I Hive är långsam men Impala är 6-69 gånger snabbare än Hive.
- I Hive är latensen hög men i Impala är latensen låg.Hive stöder lagring av RC-fil och ORC men Impala lagringsstöd är Hadoop och Apache HBase.
- Hive genererar frågeuttryck vid kompileringstid men i Impala kodgenerering för ”stora loopar” händer under körning.
- Hive stöder inte parallell bearbetning men Impala stöder parallell bearbetning.
- Hive stöder MapReduce men Impala stöder inte MapReduce.
- I Hive finns det ingen säkerhetsfunktion men Impala stöder Kerberos-autentisering.
- i en uppgradering av alla projekt där kompatibilitet och hastighet båda är viktiga är Hive ett idealiskt val men för ett nytt projekt är Impala det perfekta valet.
- Hive är feltolerant men Impala stöder inte feltolerans.
- Hive stöder komplex typ men Impala stöder inte komplexa typer.
- Hive är batchbaserad Hadoop MapReduce men Impala är MPP-databas.
- Hive stöder inte interaktiv databehandling, men Impala stöder interaktiv databehandling.
- Hive query har ett problem med ”kallstart” men i Impala daemon processen startas vid starttiden själv.
- Hive resource manager är garn (ännu en Resursförhandlare) men i Impala resource manager är native *garn.Hive distributioner är alla Hadoop distribution, Hortonworks (Tez, LLAP) men i Impala distribution är Cloudera MapR (*Amazon EMR).Hive-publiken är dataingenjörer men i Impala är publiken dataanalytiker / datavetenskapare.
- Hive-genomströmningen är hög men i Impala är genomströmningen låg.
Hive Och Impala jämförelsetabell
den primära jämförelsen mellan Hive och Impala diskuteras nedan.
serienummer. | Basis For Comparison | Hive | Impala |
Developed By | Apache Software Foundation |
||
File Format |
|
|
|
Language | Written in JAVA | Written in C++ | |
Processing Speed | Hive is Slow | Impala is Fast | |
Latency | High | Low | |
Storage Support | RC file, ORC | Hadoop, Apache HBase | |
Code Conversion | Generates query expression at compile time | Code generation happens at runtime. | |
Supports Parallel Processing | No | Yes | |
MapReduce Support | Yes | No | |
Hadoop Security | No | Supports Kerberos Authentication. | |
Usage | Ideal for project up-gradation | Ideal for starting New Project. | |
Fault-Tolerant | Hive is Fault Tolerant. | Does not Supports Fault tolerance. | |
Complex Types | Hive supports complex types. | Impala does not support complex types. | |
Database Type | Hive is a batch-based Hadoop MapReduce. | It is MPP database | |
Interactive Computing | Does not support Interactive computing. | Supports Interactive Computing. | |
Execution | Hive query has a problem with ”Cold Start” | Impala process always starts at the Boot-time of Daemons. | |
Resource Management | YARN | Native *YARN | |
Distributions | HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) | Cloudera MapR, (*Amazon EMR) |
|
Audience | Data Engineers | Data Analytiker/datavetare | |
genomströmning | hög genomströmning | låg genomströmning |
slutsats
i den här artikeln har vi försökt visa att vad är två tekniker nämligen Hive vs Impala är och även den grundläggande skillnaden mellan dessa tekniker. I praktiken kan vi säga att Hive och Impala inte är konkurrenterna de båda tillhör samma grund som kallas MapReduce för att utföra frågorna, användningen av båda kan skapa skillnaden. Enligt vårt behov kan vi använda det tillsammans eller det bästa enligt kompatibilitet, behov och prestanda. Hive query language är Hive QL som är mycket mångsidigt och universellt språk medan Impala är minnesintensivt och inte fungerar bra för bearbetning av tunga dataoperationer. Om ditt projektarbete är relaterat till batchbehandling för en stor mängd data, kommer bikupan att bli bättre i så fall och om ditt arbete är relaterat till realtidsprocessen för en ad hoc-fråga på data kommer Impala att bli bättre i så fall.
Rekommenderade artiklar
detta har varit en guide till Hive vs Impala. Här har vi diskuterat Hive vs Impala head to head jämförelse, viktiga skillnader, tillsammans med infographics och jämförelsetabell. Du kan också titta på följande artiklar för att lära dig mer –
- Apache Hive vs Apache Spark SQL – 13 fantastiska skillnader
- Hive VS HUE – Topp 6 Användbara jämförelser för att lära dig
- Apache Pig vs Apache Hive – topp 12 Användbara skillnader
- Hadoop vs Hive – ta reda på de bästa skillnaderna
- använda ordning efter funktion I Hive
- komplett Guide till Impala databas