forskjellen mellom hive vs impala
hive er et datalager programvareprosjekt bygget på toppen av apache hadoop utviklet av jeffs team på facebook med en nåværende stabil versjon av 2.3.0 utgitt. Den brukes til å oppsummere Big data og gjør spørring og analyse enkelt. Apache Hive er en effektiv standard FOR SQL-I Hadoop. Impala er en parallell prosessering SQL spørring motor som kjører På Apache Hadoop og bruke til å behandle data som lagrer I Hbase (Hadoop Database) Og Hadoop Distribuert Filsystem. Impala er en åpen kildekode-produkt for parallell prosessering (MPP) SQL spørring motor for data lagret i et lokalt system klynge som kjører På Apache Hadoop. Apache Hive og Impala er begge viktige deler Av Hadoop-systemet.
så la oss studere Både Hive og Impala i detalj:
Start Ditt Gratis Datavitenskapskurs
Hadoop, Datavitenskap, Statistikk&andre
hive
- apache hive hjelper til med å analysere det store datasettet som er lagret i hadoop file system (hdfs) og andre kompatible filsystemer.
- Hive QL – for spørring av data lagret I Hadoop-Klyngen.
- Utnytter Skalerbarheten Til Hadoop ved oversettelse.
- Hive er IKKE En Full Database.
- det gir ikke oppdateringer på rekordnivå.
- Hadoop Er Batch Orientert System.
- Hive Spørringer har høy latens På Grunn Av MapReduce.
- Hive gir ikke funksjoner Av DET er nær OLAP.
- Best egnet For Data Warehouse Applikasjoner.
- spørring kjøring Via MapReduce.
- spørringsspråk kan brukes med tilpassede skalarfunksjoner (UDF), aggregeringer (UDAF) og tabellfunksjoner (UDTF).
- Hive gir Også Indeksering for å akselerere, indekstype inkludert komprimering og punktgrafikkindeks på 0,10, flere indekstyper er planlagt.
- Lagringstyper som støttes av Hive er RCfile, HBase, ORC og Ren tekst.
- SQL-lignende spørringer (Hive QL), som implisitt konverteres Til MapReduce Eller Tez, Eller Spark jobber.
- Som standard lagrer Hive metadata i En innebygd Apache derby-database.
IMPALA
- Impala Er en spørring motor som kjører På Hadoop. Den offentlige betatestdistribusjonen ble annonsert i oktober 2012 og ble generelt tilgjengelig I Mai 2013.
- den støtter HDFS Apache HBase lagring Og Amazon S3.
- Leser Hadoop filformater, inkludert tekst, Parkett, Avro, RCFile, LZO, Og Sekvens fil.
- Støtter Hadoop-Sikkerhet (Kerberos-godkjenning).
- Bruker metadata, ODBC-driver og SQL-syntaks Fra Apache Hive.(a) Snappy (Anbefales for sin effektive balanse mellom kompresjonsforhold og dekompresjonshastighet), (b) Gzip (Anbefales Når du oppnår det høyeste komprimeringsnivået),
(c) Deflate (støttes ikke for tekstfiler), Bzip2, LZO (kun for tekstfiler);
- den lar deg søke på nestede strukturer, inkludert kart, structs og arrays.
- det tillater multi-user samtidige spørringer og tillater også adgangskontroll på grunnlag av prioritering og kø av spørringer.
Head To Head Sammenligninger Mellom Hive og Impala (Infographics)
Nedenfor Er Topp 20 Sammenligning Mellom Hive og Impala:
Nøkkelforskjell mellom Hive og Impala
forskjellene mellom Hive og Impala er forklart i punktene som presenteres nedenfor:
- Hive er utviklet av Jeffs team På Facebook, men impala er utviklet av apache software foundation.
- Hive støtter filformat Av Optimalisert rad columnar (ORC) format Med zlib komprimering, Men Impala støtter Parkett format med irritabel komprimering.
- Hive er skrevet I Java, Men Impala er skrevet I C++.
- spørringsbehandlingshastighet i Hive er treg, Men Impala er 6-69 ganger raskere enn Hive.
- I Hive Latency er høy, Men I Impala Latency er lav.Hive støtter lagring AV RC-fil og ORC, Men Impala-lagring støtter Hadoop og Apache HBase.
- Hive genererer spørringsuttrykk ved kompileringstid, men I Impala-kodegenerering for «store løkker» skjer under kjøretid.
- Hive støtter ikke parallell prosessering, Men Impala støtter parallell prosessering.
- Hive støtter MapReduce, Men Impala støtter Ikke MapReduce.
- I Hive er det ingen sikkerhetsfunksjon, Men Impala støtter Kerberos-Godkjenning.
- I en oppgradering av ethvert prosjekt hvor kompatibilitet og hastighet begge er viktige Hive er et ideelt valg, Men For et nytt prosjekt, Er Impala det ideelle valget.
- Hive er Feiltolerant, Men Impala støtter ikke feiltoleranse.
- Hive støtter kompleks type, Men Impala støtter ikke komplekse typer.
- Hive er batchbasert Hadoop MapReduce, Men Impala er mpp-database.
- Hive støtter ikke interaktiv databehandling, Men Impala støtter interaktiv databehandling.
- Hive query har et problem med «kaldstart», men I Impala daemon prosessen startes ved oppstartstid selv.
- Hive resource manager ER GARN (Enda En Ressurs Forhandler) , men I Impala resource manager er innfødt * GARN .Hive Distribusjoner er Alle Hadoop distribusjon, Hortonworks (Tez, LLAP), Men I Impala distribusjon Er Cloudera MapR (*Amazon EPJ).
- Hive publikum Er Data Ingeniører, Men I Impala publikum Er Data Analytiker / data forskere.
- Hive gjennomstrømning er høy, Men I Impala gjennomstrømning er lav.
Hive Og Impala Sammenligningstabell
den primære sammenligningen mellom Hive og Impala er omtalt nedenfor.
Serienummer. Basis For Comparison Hive Impala Developed By Facebook Apache Software
FoundationFile Format - Sequence file.
- Text File.
- Optimized row columnar (ORC) format with Zlib compression.
- RC file format.
- Parkett format
- Avro
- Lzo
- Sekvens fil.
Language Written in JAVA Written in C++ Processing Speed Hive is Slow Impala is Fast Latency High Low Storage Support RC file, ORC Hadoop, Apache HBase Code Conversion Generates query expression at compile time Code generation happens at runtime. Supports Parallel Processing No Yes MapReduce Support Yes No Hadoop Security No Supports Kerberos Authentication. Usage Ideal for project up-gradation Ideal for starting New Project. Fault-Tolerant Hive is Fault Tolerant. Does not Supports Fault tolerance. Complex Types Hive supports complex types. Impala does not support complex types. Database Type Hive is a batch-based Hadoop MapReduce. It is MPP database Interactive Computing Does not support Interactive computing. Supports Interactive Computing. Execution Hive query has a problem with «Cold Start» Impala process always starts at the Boot-time of Daemons. Resource Management YARN Native *YARN Distributions HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) Cloudera MapR,
(*Amazon EMR)Audience Data Engineers Data Analytiker/Data Forskere Gjennomstrømming Høy Gjennomstrømming Lav gjennomstrømning konklusjon
i denne artikkelen har vi prøvd å vise frem at det er to teknologier nemlig hive vs impala er og også den grunnleggende forskjellen Mellom disse teknologiene. I praksis kan vi si At Hive og Impala ikke er konkurrentene de begge tilhører samme grunnlag som Er kjent Som MapReduce for å utføre spørringene, bruken av begge kan skape forskjellen. I henhold til vårt behov kan vi bruke det sammen eller det beste i henhold til kompatibilitet, behov og ytelse. Hive query language Er Hive QL som er veldig allsidig og universelt språk mens Impala er minneintensiv og fungerer ikke bra for behandling av tunge dataoperasjoner. Hvis i prosjektarbeidet ditt er relatert til batchbehandling for en stor mengde data, Vil Strukturen bedre i det tilfellet, og Hvis arbeidet ditt er relatert til sanntidsprosessen av en ad hoc-spørring på data, Vil Impala bli bedre i det tilfellet.
Anbefalte Artikler
Dette har vært en guide Til Hive vs Impala. Her har vi diskutert Hive vs Impala head to head sammenligning, viktige forskjeller, sammen med infographics og sammenligningstabell. Apache Hive vs Apache Spark SQL-13 Fantastiske Forskjeller
- Hive VS HUE-Topp 6 Nyttige Sammenligninger For å Lære
- Apache Pig vs Apache Hive – Topp 12 Nyttige Forskjeller
- Hadoop vs Hive – Finn Ut De Beste Forskjellene
- Ved HJELP AV REKKEFØLGE Etter Funksjon I Hive
- Komplett Guide TIL Impala Database