Hive vs Impala

Hive vs Impala

Hive vs Impala

difference between Hive vs Impala

hive on Jeffin Facebook-tiimin Apache Hadoopin päälle rakennettu tietovaraston ohjelmistoprojekti, josta on julkaistu nykyinen vakaa versio 2.3.0. Sitä käytetään Big datan tiivistämiseen ja se tekee kyselystä ja analysoinnista helppoa. Apache Hive on tehokas standardi SQL-in Hadoopille. Impala on Apache Hadoopilla toimiva rinnakkaiskäsittelevä SQL-kyselymoottori, jolla käsitellään Hbaseen (Hadoop-tietokanta) ja Hadoop-hajautettuun tiedostojärjestelmään tallentuvia tietoja. Impala on avoimen lähdekoodin tuote parallel processing (MPP) SQL-kyselymoottorille Apache Hadoopilla toimivaan paikalliseen järjestelmäryppääseen tallennetuille tiedoille. Apache Hive ja Impala ovat molemmat Hadoop-järjestelmän keskeisiä osia.

tutkitaan siis sekä pesää että Impalaa yksityiskohtaisesti:

Aloita ilmainen Data Science-kurssi

Hadoop, Data Science, Statistics&muut

Hive

  • Apache Hive auttaa Hadoop-tiedostojärjestelmään (HDFS) ja muihin yhteensopiviin tiedostojärjestelmiin tallennetun valtavan aineiston analysoinnissa.
  • Hive QL – Hadoop-klusteriin tallennettujen tietojen kyselyyn.
  • hyödyntää Hadoopin skaalautuvuutta kääntämällä.
  • Hive ei ole täydellinen tietokanta.
  • se ei tarjoa ennätystason päivityksiä.
  • Hadoop on Eräkeskeinen järjestelmä.
  • Pesäkyselyissä on mapreduktiosta johtuva korkea latenssi.
  • pesä ei tarjoa ominaisuuksia, jotka ovat lähellä OLAPIA.
  • soveltuu parhaiten tietovaraston sovelluksiin.
  • kyselyn suoritus MapReducen kautta.
  • kyselykieltä voidaan käyttää kustomoitujen skalaarifunktioiden (UDF), aggregaattien (UDAF) ja taulukkofunktioiden (UDTF) kanssa.
  • Hive tarjoaa myös indeksointia nopeutettavaksi, indeksityyppi mukaan lukien tiivistyminen ja bittikarttaindeksi 0.10, lisää indeksityyppejä on suunnitteilla.
  • hiven tukemia tallennustyyppejä ovat RCfile, HBase, ORC ja Plain text.
  • SQL-tyyppiset kyselyt (Hive QL), jotka muunnetaan implisiittisesti Mapreduceksi tai Teziksi eli Kipinätyöiksi.
  • oletuksena Hive tallentaa metatiedot upotettuun Apache Derby-tietokantaan.

IMPALA

  • Impala on tiedustelumoottori, joka käy Hadoopilla. Se julkinen beta-testijakelu julkistettiin lokakuussa 2012 ja tuli yleisesti saataville toukokuussa 2013.
  • se tukee HDFS Apache HBase storagea ja Amazon S3: a.
  • lukee Hadoop-tiedostomuotoja, kuten text, Parquet, Avro, RCFile, LZO ja Sequence file.
  • tukee Hadoop-tietoturvaa (Kerberos-todennus).
  • käyttää Apache hiven metadataa, ODBC-ajuria ja SQL-syntaksia.
  • se tukee useita puristuskoodekkeja:

(a) Reipas (suositellaan sen tehokkaaseen tasapainoon puristussuhteen ja dekompression nopeuden välillä),

(b) Gzip (suositellaan, kun saavutetaan suurin puristustaso),

(c) Deflate (Ei tuettu tekstitiedostoille), bzip2, LZO (vain tekstitiedostoille);

  • sen avulla voi tiedustella sisäkkäisiä rakenteita, kuten karttoja, struktuureja ja taulukoita.
  • se mahdollistaa usean käyttäjän samanaikaiset kyselyt ja mahdollistaa myös sisäänpääsyn valvonnan kyselyiden priorisoinnin ja jonottamisen perusteella.

Head to Head vertailut pesän ja Impalan välillä (infografiikka)

alla on 20 parasta vertailua pesän ja Impalan välillä:

Hive vs Impala

Hive vs Impala

pesän ja Impalan väliset erot selitetään alla esitetyissä pisteissä:

  • pesä on Jeffin Facebook-ryhmän kehittämä, mutta Impalan on kehittänyt Apache Software Foundation.
  • Hive tukee optimoitua rivikolumnarimuotoa (ORC) zlib-pakkauksella, mutta Impala tukee Parkettimuotoa reippaalla pakkauksella.
  • Hive on kirjoitettu Javalla, mutta Impala on kirjoitettu C++: lla.
  • kyselyn käsittelynopeus Hivessä on hidas, mutta Impala on 6-69 kertaa nopeampi kuin Hive.
  • pesässä latenssi on korkea, mutta Impalassa latenssi on alhainen.
  • Hive tukee RC-tiedoston ja ORC: n tallennusta, mutta Impala storage tukee Hadoopia ja Apache Hbasea.
  • Hive luo kyselyilmaisun käännösaikaan, mutta Impala-koodissa ”isojen silmukoiden” generointi tapahtuu suorituksen aikana.
  • Hive ei tue rinnakkaista käsittelyä, mutta Impala tukee rinnakkaista käsittelyä.
  • Hive tukee Mapreducea, mutta Impala ei tue Mapreducea.
  • Hivessä ei ole tietoturvaominaisuutta, mutta Impala tukee Kerberos-todennusta.
  • minkä tahansa projektin päivityksessä, jossa yhteensopivuus ja nopeus ovat molemmat tärkeitä, Hive on ihanteellinen valinta, mutta uuteen projektiin Impala on ihanteellinen valinta.
  • Hive on vikasietoinen, mutta Impala ei kannata vikasietoisuutta.
  • Hive tukee kompleksityyppejä, mutta Impala ei tue kompleksityyppejä.
  • Hive on eräpohjainen Hadoop Mapreduke, mutta Impala on MPP-tietokanta.
  • Hive ei tue interaktiivista tietojenkäsittelyä, mutta Impala tukee interaktiivista tietojenkäsittelyä.
  • Hive-kyselyllä on ”kylmäkäynnistyksen” ongelma, mutta Impalassa daemon-prosessi käynnistetään itse käynnistyksen yhteydessä.
  • Hive resource manager on Lanka (jälleen yksi Resurssineuvottelija), mutta Impalassa resource manager on natiivi *Lanka.
  • Pesäjakaumat ovat kaikki Hadoop-jakaumia, Hortonworks-jakaumia (Tez, LLAP), mutta Impala-jakaumissa ovat Cloudera MapR (*Amazon EMR).
  • hiven yleisö on Data-insinöörejä, mutta Impalassa yleisö on Data-analyytikko / Datatutkijoita.
  • pesän läpäisykyky on suuri, mutta Impalassa läpäisykyky on pieni.

pesän ja Impalan vertailutaulukko

pesän ja Impalan primaarista vertailua on käsitelty alla.

Sarjanumero. Basis For Comparison Hive Impala
Developed By Facebook Apache Software
Foundation
File Format
  • Sequence file.
  • Text File.
  • Optimized row columnar (ORC) format with Zlib compression.
  • RC file format.
  • Parquet formatith
  • vro

  • LZO
  • Sequence file.
Language Written in JAVA Written in C++
Processing Speed Hive is Slow Impala is Fast
Latency High Low
Storage Support RC file, ORC Hadoop, Apache HBase
Code Conversion Generates query expression at compile time Code generation happens at runtime.
Supports Parallel Processing No Yes
MapReduce Support Yes No
Hadoop Security No Supports Kerberos Authentication.
Usage Ideal for project up-gradation Ideal for starting New Project.
Fault-Tolerant Hive is Fault Tolerant. Does not Supports Fault tolerance.
Complex Types Hive supports complex types. Impala does not support complex types.
Database Type Hive is a batch-based Hadoop MapReduce. It is MPP database
Interactive Computing Does not support Interactive computing. Supports Interactive Computing.
Execution Hive query has a problem with ”Cold Start” Impala process always starts at the Boot-time of Daemons.
Resource Management YARN Native *YARN
Distributions HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) Cloudera MapR,
(*Amazon EMR)
Audience Data Engineers Data Analyst/Data Scientists
läpimeno Suuri läpimeno pieni läpimeno

johtopäätös

tässä artikkelissa on kokeiltu showcase, että mitä ovat kaksi teknologiaa eli Hive vs Impala ovat ja myös näiden teknologioiden perusero. Käytännössä voimme sanoa, että Hive ja Impala eivät ole kilpailijoita ne molemmat kuuluvat samaan säätiöön, joka tunnetaan MapReduce suorittaa kyselyt, käyttö molemmat voivat luoda eron. Tarpeemme mukaan voimme käyttää sitä yhdessä tai parhaiten yhteensopivuuden, tarpeen ja suorituskyvyn mukaan. Hive query language on Hive QL, joka on erittäin monipuolinen ja universaali kieli, kun taas Impala on muisti intensiivistä ja ei toimi hyvin raskaiden dataoperaatioiden käsittelyyn esimerkiksi liity kyselyihin. Jos projektissasi työ liittyy suuren tietomäärän eräkäsittelyyn, pesä on siinä tapauksessa parempi ja jos työsi liittyy reaaliaikaiseen datakyselyn prosessiin, Impala on siinä tapauksessa parempi.

suositellut artikkelit

Tämä on ollut opas Hive vs Impala. Täällä olemme keskustelleet Hive vs Impala head to head vertailu, keskeiset erot, sekä infografiikka ja vertailutaulukko. Voit myös katsoa seuraavia artikkeleita oppiaksesi lisää –

  1. Apache Hive vs Apache Spark SQL – 13 Amazing Differences
  2. Hive VS HUE – Top 6 hyödyllisiä vertailuja oppiaksesi
  3. Apache Pig vs Apache Hive – Top 12 hyödyllisiä eroja
  4. Hadoop vs Hive – selvitä parhaat erot
  5. käyttämällä järjestystä Funktion mukaan Hivessä

  6. Complete Guide to Impala Database
2 osaketta

Vastaa

Sähköpostiosoitettasi ei julkaista.