- difference between Hive vs Impala
- Head to Head vertailut pesän ja Impalan välillä (infografiikka)
- pesän ja Impalan väliset erot selitetään alla esitetyissä pisteissä: pesä on Jeffin Facebook-ryhmän kehittämä, mutta Impalan on kehittänyt Apache Software Foundation. Hive tukee optimoitua rivikolumnarimuotoa (ORC) zlib-pakkauksella, mutta Impala tukee Parkettimuotoa reippaalla pakkauksella. Hive on kirjoitettu Javalla, mutta Impala on kirjoitettu C++: lla. kyselyn käsittelynopeus Hivessä on hidas, mutta Impala on 6-69 kertaa nopeampi kuin Hive. pesässä latenssi on korkea, mutta Impalassa latenssi on alhainen. Hive tukee RC-tiedoston ja ORC: n tallennusta, mutta Impala storage tukee Hadoopia ja Apache Hbasea. Hive luo kyselyilmaisun käännösaikaan, mutta Impala-koodissa ”isojen silmukoiden” generointi tapahtuu suorituksen aikana. Hive ei tue rinnakkaista käsittelyä, mutta Impala tukee rinnakkaista käsittelyä. Hive tukee Mapreducea, mutta Impala ei tue Mapreducea. Hivessä ei ole tietoturvaominaisuutta, mutta Impala tukee Kerberos-todennusta. minkä tahansa projektin päivityksessä, jossa yhteensopivuus ja nopeus ovat molemmat tärkeitä, Hive on ihanteellinen valinta, mutta uuteen projektiin Impala on ihanteellinen valinta. Hive on vikasietoinen, mutta Impala ei kannata vikasietoisuutta. Hive tukee kompleksityyppejä, mutta Impala ei tue kompleksityyppejä. Hive on eräpohjainen Hadoop Mapreduke, mutta Impala on MPP-tietokanta. Hive ei tue interaktiivista tietojenkäsittelyä, mutta Impala tukee interaktiivista tietojenkäsittelyä. Hive-kyselyllä on ”kylmäkäynnistyksen” ongelma, mutta Impalassa daemon-prosessi käynnistetään itse käynnistyksen yhteydessä. Hive resource manager on Lanka (jälleen yksi Resurssineuvottelija), mutta Impalassa resource manager on natiivi *Lanka. Pesäjakaumat ovat kaikki Hadoop-jakaumia, Hortonworks-jakaumia (Tez, LLAP), mutta Impala-jakaumissa ovat Cloudera MapR (*Amazon EMR). hiven yleisö on Data-insinöörejä, mutta Impalassa yleisö on Data-analyytikko / Datatutkijoita. pesän läpäisykyky on suuri, mutta Impalassa läpäisykyky on pieni. pesän ja Impalan vertailutaulukko
- johtopäätös
- suositellut artikkelit
difference between Hive vs Impala
hive on Jeffin Facebook-tiimin Apache Hadoopin päälle rakennettu tietovaraston ohjelmistoprojekti, josta on julkaistu nykyinen vakaa versio 2.3.0. Sitä käytetään Big datan tiivistämiseen ja se tekee kyselystä ja analysoinnista helppoa. Apache Hive on tehokas standardi SQL-in Hadoopille. Impala on Apache Hadoopilla toimiva rinnakkaiskäsittelevä SQL-kyselymoottori, jolla käsitellään Hbaseen (Hadoop-tietokanta) ja Hadoop-hajautettuun tiedostojärjestelmään tallentuvia tietoja. Impala on avoimen lähdekoodin tuote parallel processing (MPP) SQL-kyselymoottorille Apache Hadoopilla toimivaan paikalliseen järjestelmäryppääseen tallennetuille tiedoille. Apache Hive ja Impala ovat molemmat Hadoop-järjestelmän keskeisiä osia.
tutkitaan siis sekä pesää että Impalaa yksityiskohtaisesti:
Aloita ilmainen Data Science-kurssi
Hadoop, Data Science, Statistics&muut
Hive
- Apache Hive auttaa Hadoop-tiedostojärjestelmään (HDFS) ja muihin yhteensopiviin tiedostojärjestelmiin tallennetun valtavan aineiston analysoinnissa.
- Hive QL – Hadoop-klusteriin tallennettujen tietojen kyselyyn.
- hyödyntää Hadoopin skaalautuvuutta kääntämällä.
- Hive ei ole täydellinen tietokanta.
- se ei tarjoa ennätystason päivityksiä.
- Hadoop on Eräkeskeinen järjestelmä.
- Pesäkyselyissä on mapreduktiosta johtuva korkea latenssi.
- pesä ei tarjoa ominaisuuksia, jotka ovat lähellä OLAPIA.
- soveltuu parhaiten tietovaraston sovelluksiin.
- kyselyn suoritus MapReducen kautta.
- kyselykieltä voidaan käyttää kustomoitujen skalaarifunktioiden (UDF), aggregaattien (UDAF) ja taulukkofunktioiden (UDTF) kanssa.
- Hive tarjoaa myös indeksointia nopeutettavaksi, indeksityyppi mukaan lukien tiivistyminen ja bittikarttaindeksi 0.10, lisää indeksityyppejä on suunnitteilla.
- hiven tukemia tallennustyyppejä ovat RCfile, HBase, ORC ja Plain text.
- SQL-tyyppiset kyselyt (Hive QL), jotka muunnetaan implisiittisesti Mapreduceksi tai Teziksi eli Kipinätyöiksi.
- oletuksena Hive tallentaa metatiedot upotettuun Apache Derby-tietokantaan.
IMPALA
- Impala on tiedustelumoottori, joka käy Hadoopilla. Se julkinen beta-testijakelu julkistettiin lokakuussa 2012 ja tuli yleisesti saataville toukokuussa 2013.
- se tukee HDFS Apache HBase storagea ja Amazon S3: a.
- lukee Hadoop-tiedostomuotoja, kuten text, Parquet, Avro, RCFile, LZO ja Sequence file.
- tukee Hadoop-tietoturvaa (Kerberos-todennus).
- käyttää Apache hiven metadataa, ODBC-ajuria ja SQL-syntaksia.
- se tukee useita puristuskoodekkeja:
(a) Reipas (suositellaan sen tehokkaaseen tasapainoon puristussuhteen ja dekompression nopeuden välillä),
(b) Gzip (suositellaan, kun saavutetaan suurin puristustaso),
(c) Deflate (Ei tuettu tekstitiedostoille), bzip2, LZO (vain tekstitiedostoille);
- sen avulla voi tiedustella sisäkkäisiä rakenteita, kuten karttoja, struktuureja ja taulukoita.
- se mahdollistaa usean käyttäjän samanaikaiset kyselyt ja mahdollistaa myös sisäänpääsyn valvonnan kyselyiden priorisoinnin ja jonottamisen perusteella.
Head to Head vertailut pesän ja Impalan välillä (infografiikka)
alla on 20 parasta vertailua pesän ja Impalan välillä:
pesän ja Impalan väliset erot selitetään alla esitetyissä pisteissä:
- pesä on Jeffin Facebook-ryhmän kehittämä, mutta Impalan on kehittänyt Apache Software Foundation.
- Hive tukee optimoitua rivikolumnarimuotoa (ORC) zlib-pakkauksella, mutta Impala tukee Parkettimuotoa reippaalla pakkauksella.
- Hive on kirjoitettu Javalla, mutta Impala on kirjoitettu C++: lla.
- kyselyn käsittelynopeus Hivessä on hidas, mutta Impala on 6-69 kertaa nopeampi kuin Hive.
- pesässä latenssi on korkea, mutta Impalassa latenssi on alhainen.
- Hive tukee RC-tiedoston ja ORC: n tallennusta, mutta Impala storage tukee Hadoopia ja Apache Hbasea.
- Hive luo kyselyilmaisun käännösaikaan, mutta Impala-koodissa ”isojen silmukoiden” generointi tapahtuu suorituksen aikana.
- Hive ei tue rinnakkaista käsittelyä, mutta Impala tukee rinnakkaista käsittelyä.
- Hive tukee Mapreducea, mutta Impala ei tue Mapreducea.
- Hivessä ei ole tietoturvaominaisuutta, mutta Impala tukee Kerberos-todennusta.
- minkä tahansa projektin päivityksessä, jossa yhteensopivuus ja nopeus ovat molemmat tärkeitä, Hive on ihanteellinen valinta, mutta uuteen projektiin Impala on ihanteellinen valinta.
- Hive on vikasietoinen, mutta Impala ei kannata vikasietoisuutta.
- Hive tukee kompleksityyppejä, mutta Impala ei tue kompleksityyppejä.
- Hive on eräpohjainen Hadoop Mapreduke, mutta Impala on MPP-tietokanta.
- Hive ei tue interaktiivista tietojenkäsittelyä, mutta Impala tukee interaktiivista tietojenkäsittelyä.
- Hive-kyselyllä on ”kylmäkäynnistyksen” ongelma, mutta Impalassa daemon-prosessi käynnistetään itse käynnistyksen yhteydessä.
- Hive resource manager on Lanka (jälleen yksi Resurssineuvottelija), mutta Impalassa resource manager on natiivi *Lanka.
- Pesäjakaumat ovat kaikki Hadoop-jakaumia, Hortonworks-jakaumia (Tez, LLAP), mutta Impala-jakaumissa ovat Cloudera MapR (*Amazon EMR).
- hiven yleisö on Data-insinöörejä, mutta Impalassa yleisö on Data-analyytikko / Datatutkijoita.
- pesän läpäisykyky on suuri, mutta Impalassa läpäisykyky on pieni.
pesän ja Impalan vertailutaulukko
pesän ja Impalan primaarista vertailua on käsitelty alla.
Sarjanumero. | Basis For Comparison | Hive | Impala |
Developed By | Apache Software Foundation |
||
File Format |
|
vro |
|
Language | Written in JAVA | Written in C++ | |
Processing Speed | Hive is Slow | Impala is Fast | |
Latency | High | Low | |
Storage Support | RC file, ORC | Hadoop, Apache HBase | |
Code Conversion | Generates query expression at compile time | Code generation happens at runtime. | |
Supports Parallel Processing | No | Yes | |
MapReduce Support | Yes | No | |
Hadoop Security | No | Supports Kerberos Authentication. | |
Usage | Ideal for project up-gradation | Ideal for starting New Project. | |
Fault-Tolerant | Hive is Fault Tolerant. | Does not Supports Fault tolerance. | |
Complex Types | Hive supports complex types. | Impala does not support complex types. | |
Database Type | Hive is a batch-based Hadoop MapReduce. | It is MPP database | |
Interactive Computing | Does not support Interactive computing. | Supports Interactive Computing. | |
Execution | Hive query has a problem with ”Cold Start” | Impala process always starts at the Boot-time of Daemons. | |
Resource Management | YARN | Native *YARN | |
Distributions | HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) | Cloudera MapR, (*Amazon EMR) |
|
Audience | Data Engineers | Data Analyst/Data Scientists | |
läpimeno | Suuri läpimeno | pieni läpimeno |
johtopäätös
tässä artikkelissa on kokeiltu showcase, että mitä ovat kaksi teknologiaa eli Hive vs Impala ovat ja myös näiden teknologioiden perusero. Käytännössä voimme sanoa, että Hive ja Impala eivät ole kilpailijoita ne molemmat kuuluvat samaan säätiöön, joka tunnetaan MapReduce suorittaa kyselyt, käyttö molemmat voivat luoda eron. Tarpeemme mukaan voimme käyttää sitä yhdessä tai parhaiten yhteensopivuuden, tarpeen ja suorituskyvyn mukaan. Hive query language on Hive QL, joka on erittäin monipuolinen ja universaali kieli, kun taas Impala on muisti intensiivistä ja ei toimi hyvin raskaiden dataoperaatioiden käsittelyyn esimerkiksi liity kyselyihin. Jos projektissasi työ liittyy suuren tietomäärän eräkäsittelyyn, pesä on siinä tapauksessa parempi ja jos työsi liittyy reaaliaikaiseen datakyselyn prosessiin, Impala on siinä tapauksessa parempi.
suositellut artikkelit
Tämä on ollut opas Hive vs Impala. Täällä olemme keskustelleet Hive vs Impala head to head vertailu, keskeiset erot, sekä infografiikka ja vertailutaulukko. Voit myös katsoa seuraavia artikkeleita oppiaksesi lisää –
- Apache Hive vs Apache Spark SQL – 13 Amazing Differences
- Hive VS HUE – Top 6 hyödyllisiä vertailuja oppiaksesi
- Apache Pig vs Apache Hive – Top 12 hyödyllisiä eroja
- Hadoop vs Hive – selvitä parhaat erot
- Complete Guide to Impala Database
käyttämällä järjestystä Funktion mukaan Hivessä