Hive vs Impala

Hive vs Impala

Hive vs Impala

különbség a Hive vs Impala között

a hive egy adattárház szoftverprojekt, amely az Apache Hadoop tetejére épült, amelyet Jeff csapata fejlesztett ki a Facebook-on, a 2.3.0 jelenlegi stabil verziójával. Nagy adatok összegzésére szolgál, és megkönnyíti a lekérdezést és az elemzést. Az Apache Hive hatékony szabvány az SQL számára-a Hadoop-ban. Az Impala egy párhuzamos feldolgozó SQL lekérdező motor, amely az Apache Hadoop-on fut, és a HBase (Hadoop adatbázis) és a Hadoop elosztott fájlrendszerben tárolt adatok feldolgozására szolgál. Impala egy nyílt forráskódú termék párhuzamos feldolgozás (MPP) SQL lekérdező motor tárolt adatok egy helyi rendszer fürt futó Apache Hadoop. Az Apache Hive És az Impala egyaránt kulcsfontosságú részei a Hadoop rendszernek.

tehát részletesen tanulmányozzuk mind a Hive-t, mind az Impalát:

indítsa el az ingyenes adattudományi tanfolyamot

Hadoop, Data Science, Statistics & egyéb

Hive

  • az Apache Hive segít a Hadoop fájlrendszerben (HDFS) és más kompatibilis fájlrendszerekben tárolt hatalmas adatállomány elemzésében.
  • Hive QL – a Hadoop fürtben tárolt adatok lekérdezéséhez.
  • kihasználja a Hadoop skálázhatóságát fordítással.a
  • Hive nem teljes adatbázis.
  • nem biztosít rekordszintű frissítéseket.
  • Hadoop kötegelt orientált rendszer.
  • A Kaptár lekérdezések nagy késéssel rendelkeznek a MapReduce miatt.
  • A Hive nem nyújt olyan funkciókat, amelyek közel állnak az OLAP-hoz.
  • legalkalmasabb adattárház Alkalmazások.
  • Lekérdezés végrehajtása MapReduce segítségével.
  • a lekérdezési nyelv használható egyéni skalárfüggvényekkel (UDF-ek), összesítésekkel (UDAF-k) és táblázatfüggvényekkel (UDTF-ek).
  • A Hive indexelést is biztosít a gyorsításhoz, index típus, beleértve a tömörítést és a bitmap indexet 0,10-től, több indextípust terveznek.
  • A Hive által támogatott Tárolótípusok az RCfile, HBase, ORC és Plain text.
  • SQL-szerű lekérdezések (Hive QL), amelyeket implicit módon MapReduce vagy Tez vagy Spark feladatokká alakítanak át.
  • alapértelmezés szerint a Hive a metaadatokat egy beágyazott Apache Derby adatbázisban tárolja.

IMPALA

  • az Impala egy lekérdező motor, amely Hadoop-on fut. Az IT nyilvános béta teszt terjesztését 2012 októberében jelentették be, és 2013 májusában vált általánosan elérhetővé.
  • támogatja a HDFS Apache HBase storage és az Amazon S3.
  • beolvassa a Hadoop fájlformátumokat, beleértve a text, parketta, Avro, RCFile, LZO és Sequence fájlt.
  • támogatja a Hadoop biztonságot (Kerberos hitelesítés).
  • metaadatokat, ODBC illesztőprogramot és SQL szintaxist használ az Apache Hive-ből.
  • több Tömörítési kodeket támogat:

(A) Snappy (a tömörítési arány és a dekompressziós sebesség közötti hatékony egyensúly érdekében ajánlott),

(b) Gzip (a legmagasabb tömörítési szint elérésekor ajánlott),

(c) Deflate (szöveges fájlok esetén nem támogatott), Bzip2, LZO (csak szöveges fájlok esetén);

  • ez lehetővé teszi, hogy lekérdezést a beágyazott struktúrák, beleértve a térképek, struktúrák, tömbök.
  • lehetővé teszi a többfelhasználós egyidejű lekérdezéseket, valamint lehetővé teszi a beléptetés ellenőrzését a lekérdezések rangsorolása és sorba állítása alapján.

Head to Head összehasonlítások a Hive és az Impala között (Infographics)

Az alábbiakban a Top 20 összehasonlítás a Hive és az Impala között:

Hive vs Impala

Hive vs Impala

a Hive és az Impala közötti legfontosabb különbség

a Hive és az Impala közötti különbségeket az alábbiakban ismertetett pontok magyarázzák:

  • A Hive-t Jeff csapata fejlesztette ki a Facebook-on, de a Hive-T A Hive-t a az impalát az Apache Software Foundation fejlesztette ki.
  • Hive támogatja fájlformátum optimalizált sor oszlopos (ORC) formátumban Zlib tömörítés, de Impala támogatja a parketta formátumban lendületes tömörítés.
  • A Hive Java nyelven íródott, de az Impala C++nyelven íródott.
  • a lekérdezés feldolgozási sebessége a Hive-ben lassú, de az Impala 6-69-szer gyorsabb, mint a Hive.
  • A Hive latencia magas, de Impala latencia alacsony.
  • A Hive támogatja az RC fájl és az ORC tárolását, de az Impala storage támogatja a Hadoop és az Apache HBase.
  • A Hive lekérdezési kifejezést generál fordítási időben, de az Impala kódgenerálásában a “nagy hurkok” futásidőben történik.
  • A Hive nem támogatja a párhuzamos feldolgozást, de az Impala támogatja a párhuzamos feldolgozást.
  • A Hive támogatja a MapReduce-t, de az Impala nem támogatja a MapReduce-t.
  • A Hive-ben nincs biztonsági funkció, de az Impala támogatja a Kerberos hitelesítést.
  • bármely olyan projekt frissítésekor, ahol a kompatibilitás és a sebesség egyaránt fontos, a Hive ideális választás, de egy új projekthez az Impala az ideális választás.
  • A Hive hibatűrő, de az Impala nem támogatja a hibatűrést.
  • A Hive támogatja a komplex típusokat, de az Impala nem támogatja a komplex típusokat.
  • A Hive kötegelt alapú Hadoop MapReduce, de az Impala MPP adatbázis.
  • A Hive nem támogatja az interaktív számítástechnikát, de az Impala támogatja az interaktív számítástechnikát.
  • Hive lekérdezés problémája van a “hidegindítás”, de Impala démon folyamat indul a rendszerindításkor is.
  • Hive resource manager fonal (még egy erőforrás tárgyaló), de Impala resource manager natív *fonal.
  • A Hive disztribúciók mind Hadoop disztribúciók, Hortonworks (Tez, LLAP), de az Impala disztribúcióban Cloudera MapR (*Amazon EMR).
  • Hive közönség Adatmérnökök, de Impala közönség adatelemző / adatok tudósok.
  • A Hive átviteli sebessége magas, de Impalában alacsony.

Hive És Impala összehasonlító táblázat

a Hive és az Impala közötti elsődleges összehasonlítást az alábbiakban tárgyaljuk.

sorozatszám. Basis For Comparison Hive Impala
Developed By Facebook Apache Software
Foundation
File Format
  • Sequence file.
  • Text File.
  • Optimized row columnar (ORC) format with Zlib compression.
  • RC file format.
  • parketta formatith
  • Avro
  • LZO
  • Szekvenciafájl.
Language Written in JAVA Written in C++
Processing Speed Hive is Slow Impala is Fast
Latency High Low
Storage Support RC file, ORC Hadoop, Apache HBase
Code Conversion Generates query expression at compile time Code generation happens at runtime.
Supports Parallel Processing No Yes
MapReduce Support Yes No
Hadoop Security No Supports Kerberos Authentication.
Usage Ideal for project up-gradation Ideal for starting New Project.
Fault-Tolerant Hive is Fault Tolerant. Does not Supports Fault tolerance.
Complex Types Hive supports complex types. Impala does not support complex types.
Database Type Hive is a batch-based Hadoop MapReduce. It is MPP database
Interactive Computing Does not support Interactive computing. Supports Interactive Computing.
Execution Hive query has a problem with “Cold Start” Impala process always starts at the Boot-time of Daemons.
Resource Management YARN Native *YARN
Distributions HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) Cloudera MapR,
(*Amazon EMR)
Audience Data Engineers Data Elemző/Adattudósok
áteresztőképesség nagy áteresztőképesség alacsony teljesítmény

következtetés

ebben a cikkben megpróbáltuk bemutatni, hogy mi a két technológia, nevezetesen a Hive vs Impala, valamint az alapvető különbség ezek között a technológiák között. Gyakorlatilag azt mondhatjuk, hogy a Hive és az Impala nem a versenytársak, mindketten ugyanahhoz az alapítványhoz tartoznak, amelyet MapReduce néven ismerünk a lekérdezések végrehajtásához, mindkettő használata okozhatja a különbséget. Igényeink szerint együtt használhatjuk, vagy a kompatibilitásnak, igénynek és teljesítménynek megfelelően a legjobbat. A Hive query language A Hive QL, amely nagyon sokoldalú és univerzális nyelv, míg az Impala memóriaigényes,és nem működik jól a nehéz adatműveletek feldolgozásához. Ha a projekt munkája nagy mennyiségű adat kötegelt feldolgozásával kapcsolatos, akkor a kaptár ebben az esetben jobb lesz, és ha a munkája az adatok ad-hoc lekérdezésének valós idejű folyamatához kapcsolódik, akkor az Impala jobb lesz ebben az esetben.

ajánlott cikkek

Ez egy útmutató A Hive vs Impala. Itt megvitattuk a Hive vs Impala head to head összehasonlítást, a legfontosabb különbségeket, valamint az infografikákat és az összehasonlító táblázatot. Ön is nézd meg a következő cikkeket, hogy többet –

  1. Apache Hive vs Apache Spark SQL – 13 csodálatos különbségek
  2. Hive VS HUE – Top 6 hasznos összehasonlításokat tanulni
  3. Apache Pig vs Apache Hive – Top 12 hasznos különbségek
  4. Hadoop vs Hive – megtudja, a legjobb különbségek
  5. A rend függvény Hive
  6. teljes útmutató Impala Adatbázis
2 rész

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.