Rozdíl Mezi Úl vs Impala
Úlu je datový sklad software projekt postaven na vrcholu APACHE HADOOP vyvinut Jeff tým na Facebook s aktuální stabilní verze 2.3.0 vydáno. Používá se pro shrnutí velkých dat a usnadňuje dotazování a analýzu. Apache Hive je efektivní standard pro SQL-in Hadoop. Impala je paralelní zpracování SQL dotazu motor, který běží na Apache Hadoop a použít ke zpracování dat, která ukládá v HBase (Hadoop Database) a Hadoop distribuovaný souborový systém. Impala je open-source produkt pro paralelní zpracování (MPP) SQL query engine pro data uložená v místním systému clusteru běží na Apache Hadoop. Apache Hive a Impala jsou klíčové části systému Hadoop.
pojďme tedy podrobně studovat úl i impalu:
Začněte Svůj Volný Dat Vědy Kurzu,
Hadoop, Data Science, Statistiky & ostatní
ÚLU,
- Apache Hive pomáhá analyzovat obrovské datové sady uložené v Hadoop file system (HDFS) a další kompatibilní systémy souborů.
- Hive QL – pro dotazování dat uložených v klastru Hadoop.
- využívá škálovatelnost Hadoop překladem.
- úl není úplná databáze.
- neposkytuje aktualizace na úrovni záznamu.
- Hadoop je dávkově orientovaný systém.
- Hive dotazy mají vysokou latenci kvůli MapReduce.
- úl neposkytuje funkce, které jsou blízké OLAP.
- nejvhodnější pro aplikace datového skladu.
- provedení dotazu pomocí MapReduce.
- dotazovací jazyk lze použít s vlastní skalární funkce (UDF), agregace (UDAF), a tabulky funkce (UDTF).
- úl také poskytuje indexování pro urychlení, typ indexu včetně zhutnění a Bitmapový index od 0.10, jsou plánovány další typy indexů.
- typy úložiště podporované Hive jsou RCfile, HBase, ORC a prostý text.
- SQL dotazy (Hive QL), které jsou implicitně převedeny na MapReduce nebo Tez, nebo Spark úlohy.
- ve výchozím nastavení Hive ukládá metadata do Vložené databáze Apache Derby.
IMPALA
- Impala je dotazovací modul, který běží na Hadoop. To veřejná beta testovací distribuce byla oznámena v říjnu 2012 a stal se obecně k dispozici v květnu 2013.
- podporuje HDFS Apache HBase storage a Amazon S3.
- čte formáty souborů Hadoop, včetně textu, parkety, Avro, RCFile, LZO a sekvenčního souboru.
- podporuje Hadoop Security (ověřování Kerberos).
- používá metadata, ovladač ODBC a syntaxi SQL z Apache Hive.
- podporuje více kompresní kodeky:
(a), Elegantní (Doporučuje pro její efektivní rovnováhu mezi kompresní poměr a rychlost dekomprese),
(b) Gzip (Doporučuje při dosažení nejvyšší úrovně komprese),
(c) Vyfouknout (nejsou podporovány pro textové soubory), Bzip2, LZO (pouze pro textové soubory);
- umožňuje dotaz na vnořené struktury včetně map, struktur a polí.
- umožňuje víceuživatelským souběžným dotazům a také umožňuje kontrolu přijetí na základě prioritizace a fronty dotazů.
srovnání mezi úlem a Impalou (infografika)
níže je 20 nejlepších srovnání mezi úlem a Impalou:
hlavní Rozdíl Mezi Mateřskou a Impala
rozdíly mezi Úl a Impala jsou vysvětleny v bodech uvedeny níže:
- Úlu je vyvinut Jeff tým na Facebook, ale Impala je vyvinut společností Apache Software Foundation.
- Hive podporuje formát souboru optimalizovaného row columnar (ORC) formátu s kompresí Zlib, ale Impala podporuje formát parkety s pohotovou kompresí.
- Hive je napsán v Javě, ale Impala je napsán v C++.
- rychlost zpracování dotazu v úlu je pomalá, ale Impala je 6-69 krát rychlejší než úl.
- v úlu je latence vysoká, ale v Impala je latence nízká.
- Hive podporuje ukládání RC souborů a ORC, ale Impala storage podporuje Hadoop a Apache HBase.
- úl generuje výraz dotazu v době kompilace, ale v Impala generování kódu pro „velké smyčky“ se děje za běhu.
- úl nepodporuje paralelní zpracování, ale Impala podporuje paralelní zpracování.
- úl podporuje MapReduce, ale Impala nepodporuje MapReduce.
- v úlu neexistuje žádná bezpečnostní funkce, ale Impala podporuje ověřování Kerberos.
- při upgradu jakéhokoli projektu, kde je důležitá kompatibilita a rychlost, je úl ideální volbou, ale pro nový projekt je Impala ideální volbou.
- úl je odolný proti chybám, ale Impala nepodporuje odolnost proti chybám.
- úl podporuje komplexní typ, ale Impala nepodporuje složité typy.
- Hive je dávkový Hadoop MapReduce, ale Impala je databáze MPP.
- úl nepodporuje interaktivní výpočty, ale Impala podporuje interaktivní výpočty.
- Hive query má problém s „studeným startem“, ale v procesu Impala daemon jsou spuštěny při samotném spuštění.
- Hive resource manager je příze (ještě další vyjednavač zdrojů), ale v Impala resource manager je nativní příze .
- distribuce úlu jsou všechny distribuce Hadoop, Hortonworks (Tez, LLAP), ale v distribuci Impala jsou Cloudera MapR (*Amazon EMR).
- publikum úlu je datové inženýry, ale v Impala publikum jsou data Analyst / datové vědci.
- propustnost úlu je vysoká, ale v Impale je propustnost nízká.
primární srovnání mezi úlem a Impalou je popsáno níže.
sériové číslo. | Basis For Comparison | Hive | Impala |
Developed By | Apache Software Foundation |
||
File Format |
|
|
|
Language | Written in JAVA | Written in C++ | |
Processing Speed | Hive is Slow | Impala is Fast | |
Latency | High | Low | |
Storage Support | RC file, ORC | Hadoop, Apache HBase | |
Code Conversion | Generates query expression at compile time | Code generation happens at runtime. | |
Supports Parallel Processing | No | Yes | |
MapReduce Support | Yes | No | |
Hadoop Security | No | Supports Kerberos Authentication. | |
Usage | Ideal for project up-gradation | Ideal for starting New Project. | |
Fault-Tolerant | Hive is Fault Tolerant. | Does not Supports Fault tolerance. | |
Complex Types | Hive supports complex types. | Impala does not support complex types. | |
Database Type | Hive is a batch-based Hadoop MapReduce. | It is MPP database | |
Interactive Computing | Does not support Interactive computing. | Supports Interactive Computing. | |
Execution | Hive query has a problem with „Cold Start“ | Impala process always starts at the Boot-time of Daemons. | |
Resource Management | YARN | Native *YARN | |
Distributions | HIVE – all Hadoop Distributions, Hortonworks (Tez, LLAP) | Cloudera MapR, (*Amazon EMR) |
|
Audience | Data Engineers | Data Analytik/Data Vědci | |
Propustnost | Vysoký výkon | Nízká Propustnost |
Závěr
V tomto článku, jsme se snažili předvést to, co jsou dvě technologie, a to Úl vs Impala jsou a také základní rozdíl mezi těmito technologiemi. Z praktického hlediska, můžeme říci, že Úlu a Impala nejsou konkurenti, oba patří do stejné nadace, který je znám jako MapReduce pro vykonávání dotazů, použití obou může vytvořit rozdíl. Podle naší potřeby ji můžeme použít společně nebo nejlépe podle kompatibility, potřeby a výkonu. Hive query language je Hive QL, což je velmi univerzální a univerzální jazyk, zatímco Impala je náročná na paměť a nefunguje dobře pro zpracování těžkých datových operací, například spojení dotazů. Pokud v projektu práce souvisí s dávkové zpracování pro velké množství dat, Úl bude lepší v tomto případě, a je-li vaše práce je spojena s real-time proces ad-hoc dotazu na data pak Impala bude lepší v tomto případě.
doporučené články
toto byl průvodce pro úl vs Impala. Zde jsme diskutovali o srovnání úlu vs Impala head to head, klíčové rozdíly, spolu s infografikou a srovnávací tabulkou. Můžete se také podívat na následující články se dozvědět více,
- Apache Hive vs Apache Spark SQL – 13 Úžasné Rozdíly
- Úl VS HUE – Top 6 Užitečné Srovnání Se Naučit
- Apache Prase vs Apache Hive – Top 12 Užitečných Rozdíly
- Hadoop vs Hive – zjistěte si, Nejlepší Rozdíly
- Pomocí ORDER Funkce v Úlu
- Kompletní Průvodce Impala Databáze