Big Data ecosystem

to není ‚ nyní den velkých dat.. příběh, který dal vzniknout této éře velkých dat, ale už dávno…‘ lidé začal sbírat informace prostřednictvím manuální průzkumy, webové stránky, senzory, soubory a jiné formy sběru dat, metody. I to zahrnuje mezinárodní organizace jako WHO, OSN, kteří shromažďují mezinárodně všechny možné soubory informací pro monitorování a sledování činnosti souvisí nejen s lidmi, ale vegetace a živočišných druhů, aby se důležitá rozhodnutí a provádět požadované akce.

Tak velké nadnárodní společnosti, zejména elektronického obchodu a marketingu společnosti začaly využívat stejné strategie, jak sledovat a monitorovat zákaznické aktivity na podporu značky a produkty, které vedly k analytics větev. Teď už to bude saturovat tak snadno, jako společnosti si uvědomili skutečnou hodnotu dat pro užívání základních rozhodnutí v každé fázi projektu, od začátku až do konce na vytvoření nejlepší optimalizované řešení z hlediska nákladů, množství, trh, zdroje a vylepšení.

V velkých dat jsou objem, rychlost, rozmanitost, pravdivost, valence a hodnota a každý má dopad na sběr dat, Monitorování, ukládání, analýzu a vykazování. Ekosystém z hlediska technologických hráčů big data systému je, jak je vidět níže.

Teď jsem se bude diskutovat o každé technologii, jeden po druhém dát pohled na to, co je důležité, komponenty a rozhraní.

Jak extrahovat data ze sociálních médií z Facebook, Twitter a linkedin do jednoduchého souboru csv pro další zpracování.

abyste mohli extrahovat data z Facebook pomocí kódu python, musíte se zaregistrovat jako vývojář na Facebook a poté mít přístupový token. Zde jsou kroky pro to.

1. Přejít na odkaz developers.facebook.com, Vytvořte si tam účet.

2. Přejít na odkaz developers.facebook.com/tools/explorer.

3. V pravém horním rohu přejděte na“ moje aplikace „a vyberte“Přidat novou aplikaci“. Vyberte zobrazovaný název a kategorii a poté „Vytvořit ID aplikace“.

4. Znovu se vrátit na stejný odkaz developers.facebook.com/tools/explorer. Uvidíte „Graph API Explorer“ pod „Moje Aplikace“ v pravém horním rohu. Z rozbalovací nabídky „Graph API Explorer“ vyberte aplikaci.

5. Poté vyberte „získat Token“. Z tohoto rozevíracího seznamu vyberte „získat Token přístupu uživatelů“. V zobrazené nabídce vyberte oprávnění a poté vyberte “ získat přístupový Token.“

6. Přejít na odkaz developers.facebook.com/tools/accesstoken. vyberte „Debug“ odpovídající „User Token“. Přejděte na „rozšířit přístup k tokenu“. Tím zajistíte, že váš token nevyprší každé dvě hodiny.

Python kód pro přístup k veřejným datům Facebook:

přejděte na odkaz https://developers.facebook.com/docs/graph-api pokud chcete shromažďovat data o čemkoli, co je veřejně dostupné. Viz https://developers.facebook.com/docs/graph-api / reference / v2. 7/. Z této dokumentace vyberte libovolné pole, ze kterého chcete extrahovat data, například „skupiny “ nebo“ stránky “ atd. Přejděte na příklady kódů poté, co jste je vybrali, a poté vyberte „facebook graph api“ a získáte rady, jak extrahovat informace. Tento blog je primárně o získávání dat o událostech.

nejprve importujte ‚urllib3‘, ‚facebook‘, ‚požadavky‘, pokud jsou již k dispozici. Pokud ne, stáhněte si tyto knihovny. Definujte proměnný token a nastavte jeho hodnotu na to, co jste dostali výše jako „Token přístupu uživatelů“.

Získávání dat z Twitteru:

Jednoduché 2 kroky lze sledovat jako pod

Budete půjčovat na stránku s podrobnostmi aplikace; přejděte na kartu „klíče a přístupové tokeny“, přejděte dolů a klikněte na „Vytvořit můj přístupový token“. Všimněte si hodnoty API Keyand API Secret pro budoucí použití. Nebudete sdílet tyto s nikým, jeden může přistupovat ke svému účtu, pokud se dostanou klíče.
Za účelem získání tweety, které budete potřebovat k vytvoření zabezpečeného připojení mezi R a Twitter takto,

#Jasné R. Prostředí
rm(list=ls())
#Načtení potřebné knihovny
instalovat.balíčky („twitteR“)
nainstalovat.balíčky („ROAuth“)
knihovna („twitteR“)
knihovna („ROAuth“)
# stáhněte soubor a uložte do pracovního adresáře
stáhnout.soubor (url= „http://curl.haxx.se/ca/cacert.pem“, destfile= “ cacert.pem“)

#Vložit consumerKey a consumerSecret níže
pověření <- OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX‘,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX‘,
requestURL=’https://api.twitter.com/oauth/request_token‘,
accessURL=’https://api.twitter.com/oauth/access_token‘,
authURL=’https://api.twitter.com/oauth/authorize‘)
cred$handshake(cainfo=“cacert.pem“)
#Load Authentication Data
load („twitter authentication.Rdata“)

#Registru Twitter Ověřování
setup_twitter_oauth(pověření$consumerKey, pověření$consumerSecret, pověření$oauthKey, pověření$oauthSecret)
#Extrakt Tweety s dotčenými řetězec(první argument), následuje počet tweetů (n) a jazyk (lang)
tweety <- searchTwitter(‚#DataLove‘, n=10, lang=“cs“)

Nyní můžete vyhledávat jakékoliv slovo v hledání Twitter funkce na výpis tweetů obsahujících slovo.

extrahování dat z Oracle ERP

můžete navštívit odkaz a zkontrolovat krok za krokem extrakci souboru csv z databáze oracle ERP cloud.

sběr a ukládání dat:

Nyní, jakmile jsou data extrahována, musí být uložena a zpracována, což děláme v kroku získávání a ukládání dat.
podívejme se, jak funguje Spark, Cassandra, Flume, HDFS, HBASE.

Spark

Spark lze nasadit různými způsoby, poskytuje nativní vazby pro programovací jazyky Java, Scala, Python a R a podporuje SQL, streamování dat, strojové učení a zpracování grafů.
RDD je framework pro spark, který pomůže při paralelním zpracování dat rozdělením do datových rámců.
Chcete-li číst data z platformy Spark, použijte níže uvedený příkaz

results = spark.sql („Select * From people“)
names = results.mapa (lambda p: p.name)
Připojte se k libovolnému zdroji dat, jako je json, JDBC, Hive, a Zažehněte pomocí jednoduchých příkazů a funkcí. Stejně jako si můžete přečíst json data jak je uvedeno níže

spark.přečíst.json („s3n://…“).registerTempTable („json“)
results = spark.sql („SELECT * FROM people JOIN json …“)

Spark se skládá z více funkcí, jako je streamování ze zdrojů dat v reálném čase, které jsme viděli výše pomocí zdroje R a python.

na hlavním webu apache spark najdete mnoho příkladů, které ukazují, jak může spark hrát roli při extrakci dat, modelování.
https://spark.apache.org/examples.html

Cassandra:

Cassandra je také technologie jako Apache spark pro ukládání a načítání dat a ukládání ve více uzly poskytují 0 fault tolerance. Používá běžné databázové příkazy, jako je vytváření, výběr, Aktualizace a mazání operací. Také si můžete vytvořit indexy, zhmotnil a normální zobrazení s jednoduchými příkazy jako v SQL. Rozšíření je můžete použít JSON datový typ pro provedení další operace, jako je, jak je vidět níže.

Vložit do tabulka JSON ‚{ „\“myKey\““: 0, „value“: 0}‘

To poskytuje git hub open source ovladače, které mají být použity s .net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.

při konfiguraci databáze je třeba nakonfigurovat počet uzlů podle názvů uzlů, přidělit token na základě zatížení každého uzlu. Můžete také použít příkazy autorizace a role pro správu oprávnění na úrovni dat nad daným uzlem.

Pro více informací můžete odkazovat na daný odkaz
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

Casandra slibuje, že dosáhne 0 fault tolerance, protože poskytují více možností pro správu dat na daném uzlu ukládání do mezipaměti, řízení transakcí, replikace, souběžnosti pro čtení a píše, disk optimalizace příkazů, řízení dopravy a délku dat velikost rámu.

HDFS

Co se mi na HDFS nejvíce líbí, je jeho ikona, jumbo slon silný a odolný jako samotný HDFS.

Jak je vidět na výše uvedeném grafu, HDFS systému pro zpracování velkých objemů dat je podobný jako Cassandra, ale poskytuje velmi jednoduché rozhraní s externími systémy.
Data jsou rozdělena do různých nebo podobných datových rámců, které jsou uloženy v distribuovaném souborovém systému. Data jsou dále přenášena do různých uzlů na základě optimalizovaných výsledků dotazu pro ukládání dat. Základní architekturou je centralizovaný model Hadoop if Map reduce model.
1. Data jsou rozdělena do bloků řekněme 128 MB
2. Tato data jsou pak distribuována v různých uzlech
3. HDFS dohlíží na zpracování
4. Replikace a ukládání do mezipaměti se provádí pro dosažení maximální odolnosti proti chybám.
5. po mapě a snížení se provádí a zaměstnanost úspěšně počítačová, jdou zpět na hlavní server.

Hadoop je především kódované v jazyce Java, tak jeho skvělé, když můžete získat nějaké ruce na Java, než to bude rychlé a snadné nastavení a spustit všechny ty příkazy.
rychlý průvodce pro všechny Hadoop související koncept lze nalézt na níže uvedený odkaz
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

Reporting a Vizualizace

Nyní se Pojďme mluvit o SAS, R studio a Kime, které jsou používány pro analýzu velkých souborů údajů s pomocí složité algoritmy, což jsou algoritmy strojového učení, které jsou založeny na nějaké složité matematické modely, které analýz úplný soubor údajů a vytváří grafickou reprezentaci k účasti na konkrétní požadované obchodní cíle. Ukázkové údaje o prodeji, potenciál trhu zákazníků, využití zdrojů atd.

SAS, R a Kinme všechny tři nástroje nabízí širokou škálu funkcí od pokročilé analytiky, IOT, strojového učení, metodiky řízení rizik, bezpečnostní inteligence.

ale protože z nich je jeden komerční a další 2 jsou open source, mají mezi nimi některé velké rozdíly.

místo toho, abych procházel každou z nich jeden po druhém, shrnul jsem všechny softwarové rozdíly a několik užitečných tipů, které o nich hovoří.

sběr a ukládání dat:

Reporting a Vizualizace

Napsat komentář Zrušit odpověď na komentář