Big data ökoszisztéma

Ez nem ‘ most egy nap Big data.. a történet, amely a big data korszakát hozta létre, de ‘nagyon régen …’ az emberek kézi felmérésekkel, weboldalakkal, érzékelőkkel, fájlokkal és más adatgyűjtési módszerekkel kezdtek információkat gyűjteni. Ez magában foglalja az olyan nemzetközi szervezeteket is, mint a WHO, az ENSZ, amely nemzetközileg összegyűjtötte az összes lehetséges információkészletet a nem csak az emberekkel, hanem a növényzettel és az állatfajokkal kapcsolatos tevékenységek nyomon követéséhez és nyomon követéséhez, hogy fontos döntéseket hozzon és végrehajtsa a szükséges intézkedéseket.

tehát a nagy multinacionális vállalatok, különösen az e-kereskedelmi és marketing cégek, ugyanazt a stratégiát kezdték használni az ügyfelek tevékenységének nyomon követésére és nyomon követésére a márkák és termékek népszerűsítésére, amelyek az analitikai ágat hozták létre. Most nem fog olyan könnyen telítődni, mivel a vállalatok felismerték az alapvető döntések meghozatalának valódi értékét a projekt minden szakaszában az elejétől a végéig, hogy a költség, a mennyiség, a piac, az erőforrások és a fejlesztések szempontjából a legjobb optimalizált megoldásokat hozzák létre.

a nagy adatok V-je a térfogat, a sebesség, a változatosság, a Valencia, a Valencia és az érték, és mindegyik hatással van az adatgyűjtésre, a megfigyelésre, a tárolásra, az elemzésre és a jelentésre. Az ökoszisztéma a big data rendszer technológiai szereplői szempontjából az alábbiakban látható.

most egyenként fogom megvitatni az egyes technológiákat, hogy bepillantást nyerjünk a fontos összetevőkbe és interfészekbe.

hogyan lehet adatokat kinyerni a közösségi média adataiból a Facebook, a Twitter és a linkedin egyszerű csv fájlba további feldolgozás céljából.

ahhoz, hogy python kóddal kinyerhesse az adatokat a Facebook-ból, regisztrálnia kell fejlesztőként a Facebook-on, majd hozzáférési tokennel kell rendelkeznie. Itt vannak a lépések.

1. Tovább a linkhez developers.facebook.com, hozzon létre egy fiókot ott.

2. Tovább a linkhez developers.facebook.com/tools/explorer.

3. Lépjen a ” saját alkalmazások “legördülő menübe a jobb felső sarokban, majd válassza az”új alkalmazás hozzáadása” lehetőséget. Válasszon egy megjelenítési nevet és egy kategóriát, majd az “Alkalmazásazonosító létrehozása”lehetőséget.

4. Ismét térjen vissza ugyanarra a linkre developers.facebook.com/tools/explorer.a jobb felső sarokban a “Saját alkalmazások” alatt a “Graph API Explorer” jelenik meg. Tól től “Graph API Explorer” legördülő, válassza ki az alkalmazást.

5. Ezután válassza a “Get Token” lehetőséget. Ebből a legördülő menüből válassza a “felhasználói hozzáférési Token beszerzése”lehetőséget. A megjelenő menüből válassza az engedélyek lehetőséget, majd válassza a “hozzáférési Token beszerzése” lehetőséget.”

6. Tovább a linkhez developers.facebook.com/tools/accesstoken.válassza a “felhasználói tokennek” megfelelő “hibakeresés”lehetőséget. Lépjen a “Token hozzáférés kiterjesztése”pontra. Ez biztosítja, hogy a token nem jár le kétóránként.

Python kód a Facebook nyilvános adatainak eléréséhez:

ugrás ahttps://developers.facebook.com/docs/graph-api linkre, ha adatokat szeretne gyűjteni bármiről, ami nyilvánosan elérhető. Lásd https://developers.facebook.com/docs/graph-api / reference / v2.7/. Ebből a dokumentációból válassza ki azt a mezőt, amelyből adatokat szeretne kinyerni, például “csoportok” vagy “oldalak” stb. A kódok példáihoz, miután kiválasztotta ezeket, majd válassza a “facebook graph api” lehetőséget, és tippeket kap az információk kinyerésére. Ez a blog elsősorban az események adatainak megszerzéséről szól.

először importálja az ‘urllib3’, ‘facebook’, ‘kérések’ elemet, ha azok már elérhetők. Ha nem, töltse le ezeket a könyvtárakat. Adjon meg egy változó Tokent, és állítsa be annak értékét arra, amit fent kapott, mint “felhasználói hozzáférési Token”.

adatok kinyerése a Twitterről:

egyszerű 2 lépés követhető az alábbiak szerint

  1. az alkalmazás részletei oldalon kölcsönözhet; lépjen a ‘kulcsok és hozzáférési tokenek’ fülre, görgessen lefelé, majd kattintson a ‘saját hozzáférési token létrehozása’gombra. Jegyezze fel az API Keyand API Secret értékeit későbbi felhasználásra. Nem osztod meg ezeket senkivel, hozzáférhetsz a fiókodhoz, ha megkapják a kulcsokat.
  2. annak érdekében, hogy kivonat tweets, akkor létre kell hozni egy biztonságos kapcsolatot R és a Twitter az alábbiak szerint,

#Clear R környezet
rm(list=ls())
#Load szükséges könyvtárak
install.csomagok (“twitteR”)
telepítés.csomagok (“ROAuth”)
könyvtár (“twitteR”)
könyvtár (“ROAuth”)
# töltse le a fájlt, és tárolja a munkakönyvtárban
letöltés.fájl (url = ” http://curl.haxx.se/ca/cacert.pem”, destfile= ” cacert.pem”)

#helyezze be a consumerKey és consumerSecret alábbi
hitelesítő < – OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
accessURL=’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
cred$kézfogás(cainfo= ” cacert.pem”)
#load hitelesítési adatok
load (“twitter hitelesítés.Rdata”)

#regisztráció Twitter hitelesítés
setup_twitter_oauth(hitelesítő$consumerKey, hitelesítő$consumerSecret, hitelesítő$oauthKey, hitelesítő$oauthSecret)
#kivonat Tweets az érintett string(első argumentum), majd számos tweets (n) és a nyelv (lang)
tweets <- searchTwitter(‘#DataLove’, n=10, lang=”en”)

most lehet keresni minden szót a keresési Twitter funkció kivonat a tweets tartalmazó szót.

adatok kinyerése az Oracle ERP-ből

látogasson el a linkre, hogy lépésről lépésre ellenőrizze a csv fájl kivonását az oracle ERP cloud database-ből.

adatgyűjtés és tárolás:

Az adatok kinyerése után azokat tárolni és feldolgozni kell, amit az adatgyűjtési lépésben és tárolásban teszünk.
lássuk, hogyan működik a Spark, Cassandra, Flume, HDFS, HBASE.

Spark

A Spark sokféle módon telepíthető, natív kötéseket biztosít a Java, Scala, Python és R programozási nyelvekhez, és támogatja az SQL-t, az adatfolyamot, a gépi tanulást és a gráffeldolgozást.
az RDD a Spark keretrendszere, amely segít az adatok párhuzamos feldolgozásában azáltal, hogy adatkeretekbe osztja őket.
a Spark platform adatainak olvasásához használja az alábbi

results = spark parancsot.sql (“Select * from people”)
nevek = eredmények.térkép (lambda p: p.name)
kapcsolódni bármilyen adatforrás, mint a json, JDBC, Hive Spark segítségével egyszerű parancsokat és funkciókat. Mint tudod olvasni json adatok az alábbiak szerint

spark.olvasd.json (“s3n://…”).registerTempTable (“json”)
results = spark.sql (“SELECT * from people JOIN json…”)

A Spark több olyan funkciót tartalmaz, mint a valós idejű adatforrásokból történő streaming, amelyet fent láttunk az R és a python forrás használatával.

az apache Spark fő webhelyén számos példát talál, amelyek megmutatják, hogy a spark hogyan játszhat szerepet az adatok kinyerésében, modellezésében.
https://spark.apache.org/examples.html

Cassandra:

Cassandra is egy Apache technológia, mint a spark tárolására és visszakeresésére adatok és tárolás több csomópont, hogy 0 hibatűrés. Normál adatbázis-parancsokat használ, mint például a létrehozás, kiválasztás, frissítés és törlés műveletek. Is létrehozhat indexek, materializált és normál nézet egyszerű parancsokat, mint az SQL. Extension használhatja JSON adattípus elvégzésére További műveletek, mint az alább látható

helyezze be mytable JSON ‘{ “\”myKey\””: 0, “érték”: 0}’

Ez biztosítja git hub nyílt forráskódú illesztőprogramokat kell használni.Net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.

az adatbázis konfigurálásakor konfigurálnia kell a csomópontok számát csomópontnevek szerint, kiosztani a tokent az egyes csomópontok terhelése alapján. Jogosultsági és szerepparancsokkal is kezelheti az adatszintű engedélyt egy adott csomóponton.

további részletekért hivatkozhat a megadott linkre
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

a Casandra 0 hibatűrést ígér, mivel több lehetőséget kínál az adatok kezelésére egy adott csomóponton gyorsítótárazással, tranzakciókezeléssel, replikációval, olvasási és írási párhuzamossággal, lemezoptimalizálási parancsokkal, a szállítás és az adatkeret méretének kezelésével.

HDFS

amit a legjobban szeretek a HDFS-ben, az az ikonja, egy hatalmas elefánt, erős és rugalmas, mint maga a HDFS.

amint az a fenti ábrán látható, a HDFS rendszer a nagy adatokhoz hasonló, mint a Cassandra, de nagyon egyszerű kapcsolatot biztosít a külső rendszerekkel.
az adatokat különböző vagy hasonló méretű adatkeretekre vágják, amelyeket elosztott fájlrendszerben tárolnak. Az adatokat az optimalizált lekérdezési eredmények alapján továbbítjuk a különböző csomópontokba az adatok tárolására. Az alapvető architektúra a Hadoop if Map reduce modell központosított modellje.
1. Az adatok vannak osztva blokkok mondjuk 128 MB
2. Ezek az adatok, mint elosztott különböző csomópontok
3. HDFS felügyeli a feldolgozás
4. A replikáció és a gyorsítótár a maximális hibatűrés elérése érdekében történik.
5. a map és a reduce végrehajtása és a feladatok sikeres kiszámítása után visszatérnek a fő szerverhez

a Hadoop főleg Java-ban van kódolva, így nagyszerű, ha kapsz egy kis kezét a Java-ra, mint amilyen gyorsan és egyszerűen beállítható és futtatható az összes parancs.
Egy gyors útmutató az összes Hadoop kapcsolatos koncepció megtalálható az alábbi linken
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

jelentési és vizualizációs

most beszéljünk SAS, R studio és kime amelyek elemzésére használt nagy adathalmazok segítségével komplex algoritmusok, amelyek gépi tanulási algoritmusok, amelyek alapján néhány komplex matematikai modellek, amelyek elemzi a teljes adathalmazt, és létrehozza a grafikus ábrázolás, hogy részt vegyen konkrét kívánt üzleti cél. Példa értékesítési adatokra, vevői piaci potenciálra, erőforrás-kihasználtságra stb.

SAS, R és Kinme mindhárom eszköz a fejlett analitika, az IOT, a gépi tanulás, a kockázatkezelési módszerek és a biztonsági intelligencia széles skáláját kínálja.

de mivel ezek közül az egyik kereskedelmi, a másik 2 pedig nyílt forráskódú, jelentős különbségek vannak közöttük.

ahelyett, hogy mindegyiket egyenként átnézném, összefoglaltam az egyes szoftverkülönbségeket és néhány hasznos tippet, amelyek róluk szólnak.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.