big data ekosystem

det inte ’ nu en dag Big data..’berättelse som gav upphov till denna era av big data men ’för länge sedan…’ människor började samla in information via manuella undersökningar, webbplatser, sensorer, filer och andra former av datainsamlingsmetoder. Även detta inkluderar internationella organisationer som WHO, FN som samlade internationellt alla möjliga uppsättningar information för övervakning och spårning av aktiviteter som inte bara är relaterade till människor utan vegetation och djurarter för att fatta viktiga beslut och genomföra nödvändiga åtgärder.

så stora multinationella företag speciellt e-handel och marknadsföring företag började använda samma strategi för att spåra och övervaka kundaktiviteter för att främja varumärken och produkter som gav upphov till analytics branch. Nu kommer det inte att mätta så lätt som företag har insett det verkliga värdet av data för att ta kärnbeslut i varje fas av projektet från början till slut för att skapa bästa optimerade lösningar när det gäller kostnad, kvantitet, marknad, resurser och förbättringar.

V: erna för stora Data är volym, hastighet, variation, veracity, valence och value och varje påverkar datainsamling, övervakning, lagring, analys och rapportering. Ekosystemet när det gäller teknikspelare i big data system ses nedan.

nu kommer jag att diskutera varje teknik en efter en för att ge en glimt av vad de viktiga komponenter och gränssnitt.

hur man extraherar data från sociala medier från Facebook, Twitter och linkedin till enkel csv-fil för vidare bearbetning.

för att kunna extrahera data från Facebook med en python-kod måste du registrera dig som utvecklare på Facebook och sedan ha en åtkomsttoken. Här är stegen för det.

1. Gå till länk developers.facebook.com, skapa ett konto där.

2. Gå till länk developers.facebook.com/tools/explorer.

3. Gå till” Mina appar ”falla ner i det övre högra hörnet och välj”Lägg till en ny app”. Välj ett visningsnamn och en kategori och sedan ”Skapa App-ID”.

4. Återigen komma tillbaka till samma länk developers.facebook.com/tools/explorer. du kommer att se ”Graph API Explorer ”under” Mina appar ” i det övre högra hörnet. Från” Graph API Explorer ” drop down, välj din app.

5. Välj sedan”Get Token”. Från den här rullgardinsmenyn väljer du”få Användaråtkomsttoken”. Välj behörigheter från menyn som visas och välj sedan ”få åtkomsttoken.”

6. Gå till länk developers.facebook.com/tools/accesstoken. Välj” Debug ”som motsvarar”User Token”. Gå till”utöka Token Access”. Detta säkerställer att din token inte löper ut varannan timme.

Python-kod för att komma åt Facebook Public Data:

gå till länk https://developers.facebook.com/docs/graph-api om du vill samla in data om allt som är tillgängligt offentligt. Se https://developers.facebook.com/docs/graph-api / referens / v2. 7/. Från den här dokumentationen väljer du vilket fält du vill ha från vilket du vill extrahera data som ”grupper” eller ”sidor” etc. Gå till exempel på koder efter att ha valt dessa och välj sedan” facebook graph api ” så får du tips om hur du extraherar information. Den här bloggen handlar främst om att få händelsedata.

importera först ’urllib3’, ’facebook’, ’requests’ om de redan är tillgängliga. Om inte, ladda ner dessa bibliotek. Definiera en variabel token och ange dess värde till vad du fick ovan som ”Användaråtkomsttoken”.

extrahera data från Twitter:

enkla 2 steg kan följas enligt nedan

  1. Du kommer att låna ut på sidan för ansökningsdetaljer; flytta till fliken’ Keys and Access Tokens’, rulla ner och klicka på ’Create my access token’. Notera värdena för API Keyand API Secret för framtida användning. Du ska inte dela dessa med någon, man kan komma åt ditt konto om de får nycklarna.
  2. för att extrahera tweets måste du upprätta en säker anslutning mellan R och Twitter enligt följande,

#Clear R Environment
rm(list=ls())
#Ladda obligatoriska bibliotek
installera.paket (”twitteR”)
installera.paket (”ROAuth”)
library (”twitteR”)
library (”ROAuth”)
# Ladda ner filen och lagra i din arbetskatalog
hämta.fil (url= ”http://curl.haxx.se/ca/cacert.pem”, destfile= ” cacert.pem”)

#infoga din consumerKey och consumerSecret nedan
referenser < – OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
accessURL= ’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
cred$handskakning(cainfo= ” cacert.pem”)
# Ladda autentiseringsdata
Ladda (”twitter-autentisering.RDATA”)

#registrera Twitter autentisering
setup_twitter_oauth(referenser$consumerKey, referenser$consumerSecret, referenser$oauthKey, referenser$oauthSecret)
#extrahera Tweets med berörda sträng(första argumentet), följt av antalet tweets (n) och språk (lang)
tweets <- searchTwitter(’#DataLove’, n=10, lang=”en”)

nu kan du söka något ord i Sök Twitter-funktionen för att extrahera tweets som innehåller ordet.

extrahera data från Oracle ERP

Du kan besöka länken för att kontrollera steg för steg utvinning av csv-fil från oracle ERP cloud database.

datainsamling och lagring:

Nu när data har extraherats måste den lagras och bearbetas vilket vi gör i datainsamlingssteg och lagring.
Låt oss se hur Spark, Cassandra, Flume, HDFS, HBASE fungerar.

Spark

Spark kan distribueras på olika sätt, ger inbyggda bindningar för programmeringsspråken Java, Scala, Python och R och stöder SQL, strömmande data, maskininlärning och grafbehandling.
RDD är ramen för spark som kommer att bidra till parallell bearbetning av data genom att dela den i dataramar.
för att läsa data från Spark-plattformen, använd kommandot nedan

results = spark.sql (”Välj * från personer”)
names = resultat.karta (lambda p: p.name)
Anslut till någon datakälla som json, JDBC, Hive att gnista med enkla kommandon och funktioner. Som du kan läsa json-data enligt nedan

gnista.läsa.json (”s3n://…”).registerTempTable (”json”)
resultat = gnista.sql (”välj * från människor gå json…”)

Spark består av fler funktioner som streaming från realtidsdatakällor som vi såg ovan med R och python källa.

i huvud Apache spark webbplats kan du hitta många exempel som visar hur kan spark spela en roll i datautvinning, modellering.
https://spark.apache.org/examples.html

Cassandra:

Cassandra är också en Apache-teknik som spark för lagring och hämtning av data och lagring i flera noder för att ge 0 feltolerans. Den använder vanliga databaskommandon som skapa, välja, Uppdatera och ta bort operationer. Du kan också skapa index , materialiserad och normal vy med enkla kommandon som i SQL. Förlängning är att du kan använda JSON datatyp för att utföra ytterligare operationer som enligt nedan

infoga i mytable JSON ’ {”\”myKey\””: 0,” value”: 0}’

det ger git hub open source-drivrutiner som ska användas med.Net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.

När du konfigurerar databasen måste du konfigurera antalet noder med nodnamn, allokera token baserat på belastning på varje nod. Du kan också använda behörighets-och rollkommandon för att hantera databehörigheten över en viss nod.

För mer information kan du hänvisa till den givna länken
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

Casandra lovar att uppnår 0 feltolerans eftersom det ger flera alternativ för att hantera data på en given nod genom caching, transaktionshantering, replikering, samtidighet för läsning och skrivning, disk optimering kommandon, hantera transport och längd av data ramstorlek.

HDFS

vad jag tycker mest om HDFS är dess ikon, en jumbo elefant kraftfull och fjädrande som HDFS själv.

som framgår av ovanstående diagram liknar HDFS-systemet för big data som Cassandra men ger mycket enkelt gränssnitt med externa system.
Data hackas i olika eller liknande storlek dataramar som lagras i distribuerat filsystem. Data överförs vidare till olika noder baserat på optimerade frågeresultat för att lagra data. Den grundläggande arkitekturen är av centraliserad modell av Hadoop if Map minska modell.
1. Data är uppdelad i block av säga 128 MB
2. Dessa data är än fördelade över olika noder
3. HDFS övervakar behandlingen
4. Replikering och caching utförs för att få maximal feltolerans.
5. efter karta och minska utförs och jobb framgångsrikt beräknas, de går tillbaka till huvudservern

Hadoop är huvudsakligen kodad i Java så det är bra om du får några händer på Java än det kommer snabbt och enkelt att installera och köra alla dessa kommandon.
En snabbguide för alla Hadoop relaterade koncept kan hittas på nedanstående länk
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

rapportering och visualisering

Nu kan tala om SAS, R studio och Kime som används för att analysera stora datamängder med hjälp av komplexa algoritmer som är maskininlärning algoritmer som är baserade på vissa komplexa matematiska modeller som analyserar komplett datamängd och skapar den grafiska representationen för att delta specifika önskade affärsmål. Exempel på försäljningsdata, kundmarknadspotential, resursutnyttjande etc.

SAS, R och Kinme alla de tre verktygen erbjuder ett brett utbud av funktioner från avancerad analys, IOT, maskininlärning, riskhanteringsmetoder, säkerhetsintelligens.

men eftersom av dem är en kommersiell och andra 2 är öppen källkod har de några stora skillnader mellan dem.

istället för att gå igenom var och en av dem en efter en, har jag sammanfattat var och en av programvaruskillnaderna och några användbara tips som talar om dem.

Lämna ett svar

Din e-postadress kommer inte publiceras.