big data økosystem

det ikke ‘ nu en dag Big data..’historie, der gav anledning til denne æra af big data, men ‘for længe siden…’ mennesker begyndte at indsamle information via manuelle undersøgelser, hjemmesider, sensorer, filer og anden form for dataindsamlingsmetoder. Selv dette inkluderer internationale organisationer som hvem, FN, der indsamlede internationalt alle mulige sæt information til overvågning og sporing af aktiviteter, ikke kun relateret til mennesker, men vegetation og dyrearter for at træffe vigtige beslutninger og gennemføre nødvendige handlinger.

så store multinationale virksomheder specielt begyndte e-handels-og marketingvirksomhederne at bruge den samme strategi til at spore og overvåge kundeaktiviteter for at fremme mærker og produkter, der gav anledning til analytics-filialen. Nu vil det ikke mætte så let, da virksomheder har indset den reelle værdi af data til at tage kernebeslutninger i hver fase af projektet fra start til slut for at skabe bedst optimerede løsninger med hensyn til omkostninger, mængde, marked, ressourcer og forbedringer.V ‘ erne af Big Data er volumen, hastighed, variation, sandhed, Valens og værdi, og hver påvirker dataindsamling, overvågning, opbevaring, analyse og rapportering. Økosystemet med hensyn til teknologi spillere af big data system er som set nedenfor.

nu vil jeg diskutere hver teknologi en efter en for at give et glimt af, hvad de vigtige komponenter og grænseflader.

Sådan hentes data fra sociale mediedata fra Facebook, Kvidre og linkedin til simpel csv-fil til videre behandling.

for at kunne udtrække data fra Facebook ved hjælp af en python-kode skal du registrere dig som udvikler på Facebook og derefter have et adgangstoken. Her er trinene til det.

1. Gå til link developers.facebook.com, Opret en konto der.

2. Gå til link developers.facebook.com/tools/explorer.

3. Gå til” mine apps “falde ned i øverste højre hjørne og vælg”Tilføj en ny app”. Vælg et visningsnavn og en kategori og derefter “Opret App-ID”.

4. Tilbage til samme link developers.facebook.com/tools/explorer. du vil se” Graph API Stifinder “under” Mine Apps ” i øverste højre hjørne. Vælg din app fra rullemenuen “Graph API Stifinder”.

5. Vælg derefter”Get Token”. Fra denne rullemenu skal du vælge “Hent Brugeradgangstoken”. Vælg tilladelser i den menu, der vises, og vælg derefter “Hent adgangstoken.”

6. Gå til link developers.facebook.com/tools/accesstoken. Vælg” Debug “svarende til”Brugertoken”. Gå til”Udvid Token-adgang”. Dette vil sikre, at dit token ikke udløber hver anden time.

Python-kode for at få adgang til Facebook offentlige Data:

gå til linkhttps://developers.facebook.com/docs/graph-api hvis du vil indsamle data om noget, der er tilgængeligt offentligt. Se https://developers.facebook.com/docs/graph-api / reference / v2.7/. Fra denne dokumentation skal du vælge et hvilket som helst felt, du vil udtrække data fra, såsom “grupper” eller “sider” osv. Gå til eksempler på koder efter at have valgt disse, og vælg derefter “facebook graph api”, så får du tip til, hvordan du udtrækker information. Denne blog handler primært om at få begivenhedsdata.

Importer først ‘urllib3’, ‘facebook’, ‘anmodninger’, hvis de allerede er tilgængelige. Hvis ikke, hente disse biblioteker. Definer et variabelt token, og indstil dets værdi til det, du fik ovenfor, som “Brugeradgangstoken”.

uddrag af data fra kvidre:

simple 2 trin kan følges som nedenfor

  1. du vil låne på ansøgning detaljer side; gå til fanen ‘nøgler og adgangstokener’, rul ned og klik på ‘Opret min adgangstoken’. Bemærk værdierne for API Keyand API Secret til fremtidig brug. Du shan ‘ t dele disse med nogen, man kan få adgang til din konto, hvis de får nøglerne.
  2. for at udtrække kvidre skal du oprette en sikker forbindelse mellem R og kvidre som følger,

#Ryd r miljø
rm(list=ls ())
#Indlæs nødvendige biblioteker
installer.pakker(“kvidre”)
installere.pakker (“ROAuth”)
bibliotek (“kvidre”)
bibliotek (“ROAuth”)
# Hent filen og gem i din arbejdsmappe
Hent.fil (url= “http://curl.haxx.se/ca/cacert.pem”, destfile= ” cacert.pem”)

#Indsæt din consumerKey og consumerSecret nedenfor
legitimationsoplysninger < – OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
accessURL=’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
cred$handshake(cainfo=”cacert.pem”)
#Indlæs godkendelsesdata
Indlæs (“kvidre-godkendelse.(Credentials$consumerKey, credentials$consumerSecret, credentials$oauthkey, credentials$oauthsecret)
#Uddrag kvidre med pågældende streng(første argument), efterfulgt af antal kvidre (n) og sprog (lang)
kvidre< – søgekvitter (‘#datalove’, n=10, lang=”en”)

nu Kan du søge i et hvilket som helst ord i funktionen Søg kvidre for at udtrække de kvidre, der indeholder ordet.

udtrækning af data fra Oracle ERP

Du kan besøge linket for at kontrollere trin for trin ekstraktion af csv-fil fra oracle ERP cloud database.

dataindsamling og-lagring:

nu når dataene er ekstraheret, skal de gemmes og behandles, hvilket vi gør i dataindsamlingstrin og opbevaring.
Lad os se, hvordan Spark, Cassandra, Flume, HDFS, HBASE fungerer.Spark kan implementeres på en række forskellige måder, giver native bindinger til programmeringssprogene Java, Scala, Python og R og understøtter maskinlæring, streaming af data, maskinindlæring og grafbehandling.
RDD er rammen for spark, som vil hjælpe med parallel behandling af data ved at dividere det i datarammer.
for at læse data fra Spark platform, brug nedenstående kommando

resultater = spark.(“vælg * fra personer”)
navne = resultater.kort (lambda p: p.name)
Opret forbindelse til enhver datakilde som json, JDBC, Hive til gnist ved hjælp af enkle kommandoer og funktioner. Ligesom du kan læse JSON data som nedenfor

spark.læse.json (“s3n://…”).registerTempTable (“json”)
resultater = gnist.”)

Spark består af flere funktioner som streaming fra realtidsdatakilder, som vi så ovenfor ved hjælp af R og python source.

i apache Sparks hovedside kan du finde mange eksempler, der viser, hvordan spark kan spille en rolle i dataekstraktion, modellering.
https://spark.apache.org/examples.html

Cassandra:

Cassandra er også en Apache-teknologi som spark til opbevaring og hentning af data og opbevaring i flere noder for at give 0 fejltolerance. Det bruger normale databasekommandoer som oprette, vælge, opdatere og slette operationer. Du kan også oprette indekser , materialiseret og normal visning med enkle kommandoer som f.eks. Udvidelse er du kan bruge JSON datatype til at udføre yderligere operationer som vist nedenfor

Indsæt i mytable JSON ‘{ “\”myKey\””: 0, “value”: 0}’

det giver Git hub open source drivere, der skal bruges med.net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.

Når du konfigurerer databasen, nødt til at konfigurere antallet af noder ved node navne, tildele token baseret på belastning på hver node. Du kan også bruge autorisations-og rollekommandoer til at administrere tilladelsen til dataniveau over en given node.

For flere detaljer kan du henvise til det givne link
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

Casandra lover at opnå 0 fejltolerance, da det giver flere muligheder for at styre dataene på en given node ved caching, transaktionsstyring, replikation, samtidighed til læsning og skrivning, diskoptimeringskommandoer, styre transporten og længden af datarammestørrelsen.

HDFS

hvad jeg mest kan lide ved HDFS er dens ikon, en jumbo elefant kraftig og elastisk som HDFS selv.

som det ses i ovenstående diagram, svarer HDFS-systemet til Big data som Cassandra, men giver meget enkel grænseflade med eksterne systemer.
Data er hakket i forskellige eller lignende størrelse datarammer, som er gemt i distribueret filsystem. Data overføres yderligere til forskellige noder baseret på optimerede forespørgselsresultater til lagring af data. Den grundlæggende arkitektur er af centraliseret model af Hadoop hvis kort reducere model.
1 . Data er opdelt i blokke af sige 128 MB
2. Disse data er end fordelt på forskellige noder
3. HDFS fører tilsyn med behandlingen
4. Replikation og caching udføres for at opnå maksimal fejltolerance.
5. efter kort og reducere udføres og jobs med succes beregnet, de går tilbage til main server

Hadoop er primært kodet i Java, så dens store, hvis du får nogle hænder på Java, end det vil hurtigt og nemt at setup og køre alle disse kommandoer.
En hurtig guide til alt det Hadoop-relaterede koncept kan findes på nedenstående link
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

rapportering og visualisering

lad os nu tale om SAS, R studio og Kime, der bruges til at analysere store datasæt ved hjælp af komplekse algoritmer, der er maskinlæringsalgoritmer, der er baseret på nogle komplekse matematiske modeller, der analyserer komplet datasæt og skaber den grafiske repræsentation for at deltage i specifikt ønsket forretningsmål. Eksempel salgsdata, kundemarkedspotentiale, ressourceudnyttelse mv.SAS, R og Kinme alle de tre værktøjer tilbyder en bred vifte af funktioner fra avanceret analyse, IOT, maskinlæring, risikostyringsmetoder, sikkerhedsintelligens.

Men da ud af dem er en kommerciel og andre 2 er open source, har de nogle store forskelle blandt dem.

i stedet for at gennemgå hver af dem en efter en, har jeg opsummeret hver af programforskellene og nogle nyttige tip, der taler om dem.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.