Det er Ikke ‘ Nå En Dag Store data..’historie som ga opphav til denne epoken med store data, men’ for lenge siden… ‘ begynte mennesker å samle informasjon via manuelle undersøkelser, nettsteder, sensorer, filer og andre former for datainnsamlingsmetoder. Selv dette inkluderer internasjonale organisasjoner SOM WHO, FN som samlet internasjonalt alle mulige sett med informasjon for overvåking og sporing av aktiviteter, ikke bare relatert til mennesker, men vegetasjon og dyrearter for å ta viktige beslutninger og implementere nødvendige tiltak.
Så store multinasjonale selskaper spesielt e-handel og markedsføring selskapene begynte å utnytte den samme strategien for å spore og overvåke kundeaktiviteter for å fremme merker og produkter som ga opphav til analytics grenen. Nå kommer det ikke til å mette så lett som selskaper har innsett den virkelige verdien av data for å ta kjernebeslutninger i alle faser av prosjektet fra start til slutt for å skape best optimaliserte løsninger når det gjelder kostnad, kvantitet, marked, ressurser og forbedringer.V ‘ ene Av Big Data er volum, hastighet, variasjon, sannferdighet, valens og verdi, og hver påvirker datainnsamling, overvåking, lagring, analyse og rapportering. Økosystemet i form av teknologi spillere av big data system er som sett nedenfor.
nå vil jeg diskutere hver teknologi en etter en for å gi et glimt av hva de viktige komponenter og grensesnitt.
slik trekker du ut data Fra Sosiale Medier fra Facebook, Twitter og linkedin til enkel csv-fil for videre behandling.
for å kunne trekke ut data fra Facebook ved hjelp av en python-kode må du registrere deg som utvikler På Facebook og deretter ha et tilgangstoken. Her er fremgangsmåten for det.
1. Gå til link developers.facebook.com, opprett en konto der.
2. Gå til link developers.facebook.com/tools/explorer.
3. Gå til» mine apper «- rullegardinmenyen øverst til høyre og velg «legg til en ny app». Velg et visningsnavn og en kategori og Deretter «Opprett App-ID».
4. Igjen komme tilbake til samme link developers.facebook.com/tools/explorer. Du vil se «Graph API Explorer «under» Mine Apper » øverst til høyre. Velg appen din fra» Graph API Explorer » – rullegardinmenyen.
5. Deretter velger du «Get Token». Fra denne rullegardinmenyen velger du «Få Brukertilgang Token». Velg tillatelser fra menyen som vises, og velg deretter » Få Tilgangstoken.»
6. Gå til link developers.facebook.com/tools/accesstoken. Velg «Debug» som svarer til «User Token». Gå til «Utvid Token Access». Dette vil sikre at token din ikke utløper hver annen time.
Python-Kode For Å Få Tilgang Til Facebook Offentlige Data:
Gå til link https://developers.facebook.com/docs/graph-api hvis du vil samle inn data om noe som er tilgjengelig offentlig. Sehttps://developers.facebook.com/docs/graph-api/referanse/v2.7/. Fra denne dokumentasjonen velger du hvilket felt du vil ha som du vil trekke ut data som «grupper » eller» sider » etc. Gå til eksempler på koder etter å ha valgt disse og velg deretter «facebook graph api», og du vil få tips om hvordan du trekker ut informasjon. Denne bloggen er primært på å få hendelser data.
importer først ‘urllib3’, ‘facebook’, ‘forespørsler’ hvis de allerede er tilgjengelige. Hvis ikke, last ned disse bibliotekene. Definer et variabelt token og sett verdien til det du fikk over som «User Access Token».
trekke ut data fra twitter:
enkle 2 trinn kan følges som nedenfor
- du vil låne på søknadsdetaljer side; gå til’ Nøkler og Tilgangstokener ‘- fanen, rull ned og klikk ‘Opprett min tilgangstokenet’. Merk VERDIENE AV API Keyand API Hemmelig for fremtidig bruk. Du skal ikke dele disse med noen, man kan få tilgang til kontoen din hvis de får nøklene.
- for å trekke ut tweets, må du etablere en sikker forbindelse Mellom R Og Twitter som følger,
#Clear R Miljø
rm(list=ls ())
#Load nødvendige biblioteker
installer.pakker («twitteR»)
installer.pakker («ROAuth»)
bibliotek («twitteR»)
bibliotek («ROAuth»)
# Last ned filen og lagre i arbeidskatalogen
last ned.fil (url= «http://curl.haxx.se/ca/cacert.pem», destfile= » cacert.pem»)
#Sett inn din consumerKey og consumerSecret nedenfor
legitimasjon <- OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
accessURL=’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
kred$håndtrykk(cainfo=»cacert.pem»)
#Last Inn Autentiseringsdata
last inn («twitter-godkjenning.Setup_twitter_oauth(legitimasjon$consumerKey, legitimasjon$consumerSecret, legitimasjon$oauthKey, legitimasjon$oauthSecret)
#Pakk Tweets med bekymret streng(første argument), etterfulgt av antall tweets (n) og språk (lang)
tweets< – searchTwitter (‘#DataLove’, n=10, lang=»en»)
nå kan du søke et ord i søk twitter-funksjonen for å trekke ut tweets som inneholder ordet.
Trekke ut data fra Oracle ERP
du kan besøke linken for å sjekke trinnvis utvinning av csv-fil fra oracle erp cloud database.
Datainnsamling og Lagring:
nå når dataene er hentet, må de lagres og behandles som vi gjør i datainnsamlingstrinn og lagring.
La oss se hvordan Spark, Cassandra, Flume, HDFS, HBASE fungerer.Spark Kan distribueres på en rekke måter, gir innfødte bindinger For Java, Scala, Python og R programmeringsspråk, og støtter SQL, streaming data, maskinlæring og grafbehandling.
RDD ER rammen for spark som vil bidra til parallell behandling av data ved å dele den i datarammer.
for å lese data Fra Spark platform, bruk kommandoen under
results = spark.sql («Velg * fra folk»)
navn = resultater.kart (lambda p: p.name)
Koble til en datakilde som json, JDBC, Hive Å Gnist ved hjelp av enkle kommandoer og funksjoner. Som du kan lese json data som nedenfor
spark.lese.json («s3n://…»).registerTempTable («json»)
resultater = spark.sql («VELG * fra folk BLI med json…»)
Spark består av flere funksjoner som streaming fra sanntidsdatakilder som vi så over ved Hjelp Av R og python kilde.
i hoved apache spark nettsiden kan du finne mange eksempler som viser hvordan spark kan spille en rolle i datautvinning, modellering.
https://spark.apache.org/examples.html
Cassandra:
Cassandra Er også En Apache-teknologi som spark for lagring og gjenfinning av data og lagring i flere noder for å gi 0 feiltoleranse. Den bruker normale databasekommandoer som opprett, velg, oppdater og slett operasjoner. Du kan også lage indekser, materialisert og normal visning med enkle kommandoer som I SQL. Utvidelse er DU kan bruke json datatype for å utføre flere operasjoner som vist nedenfor
Sett inn i mytable JSON ‘ {«\»myKey\»»: 0, «value»: 0} ‘
Det gir git hub åpen kildekode drivere som skal brukes med. net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.
når du konfigurerer databasen, må konfigurere antall noder av nodenavn, allokere token basert på belastning på hver node. Du kan også bruke autorisasjons-og rollekommandoer til å administrere datanivåtillatelsen over en gitt node.
For flere detaljer kan du se den gitte lenken
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html
Casandra lover å oppnå 0 feiltoleranse da Det gir flere alternativer for å administrere dataene på en gitt node ved caching, transaksjonsadministrasjon, replikering, samtidighet for lese og skrive, diskoptimaliseringskommandoer, administrere transporten og lengden på datarammestørrelsen.HDFS DET jeg mest liker MED HDFS er Dens Ikon, en jumbo elefant kraftig og spenstig SOM HDFS selv.
som vist i diagrammet ovenfor, er hdfs-systemet for store data likt cassandra, men gir veldig enkelt grensesnitt med eksterne systemer.
Data er hakket i forskjellige eller lignende størrelse datarammer som er lagret i distribuert filsystem. Data overføres videre til ulike noder basert på optimaliserte spørringsresultater for å lagre data. Den grunnleggende arkitekturen er av sentralisert Modell Av Hadoop hvis Kart redusere modell.
1. Data er delt inn i blokker med si 128 MB
2. Disse dataene er enn fordelt over ulike noder
3. HDFS overvåker behandlingen
4. Replikasjon og caching utføres for å oppnå maksimal feiltoleranse.
5. Hadoop er hovedsakelig kodet I Java, så det er flott hvis du får noen hender På Java enn det vil raskt og enkelt å sette opp og kjøre alle disse kommandoene.
en rask guide for Alle Hadoop relatert konsept kan bli funnet på linken nedenfor
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html
Rapportering og Visualisering
Nå kan snakke OM SAS, R studio og Kime som brukes til å analysere store sett med data ved hjelp av komplekse algoritmer som er maskinlæringsalgoritmer som er basert på noen komplekse matematiske modeller som analyserer komplett datasett og skaper grafisk representasjon for å møte spesifikke ønsket forretningsmål. Eksempel salgsdata, kundemarkedspotensial, ressursutnyttelse etc.SAS, R og Kinme alle de tre verktøyene tilbyr Et bredt spekter av funksjoner Fra Avansert analyse, iot, maskinlæring, Risikostyringsmetoder, sikkerhetsintelligens.Men siden ut av dem er en kommersiell og andre 2 er åpen kildekode, har de noen store forskjeller mellom dem.I Stedet for å gå gjennom hver av dem en etter en, har jeg oppsummert hver av programvareforskjellene og noen nyttige tips som snakker om dem.