big data ecosysteem

It not ‘ Now a day Big data..’verhaal dat aanleiding gaf tot dit tijdperk van big data, maar ‘een lange tijd geleden …’ mensen begonnen met het verzamelen van informatie via handmatige enquêtes, websites, sensoren, bestanden en andere vormen van gegevensverzameling methoden. Zelfs dit omvat internationale organisaties zoals WHO, VN die internationaal verzamelde alle mogelijke sets van informatie voor monitoring en tracking activiteiten niet alleen met betrekking tot de mens, maar vegetatie en diersoorten om belangrijke beslissingen te nemen en de vereiste acties uit te voeren.grote multinationals, met name de ecommerce-en marketingbedrijven, begonnen dezelfde strategie te gebruiken om de activiteiten van klanten te volgen en te monitoren om merken en producten te promoten die aanleiding gaven tot de analytics-tak. Nu is het niet van plan om te verzadigen zo gemakkelijk als bedrijven hebben gerealiseerd de echte waarde van de gegevens voor het nemen van kernbeslissingen in elke fase van het project van begin tot eind om de beste geoptimaliseerde oplossingen te creëren in termen van kosten, hoeveelheid, markt, middelen en verbeteringen.

De V ‘ s van Big Data zijn volume, snelheid, variëteit, waarheidsgetrouwheid, valentie en waarde en elke impact gegevensverzameling, monitoring, opslag, analyse en rapportage. Het ecosysteem in termen van technologie spelers van big data Systeem is zoals hieronder te zien.

nu zal ik elke technologie een voor een bespreken om een glimp te geven van wat de belangrijke componenten en interfaces zijn.

hoe gegevens uit sociale Media-gegevens van Facebook, Twitter en linkedin te extraheren in eenvoudig csv-bestand voor verdere verwerking.

om gegevens van Facebook te kunnen extraheren met behulp van een python-code moet u zich registreren als ontwikkelaar op Facebook en vervolgens een toegangstoken hebben. Hier zijn de stappen ervoor.

1. Ga naar link developers.facebook.com, maak daar een account aan.

2. Ga naar link developers.facebook.com/tools/explorer.

3. Ga naar” mijn apps “drop-down in de rechterbovenhoek en selecteer “een nieuwe app toevoegen”. Kies een weergavenaam en een categorie en vervolgens “Create App ID”.

4. Terug naar dezelfde link developers.facebook.com/tools/explorer. u ziet “Graph API Explorer” onder “Mijn Apps” in de rechter bovenhoek. Uit” Graph API Explorer ” drop-down, selecteer uw app.

5. Dan, selecteer “get Token”. Uit deze drop-down, selecteer “Get User Access Token”. Selecteer Machtigingen in het menu dat verschijnt en selecteer vervolgens “Get Access Token.”

6. Ga naar link developers.facebook.com/tools/accesstoken. Selecteer “Debug” overeenkomend met “User Token”. Ga naar”Extend Token Access”. Dit zorgt ervoor dat uw token niet elke twee uur verloopt.

Python-Code om toegang te krijgen tot openbare gegevens van Facebook:

Ga naar link https://developers.facebook.com/docs/graph-api Als u gegevens wilt verzamelen over iets dat openbaar beschikbaar is. Zie https://developers.facebook.com/docs/graph-api / reference / v2. 7/. Kies uit deze documentatie een veld waaruit u gegevens wilt extraheren, zoals “groepen” of “pagina ‘ s” enz. Ga naar voorbeelden van codes nadat u deze hebt geselecteerd en selecteer vervolgens “facebook graph api”en u krijgt tips over hoe u informatie kunt extraheren. Deze blog is vooral op het verkrijgen van gebeurtenissen gegevens.

importeer eerst ‘urllib3’, ‘facebook’, ‘requests’ als ze al beschikbaar zijn. Zo niet, download dan deze bibliotheken. Definieer een variabele token en stel de waarde van wat je hierboven als “User Access Token”.

Extractiegegevens van Twitter:

eenvoudige 2 stappen kunnen worden gevolgd zoals hieronder

  1. u uitleent op de pagina toepassingsdetails; ga naar het tabblad’ toetsen en toegangstokens’, scroll naar beneden en klik op’Create my access token’. Let op de waarden van API Keyand API Secret voor toekomstig gebruik. Je zult deze met niemand delen, men kan toegang krijgen tot je account als ze de sleutels krijgen.
  2. om tweets uit te pakken, moet je als volgt een beveiligde verbinding tussen R en Twitter tot stand brengen,

#Clear R Environment
rm(list=ls())
#Load required libraries
install.pakketten (“twitteR”)
installeren.packages (“ROAuth”)
library (“twitteR”)
library (“ROAuth”)
# Download het bestand en sla het op in uw werkmap
download.file (url= “http://curl.haxx.se/ca/cacert.pem”, destfile = ” cacert.pem”)

#Voeg uw consumerKey en consumerSecret hieronder
referenties < OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
deaccessurlhet=’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
cred$handdruk(cainfo=”cacert.pem”)
#Load Authentication Data
load (“twitter authentication.Rdata”)

#Registreer Twitter Authenticatie
setup_twitter_oauth(referenties$consumerKey, referenties$consumerSecret, referenties$oauthKey, referenties$oauthSecret)
#Extract Tweets met de betrokken string(eerste argument), gevolgd door een aantal tweets (n) en taal (lang)
tweets <- searchTwitter(‘#DataLove’, n=10, lang=”nl”)

Nu kan je zoeken op elk woord in de Twitter search functie voor het uitpakken van de tweets met het woord.

extractie van gegevens uit Oracle ERP

u kunt de link bezoeken om stap voor stap de extractie van csv-bestand uit Oracle ERP cloud database te controleren.

data-acquisitie en-Opslag:

nu, zodra de gegevens zijn geëxtraheerd, moet deze worden opgeslagen en verwerkt, wat we doen in data-acquisitie stap en opslag.laten we eens kijken hoe Spark, Cassandra, Flume, HDFS, HBASE werkt.

Spark

Spark kan op verschillende manieren worden ingezet, biedt native bindingen voor de programmeertalen Java, Scala, Python en R, en ondersteunt SQL, streaming data, machine learning en graph processing.
RDD is het raamwerk voor spark dat zal helpen bij de parallelle verwerking van gegevens door het te delen in dataframes.
om gegevens van het Spark platform te lezen, gebruik je het onderstaande commando

results = spark.sql (“Select * From people”)
names = results.kaart (lambda p: p.name)
Maak verbinding met elke gegevensbron zoals json, JDBC, Hive om te Sparken met behulp van eenvoudige commando ‘ s en functies. Zoals je json data kunt lezen zoals hieronder

spark.lezen.json (“s3n://…”).registerTempTable (“json”)
results = spark.sql (“SELECT * FROM people JOIN json …”)

Spark bestaat uit meer functies zoals streaming van real time gegevensbronnen die we hierboven zagen met behulp van R en python bron.

op de apache spark website kunt u vele voorbeelden vinden die laten zien hoe spark een rol kan spelen in data-extractie, modellering.
https://spark.apache.org/examples.html

Cassandra:

Cassandra is ook een Apache-technologie zoals spark voor opslag en ophalen van gegevens en opslag in meerdere nodes om 0 fouttolerantie te bieden. Het maakt gebruik van normale database commando ‘ s zoals create, select, update en delete operaties. Ook kunt u indexen , gematerialiseerde en normale weergave maken met eenvoudige commando ‘ s zoals in SQL. Extensie is dat je JSON data type kunt gebruiken voor het uitvoeren van extra operaties zoals hieronder te zien

Insert into mytable JSON ‘{ “\”myKey\””: 0, “value”: 0}’

Het biedt Git hub open source drivers te gebruiken met.net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.

wanneer u de database configureert, moet u het aantal knooppunten configureren op basis van knooppuntnamen, token toewijzen op basis van belasting op elk knooppunt. U kunt ook autorisatie-en rolcommando ‘ s gebruiken om de machtiging voor gegevensniveau over een bepaald knooppunt te beheren.

voor meer details kunt u verwijzen naar de gegeven link
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

Casandra belooft 0 fouttolerantie te bereiken omdat het meerdere opties biedt om de gegevens op een gegeven knooppunt te beheren door caching, transactiebeheer, replicatie, concurrency voor lezen en schrijven, schijfoptimalisatiecommando ‘ s, het transport en de lengte van de dataframgrootte te beheren.

HDFS

wat ik het leukst vind aan HDFS is het Icon, een krachtige en veerkrachtige jumbo olifant zoals HDFS zelf.

zoals te zien is in het bovenstaande diagram, is het HDFS-systeem voor big data vergelijkbaar met Cassandra, maar biedt het zeer eenvoudige interfacing met externe systemen.
Data wordt gesneden in verschillende of vergelijkbare grootte dataframes die worden opgeslagen in gedistribueerd bestandssysteem. Gegevens worden verder overgebracht naar verschillende knooppunten op basis van geoptimaliseerde query resultaten om gegevens op te slaan. De basisarchitectuur is van gecentraliseerd model van Hadoop if Map reduce model.
1. De gegevens zijn verdeeld in blokken van bijvoorbeeld 128 MB
2. Deze gegevens worden dan verspreid over verschillende knooppunten
3. HDFS houdt toezicht op de verwerking
4. Replicatie en caching wordt uitgevoerd om maximale fouttolerantie te bereiken.
5. nadat map en reduce is uitgevoerd en taken met succes zijn berekend, gaan ze terug naar de hoofdserver

Hadoop is voornamelijk gecodeerd in Java, dus het is geweldig als je wat handen op Java krijgt dan zal het snel en eenvoudig te installeren en uit te voeren al die commando ‘ s.
Een korte handleiding voor alle Hadoop gerelateerde concept kan worden gevonden op onderstaande link
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

rapportage en visualisatie

laten we nu praten over SAS, R studio en Kime die worden gebruikt voor het analyseren van grote sets van gegevens met behulp van complexe algoritmen die machine learning algoritmen die zijn gebaseerd op enkele complexe wiskundige modellen die volledige dataset analyseert en de grafische weergave creëert om specifieke gewenste zakelijke doelstelling bij te wonen. Voorbeeld verkoopgegevens, marktpotentieel van de klant, gebruik van middelen enz.

SAS, R en Kinme alle drie tools bieden een breed scala aan functies van geavanceerde analytics, IOT, machine learning, Risicomanagementmethodologieën, security intelligence.

maar aangezien één van hen commercieel is en andere 2 open source zijn, hebben ze een aantal belangrijke verschillen tussen hen.

in plaats van elk van hen een voor een door te nemen, heb ik elk van de software verschillen samengevat en enkele nuttige tips die over hen spreken.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.