Extractiegegevens van Twitter:
eenvoudige 2 stappen kunnen worden gevolgd zoals hieronder
u uitleent op de pagina toepassingsdetails; ga naar het tabblad’ toetsen en toegangstokens’, scroll naar beneden en klik op’Create my access token’. Let op de waarden van API Keyand API Secret voor toekomstig gebruik. Je zult deze met niemand delen, men kan toegang krijgen tot je account als ze de sleutels krijgen.
om tweets uit te pakken, moet je als volgt een beveiligde verbinding tussen R en Twitter tot stand brengen,
#Clear R Environment rm(list=ls()) #Load required libraries install.pakketten (“twitteR”) installeren.packages (“ROAuth”) library (“twitteR”) library (“ROAuth”) # Download het bestand en sla het op in uw werkmap download.file (url= “http://curl.haxx.se/ca/cacert.pem”, destfile = ” cacert.pem”)
#Voeg uw consumerKey en consumerSecret hieronder referenties < OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’, consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’, requestURL=’https://api.twitter.com/oauth/request_token’, deaccessurlhet=’https://api.twitter.com/oauth/access_token’, authURL=’https://api.twitter.com/oauth/authorize’) cred$handdruk(cainfo=”cacert.pem”) #Load Authentication Data load (“twitter authentication.Rdata”)
#Registreer Twitter Authenticatie setup_twitter_oauth(referenties$consumerKey, referenties$consumerSecret, referenties$oauthKey, referenties$oauthSecret) #Extract Tweets met de betrokken string(eerste argument), gevolgd door een aantal tweets (n) en taal (lang) tweets <- searchTwitter(‘#DataLove’, n=10, lang=”nl”)
Nu kan je zoeken op elk woord in de Twitter search functie voor het uitpakken van de tweets met het woord.
extractie van gegevens uit Oracle ERP
u kunt de link bezoeken om stap voor stap de extractie van csv-bestand uit Oracle ERP cloud database te controleren.
data-acquisitie en-Opslag:
nu, zodra de gegevens zijn geëxtraheerd, moet deze worden opgeslagen en verwerkt, wat we doen in data-acquisitie stap en opslag.laten we eens kijken hoe Spark, Cassandra, Flume, HDFS, HBASE werkt.
Spark
Spark kan op verschillende manieren worden ingezet, biedt native bindingen voor de programmeertalen Java, Scala, Python en R, en ondersteunt SQL, streaming data, machine learning en graph processing. RDD is het raamwerk voor spark dat zal helpen bij de parallelle verwerking van gegevens door het te delen in dataframes. om gegevens van het Spark platform te lezen, gebruik je het onderstaande commando
results = spark.sql (“Select * From people”) names = results.kaart (lambda p: p.name) Maak verbinding met elke gegevensbron zoals json, JDBC, Hive om te Sparken met behulp van eenvoudige commando ‘ s en functies. Zoals je json data kunt lezen zoals hieronder
spark.lezen.json (“s3n://…”).registerTempTable (“json”) results = spark.sql (“SELECT * FROM people JOIN json …”)
Spark bestaat uit meer functies zoals streaming van real time gegevensbronnen die we hierboven zagen met behulp van R en python bron.
op de apache spark website kunt u vele voorbeelden vinden die laten zien hoe spark een rol kan spelen in data-extractie, modellering. https://spark.apache.org/examples.html
Cassandra:
Cassandra is ook een Apache-technologie zoals spark voor opslag en ophalen van gegevens en opslag in meerdere nodes om 0 fouttolerantie te bieden. Het maakt gebruik van normale database commando ‘ s zoals create, select, update en delete operaties. Ook kunt u indexen , gematerialiseerde en normale weergave maken met eenvoudige commando ‘ s zoals in SQL. Extensie is dat je JSON data type kunt gebruiken voor het uitvoeren van extra operaties zoals hieronder te zien
Insert into mytable JSON ‘{ “\”myKey\””: 0, “value”: 0}’
Het biedt Git hub open source drivers te gebruiken met.net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.
wanneer u de database configureert, moet u het aantal knooppunten configureren op basis van knooppuntnamen, token toewijzen op basis van belasting op elk knooppunt. U kunt ook autorisatie-en rolcommando ‘ s gebruiken om de machtiging voor gegevensniveau over een bepaald knooppunt te beheren.
voor meer details kunt u verwijzen naar de gegeven link http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html
Casandra belooft 0 fouttolerantie te bereiken omdat het meerdere opties biedt om de gegevens op een gegeven knooppunt te beheren door caching, transactiebeheer, replicatie, concurrency voor lezen en schrijven, schijfoptimalisatiecommando ‘ s, het transport en de lengte van de dataframgrootte te beheren.
HDFS
wat ik het leukst vind aan HDFS is het Icon, een krachtige en veerkrachtige jumbo olifant zoals HDFS zelf.
zoals te zien is in het bovenstaande diagram, is het HDFS-systeem voor big data vergelijkbaar met Cassandra, maar biedt het zeer eenvoudige interfacing met externe systemen. Data wordt gesneden in verschillende of vergelijkbare grootte dataframes die worden opgeslagen in gedistribueerd bestandssysteem. Gegevens worden verder overgebracht naar verschillende knooppunten op basis van geoptimaliseerde query resultaten om gegevens op te slaan. De basisarchitectuur is van gecentraliseerd model van Hadoop if Map reduce model. 1. De gegevens zijn verdeeld in blokken van bijvoorbeeld 128 MB 2. Deze gegevens worden dan verspreid over verschillende knooppunten 3. HDFS houdt toezicht op de verwerking 4. Replicatie en caching wordt uitgevoerd om maximale fouttolerantie te bereiken. 5. nadat map en reduce is uitgevoerd en taken met succes zijn berekend, gaan ze terug naar de hoofdserver
Hadoop is voornamelijk gecodeerd in Java, dus het is geweldig als je wat handen op Java krijgt dan zal het snel en eenvoudig te installeren en uit te voeren al die commando ‘ s. Een korte handleiding voor alle Hadoop gerelateerde concept kan worden gevonden op onderstaande link https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html
rapportage en visualisatie
laten we nu praten over SAS, R studio en Kime die worden gebruikt voor het analyseren van grote sets van gegevens met behulp van complexe algoritmen die machine learning algoritmen die zijn gebaseerd op enkele complexe wiskundige modellen die volledige dataset analyseert en de grafische weergave creëert om specifieke gewenste zakelijke doelstelling bij te wonen. Voorbeeld verkoopgegevens, marktpotentieel van de klant, gebruik van middelen enz.
SAS, R en Kinme alle drie tools bieden een breed scala aan functies van geavanceerde analytics, IOT, machine learning, Risicomanagementmethodologieën, security intelligence.
maar aangezien één van hen commercieel is en andere 2 open source zijn, hebben ze een aantal belangrijke verschillen tussen hen.
in plaats van elk van hen een voor een door te nemen, heb ik elk van de software verschillen samengevat en enkele nuttige tips die over hen spreken.