Extrahieren von Daten aus Twitter:
Einfache 2 Schritte können wie folgt befolgt werden
Sie finden auf der Seite mit den Anwendungsdetails; wechseln Sie zur Registerkarte ‚Schlüssel und Zugriffstoken‘, scrollen Sie nach unten und klicken Sie auf ‚Mein Zugriffstoken erstellen‘. Notieren Sie sich die Werte von API Key und API Secret für die zukünftige Verwendung. Du darfst diese nicht mit jemandem teilen, man kann auf dein Konto zugreifen, wenn sie die Schlüssel bekommen.
Um Tweets zu extrahieren, müssen Sie eine sichere Verbindung zwischen R und Twitter wie folgt herstellen:
#Clear R Environment rm(list=ls()) #Load required libraries install .pakete(„twitteR“) installieren.packages(„ROAuth“) library(„twitteR“) library(„ROAuth“) # Laden Sie die Datei herunter und speichern Sie sie in Ihrem Arbeitsverzeichnis download.datei(url= „http://curl.haxx.se/ca/cacert.pem“, destfile= „cacert.pem“)
#Legen Sie Ihre ConsumerKey und ConsumerSecret unten credentials <- OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX‘, consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX‘, requestURL=’https://api.twitter.com/oauth/request_token‘, AccessURL=’https://api.twitter.com/oauth/access_token‘, authURL=’https://api.twitter.com/oauth/authorize‘) cred$handshake(cainfo=“cacert.pem“) #Authentifizierungsdaten laden laden(„Twitter-Authentifizierung.Rdata“)
#Twitter-Authentifizierung registrieren setup_twitter_oauth(credentials$ConsumerKey, credentials$ConsumerSecret, credentials$oauthKey, credentials$oauthSecret) #Extrahieren Sie Tweets mit einer Zeichenfolge(erstes Argument), gefolgt von der Anzahl der Tweets (n) und der Sprache (lang) tweets <- searchTwitter(‚#DataLove‘, n=10, lang=“en“)
Jetzt können Sie ein beliebiges Wort in der Twitter-Suchfunktion suchen, um die Tweets zu extrahieren, die das Wort enthalten.
Extrahieren von Daten aus Oracle ERP
Sie können den Link besuchen, um Schritt für Schritt die Extraktion der CSV-Datei aus der Oracle ERP Cloud-Datenbank zu überprüfen.
Datenerfassung und -speicherung:
Sobald die Daten extrahiert sind, müssen sie gespeichert und verarbeitet werden, was wir im Datenerfassungsschritt und in der Speicherung tun. Mal sehen, wie Spark, Cassandra, Flume, HDFS, HBASE funktioniert.
Spark
Spark kann auf verschiedene Arten bereitgestellt werden, bietet native Bindungen für die Programmiersprachen Java, Scala, Python und R und unterstützt SQL, Streaming-Daten, maschinelles Lernen und Grafikverarbeitung. RDD ist das Framework für Spark, das bei der parallelen Verarbeitung von Daten hilft, indem es in Datenrahmen unterteilt wird. Um Daten von der Spark-Plattform zu lesen, verwenden Sie den folgenden Befehl
results = spark.sql(„Select * From people“) Namen = Ergebnisse.karte (lambda p: p.name ) Stellen Sie mit einfachen Befehlen und Funktionen eine Verbindung zu einer beliebigen Datenquelle wie json, JDBC, Hive und Spark her. Wie Sie JSON-Daten wie folgt lesen können
Funken.lesen.json(„s3n://…“).registerTempTable(„json“) Ergebnisse = Funken.sql(„SELECT * FROM people JOIN json …“)
Spark besteht aus mehr Funktionen wie dem Streaming von Echtzeitdatenquellen, die wir oben mit R und Python source gesehen haben.
Auf der Apache Spark-Hauptwebsite finden Sie viele Beispiele, die zeigen, wie Spark eine Rolle bei der Datenextraktion und -modellierung spielen kann. https://spark.apache.org/examples.html
Cassandra:
Cassandra ist auch eine Apache-Technologie wie Spark zum Speichern und Abrufen von Daten und zur Speicherung in mehreren Knoten, um 0 Fehlertoleranz bereitzustellen. Es verwendet normale Datenbankbefehle wie Erstellen, Auswählen, Aktualisieren und Löschen. Sie können auch Indizes, materialisierte und normale Ansicht mit einfachen Befehlen wie in SQL erstellen. Erweiterung ist, dass Sie den JSON-Datentyp verwenden können, um zusätzliche Operationen auszuführen, wie unten gezeigt
Insert into mytable JSON ‚{ „\“myKey\““: 0, „value“: 0}‘
Es bietet git hub Open-Source-Treiber für die Verwendung mit .net, Python, Java, PHP, NodeJS, Scala, Perl, ROR.
Wenn Sie die Datenbank konfigurieren, müssen Sie die Anzahl der Knoten nach Knotennamen konfigurieren, Token basierend auf der Last auf jedem Knoten zuweisen. Sie können auch Autorisierungs- und Rollenbefehle verwenden, um die Berechtigung auf Datenebene für einen bestimmten Knoten zu verwalten.
Für weitere Details können Sie auf den angegebenen Link verweisen http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html
Casandra verspricht eine Fehlertoleranz von 0, da es mehrere Optionen zur Verwaltung der Daten auf einem bestimmten Knoten durch Zwischenspeichern, Transaktionsmanagement, Replikation, Parallelität für Lese- und Schreibvorgänge, Festplattenoptimierungsbefehle, Verwaltung des Transports und der Länge der Datenrahmengröße bietet.
HDFS
Was ich an HDFS am meisten mag, ist sein Symbol, ein riesiger Elefant, der so mächtig und widerstandsfähig ist wie HDFS selbst.
Wie im obigen Diagramm zu sehen ist, ähnelt das HDFS-System für Big Data Cassandra, bietet jedoch eine sehr einfache Schnittstelle zu externen Systemen. Die Daten werden in verschiedene oder ähnliche Größe Datenrahmen, die in verteilten Dateisystem gespeichert sind gehackt. Daten werden basierend auf optimierten Abfrageergebnissen weiter an verschiedene Knoten übertragen, um Daten zu speichern. Die grundlegende Architektur ist ein zentralisiertes Modell von Hadoop, wenn das Map-Reduce-Modell verwendet wird. 1. Die Daten werden in Blöcke von etwa 128 MB 2 unterteilt. Diese Daten werden dann auf verschiedene Knoten verteilt 3. HDFS überwacht die Verarbeitung 4. Replikation und Caching werden durchgeführt, um eine maximale Fehlertoleranz zu erreichen. 5. nachdem map und Reduce ausgeführt und Jobs erfolgreich berechnet wurden, kehren sie zum Hauptserver zurück
Hadoop ist hauptsächlich in Java codiert. Eine Kurzanleitung für alle Hadoop-bezogenen Konzepte finden Sie unter folgendem Link https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html
Reporting und Visualisierung
Lassen Sie uns nun über SAS, R Studio und Kime sprechen, die zur Analyse großer Datensätze mit Hilfe komplexer Algorithmen verwendet werden, bei denen es sich um Algorithmen für maschinelles Lernen handelt, die auf einigen komplexen mathematischen Modellen basieren, die den gesamten Datensatz analysieren und die grafische Darstellung für ein bestimmtes gewünschtes Geschäftsziel erstellen. Beispiel Verkaufsdaten, Kundenmarktpotenziale, Ressourcenauslastung etc.
SAS, R und Kinme alle drei Werkzeuge bieten eine breite Palette von Funktionen von Advanced Analytics, IOT, maschinelles Lernen, Risikomanagement-Methoden, Security Intelligence.
Aber da von ihnen einer kommerziell ist und andere 2 Open Source sind, haben sie einige große Unterschiede zwischen ihnen.
Anstatt jeden von ihnen einzeln durchzugehen, habe ich jeden der Softwareunterschiede und einige nützliche Tipps zusammengefasst, die über sie sprechen.