Big Data Ökosystem

Es ist nicht ‚Jetzt ein Tag Big Data..‘ Geschichte, die zu dieser Ära von Big Data führte, aber ‚Vor langer Zeit …‘ begannen Menschen, Informationen über manuelle Umfragen, Websites, Sensoren, Dateien und andere Formen der Datenerfassung zu sammeln. Dazu gehören auch internationale Organisationen wie WHO, UN, die international alle möglichen Informationen für die Überwachung und Verfolgung von Aktivitäten gesammelt haben, die sich nicht nur auf Menschen, sondern auch auf Vegetation und Tierarten beziehen, um wichtige Entscheidungen zu treffen und erforderliche Maßnahmen umzusetzen.So begannen große multinationale Unternehmen, insbesondere die E-Commerce- und Marketingunternehmen, die gleiche Strategie zu verfolgen und zu überwachen Kundenaktivitäten zur Förderung von Marken und Produkten, die zur Analytik-Branche führten. Jetzt wird es nicht so leicht sättigen, da Unternehmen den tatsächlichen Wert von Daten erkannt haben, um in jeder Phase des Projekts von Anfang bis Ende Kernentscheidungen zu treffen, um die besten optimierten Lösungen in Bezug auf Kosten, Menge, Markt, Ressourcen und Verbesserungen zu schaffen.Die V’s von Big Data sind Volumen, Geschwindigkeit, Vielfalt, Wahrhaftigkeit, Wertigkeit und Wert und jeder beeinflusst die Datenerfassung, Überwachung, Speicherung, Analyse und Berichterstattung. Das Ökosystem in Bezug auf die Technologie-Player von Big Data System ist wie unten zu sehen.

Jetzt werde ich jede Technologie einzeln besprechen, um einen Einblick in die wichtigen Komponenten und Schnittstellen zu geben.

Wie man Daten aus Social Media Daten von Facebook, Twitter und Linkedin in einfache CSV-Datei zur weiteren Verarbeitung extrahiert.Um Facebook-Daten mit einem Python-Code extrahieren zu können, müssen Sie sich als Entwickler bei Facebook registrieren und dann über ein Zugriffstoken verfügen. Hier sind die Schritte dafür.

1. Zum Link developers.facebook.com , erstellen Sie dort ein Konto.

2. Zum Link developers.facebook.com/tools/explorer.

3. Gehen Sie zu „Meine Apps“ in der oberen rechten Ecke und wählen Sie „Neue App hinzufügen“. Wählen Sie einen Anzeigenamen und eine Kategorie und dann „App-ID erstellen“.

4. Wieder zurück zum gleichen Link developers.facebook.com/tools/explorer . Sie sehen „Graph API Explorer“ unter „Meine Apps“ in der oberen rechten Ecke. Wählen Sie im Dropdown-Menü „Graph API Explorer“ Ihre App aus.

5. Wählen Sie dann „Token abrufen“. Wählen Sie in dieser Dropdown-Liste „Benutzerzugriffstoken abrufen“. Wählen Sie Berechtigungen aus dem angezeigten Menü und dann „Zugriffstoken abrufen“.“

6. Zum Link developers.facebook.com/tools/accesstoken . Wählen Sie „Debug“ entsprechend „User Token“. Gehen Sie zu „Token-Zugriff erweitern“. Dadurch wird sichergestellt, dass Ihr Token nicht alle zwei Stunden abläuft.

Python-Code für den Zugriff auf öffentliche Facebook-Daten:

Gehen Sie zu link https://developers.facebook.com/docs/graph-api Wenn Sie Daten zu öffentlich verfügbaren Daten sammeln möchten. Siehe https://developers.facebook.com/docs/graph-api/reference/v2.7/. Wählen Sie in dieser Dokumentation ein beliebiges Feld aus, aus dem Sie Daten extrahieren möchten, z. B. „Gruppen“ oder „Seiten“ usw. Gehen Sie zu Code-Beispielen, nachdem Sie diese ausgewählt haben, und wählen Sie dann „facebook Graph api“. In diesem Blog geht es in erster Linie um das Abrufen von Ereignisdaten.

Importieren Sie zunächst ‚urllib3‘, ‚facebook‘, ‚requests‘, falls diese bereits verfügbar sind. Wenn nicht, laden Sie diese Bibliotheken herunter. Definieren Sie ein variables Token und setzen Sie seinen Wert auf das, was Sie oben als „Benutzerzugriffstoken“ erhalten haben.

Extrahieren von Daten aus Twitter:

Einfache 2 Schritte können wie folgt befolgt werden

  1. Sie finden auf der Seite mit den Anwendungsdetails; wechseln Sie zur Registerkarte ‚Schlüssel und Zugriffstoken‘, scrollen Sie nach unten und klicken Sie auf ‚Mein Zugriffstoken erstellen‘. Notieren Sie sich die Werte von API Key und API Secret für die zukünftige Verwendung. Du darfst diese nicht mit jemandem teilen, man kann auf dein Konto zugreifen, wenn sie die Schlüssel bekommen.
  2. Um Tweets zu extrahieren, müssen Sie eine sichere Verbindung zwischen R und Twitter wie folgt herstellen:

#Clear R Environment
rm(list=ls())
#Load required libraries
install .pakete(„twitteR“)
installieren.packages(„ROAuth“)
library(„twitteR“)
library(„ROAuth“)
# Laden Sie die Datei herunter und speichern Sie sie in Ihrem Arbeitsverzeichnis
download.datei(url= „http://curl.haxx.se/ca/cacert.pem“, destfile= „cacert.pem“)

#Legen Sie Ihre ConsumerKey und ConsumerSecret unten
credentials <- OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX‘,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX‘,
requestURL=’https://api.twitter.com/oauth/request_token‘,
AccessURL=’https://api.twitter.com/oauth/access_token‘,
authURL=’https://api.twitter.com/oauth/authorize‘)
cred$handshake(cainfo=“cacert.pem“)
#Authentifizierungsdaten laden
laden(„Twitter-Authentifizierung.Rdata“)

#Twitter-Authentifizierung registrieren
setup_twitter_oauth(credentials$ConsumerKey, credentials$ConsumerSecret, credentials$oauthKey, credentials$oauthSecret)
#Extrahieren Sie Tweets mit einer Zeichenfolge(erstes Argument), gefolgt von der Anzahl der Tweets (n) und der Sprache (lang)
tweets <- searchTwitter(‚#DataLove‘, n=10, lang=“en“)

Jetzt können Sie ein beliebiges Wort in der Twitter-Suchfunktion suchen, um die Tweets zu extrahieren, die das Wort enthalten.

Extrahieren von Daten aus Oracle ERP

Sie können den Link besuchen, um Schritt für Schritt die Extraktion der CSV-Datei aus der Oracle ERP Cloud-Datenbank zu überprüfen.

Datenerfassung und -speicherung:

Sobald die Daten extrahiert sind, müssen sie gespeichert und verarbeitet werden, was wir im Datenerfassungsschritt und in der Speicherung tun.
Mal sehen, wie Spark, Cassandra, Flume, HDFS, HBASE funktioniert.

Spark

Spark kann auf verschiedene Arten bereitgestellt werden, bietet native Bindungen für die Programmiersprachen Java, Scala, Python und R und unterstützt SQL, Streaming-Daten, maschinelles Lernen und Grafikverarbeitung.
RDD ist das Framework für Spark, das bei der parallelen Verarbeitung von Daten hilft, indem es in Datenrahmen unterteilt wird.
Um Daten von der Spark-Plattform zu lesen, verwenden Sie den folgenden Befehl

results = spark.sql(„Select * From people“)
Namen = Ergebnisse.karte (lambda p: p.name )
Stellen Sie mit einfachen Befehlen und Funktionen eine Verbindung zu einer beliebigen Datenquelle wie json, JDBC, Hive und Spark her. Wie Sie JSON-Daten wie folgt lesen können

Funken.lesen.json(„s3n://…“).registerTempTable(„json“)
Ergebnisse = Funken.sql(„SELECT * FROM people JOIN json …“)

Spark besteht aus mehr Funktionen wie dem Streaming von Echtzeitdatenquellen, die wir oben mit R und Python source gesehen haben.

Auf der Apache Spark-Hauptwebsite finden Sie viele Beispiele, die zeigen, wie Spark eine Rolle bei der Datenextraktion und -modellierung spielen kann.
https://spark.apache.org/examples.html

Cassandra:

Cassandra ist auch eine Apache-Technologie wie Spark zum Speichern und Abrufen von Daten und zur Speicherung in mehreren Knoten, um 0 Fehlertoleranz bereitzustellen. Es verwendet normale Datenbankbefehle wie Erstellen, Auswählen, Aktualisieren und Löschen. Sie können auch Indizes, materialisierte und normale Ansicht mit einfachen Befehlen wie in SQL erstellen. Erweiterung ist, dass Sie den JSON-Datentyp verwenden können, um zusätzliche Operationen auszuführen, wie unten gezeigt

Insert into mytable JSON ‚{ „\“myKey\““: 0, „value“: 0}‘

Es bietet git hub Open-Source-Treiber für die Verwendung mit .net, Python, Java, PHP, NodeJS, Scala, Perl, ROR.

Wenn Sie die Datenbank konfigurieren, müssen Sie die Anzahl der Knoten nach Knotennamen konfigurieren, Token basierend auf der Last auf jedem Knoten zuweisen. Sie können auch Autorisierungs- und Rollenbefehle verwenden, um die Berechtigung auf Datenebene für einen bestimmten Knoten zu verwalten.

Für weitere Details können Sie auf den angegebenen Link verweisen
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

Casandra verspricht eine Fehlertoleranz von 0, da es mehrere Optionen zur Verwaltung der Daten auf einem bestimmten Knoten durch Zwischenspeichern, Transaktionsmanagement, Replikation, Parallelität für Lese- und Schreibvorgänge, Festplattenoptimierungsbefehle, Verwaltung des Transports und der Länge der Datenrahmengröße bietet.

HDFS

Was ich an HDFS am meisten mag, ist sein Symbol, ein riesiger Elefant, der so mächtig und widerstandsfähig ist wie HDFS selbst.

Wie im obigen Diagramm zu sehen ist, ähnelt das HDFS-System für Big Data Cassandra, bietet jedoch eine sehr einfache Schnittstelle zu externen Systemen.
Die Daten werden in verschiedene oder ähnliche Größe Datenrahmen, die in verteilten Dateisystem gespeichert sind gehackt. Daten werden basierend auf optimierten Abfrageergebnissen weiter an verschiedene Knoten übertragen, um Daten zu speichern. Die grundlegende Architektur ist ein zentralisiertes Modell von Hadoop, wenn das Map-Reduce-Modell verwendet wird.
1. Die Daten werden in Blöcke von etwa 128 MB
2 unterteilt. Diese Daten werden dann auf verschiedene Knoten verteilt
3. HDFS überwacht die Verarbeitung
4. Replikation und Caching werden durchgeführt, um eine maximale Fehlertoleranz zu erreichen.
5. nachdem map und Reduce ausgeführt und Jobs erfolgreich berechnet wurden, kehren sie zum Hauptserver zurück

Hadoop ist hauptsächlich in Java codiert.
Eine Kurzanleitung für alle Hadoop-bezogenen Konzepte finden Sie unter folgendem Link
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

Reporting und Visualisierung

Lassen Sie uns nun über SAS, R Studio und Kime sprechen, die zur Analyse großer Datensätze mit Hilfe komplexer Algorithmen verwendet werden, bei denen es sich um Algorithmen für maschinelles Lernen handelt, die auf einigen komplexen mathematischen Modellen basieren, die den gesamten Datensatz analysieren und die grafische Darstellung für ein bestimmtes gewünschtes Geschäftsziel erstellen. Beispiel Verkaufsdaten, Kundenmarktpotenziale, Ressourcenauslastung etc.

SAS, R und Kinme alle drei Werkzeuge bieten eine breite Palette von Funktionen von Advanced Analytics, IOT, maschinelles Lernen, Risikomanagement-Methoden, Security Intelligence.

Aber da von ihnen einer kommerziell ist und andere 2 Open Source sind, haben sie einige große Unterschiede zwischen ihnen.

Anstatt jeden von ihnen einzeln durchzugehen, habe ich jeden der Softwareunterschiede und einige nützliche Tipps zusammengefasst, die über sie sprechen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.