adatok kinyerése a Twitterről:
egyszerű 2 lépés követhető az alábbiak szerint
az alkalmazás részletei oldalon kölcsönözhet; lépjen a ‘kulcsok és hozzáférési tokenek’ fülre, görgessen lefelé, majd kattintson a ‘saját hozzáférési token létrehozása’gombra. Jegyezze fel az API Keyand API Secret értékeit későbbi felhasználásra. Nem osztod meg ezeket senkivel, hozzáférhetsz a fiókodhoz, ha megkapják a kulcsokat.
annak érdekében, hogy kivonat tweets, akkor létre kell hozni egy biztonságos kapcsolatot R és a Twitter az alábbiak szerint,
#Clear R környezet rm(list=ls()) #Load szükséges könyvtárak install.csomagok (“twitteR”) telepítés.csomagok (“ROAuth”) könyvtár (“twitteR”) könyvtár (“ROAuth”) # töltse le a fájlt, és tárolja a munkakönyvtárban letöltés.fájl (url = ” http://curl.haxx.se/ca/cacert.pem”, destfile= ” cacert.pem”)
#helyezze be a consumerKey és consumerSecret alábbi hitelesítő < – OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’, consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’, requestURL=’https://api.twitter.com/oauth/request_token’, accessURL=’https://api.twitter.com/oauth/access_token’, authURL=’https://api.twitter.com/oauth/authorize’) cred$kézfogás(cainfo= ” cacert.pem”) #load hitelesítési adatok load (“twitter hitelesítés.Rdata”)
#regisztráció Twitter hitelesítés setup_twitter_oauth(hitelesítő$consumerKey, hitelesítő$consumerSecret, hitelesítő$oauthKey, hitelesítő$oauthSecret) #kivonat Tweets az érintett string(első argumentum), majd számos tweets (n) és a nyelv (lang) tweets <- searchTwitter(‘#DataLove’, n=10, lang=”en”)
most lehet keresni minden szót a keresési Twitter funkció kivonat a tweets tartalmazó szót.
adatok kinyerése az Oracle ERP-ből
látogasson el a linkre, hogy lépésről lépésre ellenőrizze a csv fájl kivonását az oracle ERP cloud database-ből.
adatgyűjtés és tárolás:
Az adatok kinyerése után azokat tárolni és feldolgozni kell, amit az adatgyűjtési lépésben és tárolásban teszünk. lássuk, hogyan működik a Spark, Cassandra, Flume, HDFS, HBASE.
Spark
A Spark sokféle módon telepíthető, natív kötéseket biztosít a Java, Scala, Python és R programozási nyelvekhez, és támogatja az SQL-t, az adatfolyamot, a gépi tanulást és a gráffeldolgozást. az RDD a Spark keretrendszere, amely segít az adatok párhuzamos feldolgozásában azáltal, hogy adatkeretekbe osztja őket. a Spark platform adatainak olvasásához használja az alábbi
results = spark parancsot.sql (“Select * from people”) nevek = eredmények.térkép (lambda p: p.name) kapcsolódni bármilyen adatforrás, mint a json, JDBC, Hive Spark segítségével egyszerű parancsokat és funkciókat. Mint tudod olvasni json adatok az alábbiak szerint
spark.olvasd.json (“s3n://…”).registerTempTable (“json”) results = spark.sql (“SELECT * from people JOIN json…”)
A Spark több olyan funkciót tartalmaz, mint a valós idejű adatforrásokból történő streaming, amelyet fent láttunk az R és a python forrás használatával.
az apache Spark fő webhelyén számos példát talál, amelyek megmutatják, hogy a spark hogyan játszhat szerepet az adatok kinyerésében, modellezésében. https://spark.apache.org/examples.html
Cassandra:
Cassandra is egy Apache technológia, mint a spark tárolására és visszakeresésére adatok és tárolás több csomópont, hogy 0 hibatűrés. Normál adatbázis-parancsokat használ, mint például a létrehozás, kiválasztás, frissítés és törlés műveletek. Is létrehozhat indexek, materializált és normál nézet egyszerű parancsokat, mint az SQL. Extension használhatja JSON adattípus elvégzésére További műveletek, mint az alább látható
helyezze be mytable JSON ‘{ “\”myKey\””: 0, “érték”: 0}’
Ez biztosítja git hub nyílt forráskódú illesztőprogramokat kell használni.Net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.
az adatbázis konfigurálásakor konfigurálnia kell a csomópontok számát csomópontnevek szerint, kiosztani a tokent az egyes csomópontok terhelése alapján. Jogosultsági és szerepparancsokkal is kezelheti az adatszintű engedélyt egy adott csomóponton.
további részletekért hivatkozhat a megadott linkre http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html
a Casandra 0 hibatűrést ígér, mivel több lehetőséget kínál az adatok kezelésére egy adott csomóponton gyorsítótárazással, tranzakciókezeléssel, replikációval, olvasási és írási párhuzamossággal, lemezoptimalizálási parancsokkal, a szállítás és az adatkeret méretének kezelésével.
HDFS
amit a legjobban szeretek a HDFS-ben, az az ikonja, egy hatalmas elefánt, erős és rugalmas, mint maga a HDFS.
amint az a fenti ábrán látható, a HDFS rendszer a nagy adatokhoz hasonló, mint a Cassandra, de nagyon egyszerű kapcsolatot biztosít a külső rendszerekkel. az adatokat különböző vagy hasonló méretű adatkeretekre vágják, amelyeket elosztott fájlrendszerben tárolnak. Az adatokat az optimalizált lekérdezési eredmények alapján továbbítjuk a különböző csomópontokba az adatok tárolására. Az alapvető architektúra a Hadoop if Map reduce modell központosított modellje. 1. Az adatok vannak osztva blokkok mondjuk 128 MB 2. Ezek az adatok, mint elosztott különböző csomópontok 3. HDFS felügyeli a feldolgozás 4. A replikáció és a gyorsítótár a maximális hibatűrés elérése érdekében történik. 5. a map és a reduce végrehajtása és a feladatok sikeres kiszámítása után visszatérnek a fő szerverhez
a Hadoop főleg Java-ban van kódolva, így nagyszerű, ha kapsz egy kis kezét a Java-ra, mint amilyen gyorsan és egyszerűen beállítható és futtatható az összes parancs. Egy gyors útmutató az összes Hadoop kapcsolatos koncepció megtalálható az alábbi linken https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html
jelentési és vizualizációs
most beszéljünk SAS, R studio és kime amelyek elemzésére használt nagy adathalmazok segítségével komplex algoritmusok, amelyek gépi tanulási algoritmusok, amelyek alapján néhány komplex matematikai modellek, amelyek elemzi a teljes adathalmazt, és létrehozza a grafikus ábrázolás, hogy részt vegyen konkrét kívánt üzleti cél. Példa értékesítési adatokra, vevői piaci potenciálra, erőforrás-kihasználtságra stb.
SAS, R és Kinme mindhárom eszköz a fejlett analitika, az IOT, a gépi tanulás, a kockázatkezelési módszerek és a biztonsági intelligencia széles skáláját kínálja.
de mivel ezek közül az egyik kereskedelmi, a másik 2 pedig nyílt forráskódú, jelentős különbségek vannak közöttük.
ahelyett, hogy mindegyiket egyenként átnézném, összefoglaltam az egyes szoftverkülönbségeket és néhány hasznos tippet, amelyek róluk szólnak.