それは今、ビッグデータの日ではありません。.”ビッグデータのこの時代を生み出した物語が、”ずっと前に…”人間は、手動調査、ウェブサイト、センサー、ファイルやデータ収集方法の他の形態を介して情報を収集 これには、人間だけでなく、植生や動物種に関連する活動を監視し追跡するためのすべての可能な情報を国際的に収集し、重要な決定を下し、必要な行動を実施するためのWHO、国連などの国際機関も含まれています。
だから、大規模な多国籍企業は、特別にeコマースやマーケティング会社は、分析ブランチを生じさせたブランドや製品を促進するために、顧客の活動を追跡し、監視するために同じ戦略を利用し始めました。 今では、コスト、量、市場、リソース、強化の面で最適化されたソリューションを作成するために、プロジェクトのすべての段階でコア意思決定を最初から最後まで行うための本当の価値のあるデータを企業が実現しているので、簡単に飽和することはありません。
ビッグデータのVは、ボリューム、速度、多様性、信憑性、価数、および値であり、それぞれがデータ収集、監視、ストレージ、分析、およびレポートに影響を与えます。 ビッグデータシステムの技術プレーヤーの面での生態系は以下のようになります。/div>私はどのような重要なコンポーネントやインターフェイスを垣間見るために、各技術を一つずつ議論します。Facebook、Twitter、linkedinのソーシャルメディアデータからデータを簡単なcsvファイルに抽出して、さらに処理する方法。
Facebook、Twitter、linkedinからデータを抽出する方法。
pythonコードを使用してFacebookからデータを抽出できるようにするには、Facebookで開発者として登録してからアクセストークンを取得する必要があります。 ここにそれのためのステップがあります。
1. リンクへdevelopers.facebook.com、そこにアカウントを作成します。
2. リンクへdevelopers.facebook.com/tools/explorer.
3. 右上の”マイアプリ”ドロップダウンに移動し、”新しいアプリを追加”を選択します。 表示名とカテゴリを選択し、”アプリIDの作成”を選択します。
4. 再び同じリンクに戻るdevelopers.facebook.com/tools/explorer右上の「マイアプリ」の下に「Graph API Explorer」が表示されます。 「Graph API Explorer」ドロップダウンから、アプリを選択します。
5. 次に、”Get Token”を選択します。 このドロップダウンから、”Get User Access Token”を選択します。 表示されるメニューから権限を選択し、”アクセストークンの取得”を選択します。”
6. リンクへdevelopers.facebook.com/tools/accesstoken「User Token」に対応する「Debug」を選択します。 “トークンアクセスの拡張”に移動します。 これにより、トークンの有効期限が2時間ごとに切れることはありません。
Facebookの公開データにアクセスするためのPythonコード:
リンクに移動しますhttps://developers.facebook.com/docs/graph-api公開されているデータを収集したい場合。Facebook https://developers.facebook.com/docs/graph-api/reference/v2.7/を参照してください。 このドキュメントから、”グループ”や”ページ”などのデータを抽出するフィールドを選択します。 これらを選択した後、コードの例に移動し、”facebook graph api”を選択すると、情報を抽出する方法についてのヒントが得られます。 このブログは、主にイベントデータを取得することです。
まず、’urllib3’、’facebook’、’requests’が既に利用可能な場合はインポートします。 そうでない場合は、これらのライブラリをダウンロー 変数tokenを定義し、その値を上記の”User Access Token”として設定します。
簡単な2つのステップは、以下のように従うことができます
- あなたは、アプリケーションの詳細ページで貸します; “キーとアクセストークン”タブに移動し、下にスクロールして”アクセストークンの作成”をクリックします。 将来の使用のために、API KeyとAPI Secretの値に注意してください。 あなたは誰ともこれらを共有してはいけません、彼らはキーを取得した場合、一つはあなたのアカウン
- ツイートを抽出するには、次のようにRとTwitterの間の安全な接続を確立する必要があります。
#Clear R Environment
rm(list=ls())
#必要なライブラリをロード
install。パッケージ(“twitteR”)
インストールします。packages(“ROAuth”)
library(“twitteR”)
library(“ROAuth”)
#ファイルをダウンロードし、作業ディレクトリに保存します
ダウンロードします。ファイル(url=”http://curl.haxx.se/ca/cacert.pem”,destfile=”cacert.pem”)
#consumerKeyとconsumerSecretを以下に挿入します。
資格情報<-OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
accessURL=’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
cred hand handshake(cainfo=”cacert.pem”)
#認証データをロード
load(“twitter認証。Rdata”)
#Twitter認証を登録
setup_twitter_oauth(credentials$consumerKey,credentials$consumerSecret,credentials$oauthKey,credentials$oauthSecret)
#関連する文字列(最初の引数)を持つツイートを抽出し、その後にツイート数(n)と言語(lang)
ツイート<-searchTwitter(‘#DataLove’,n=10,lang=”今、あなたは単語を含むつぶやきを抽出するために検索twitter機能で任意の単語を検索することができます。oracle ERPからのデータの抽出oracle ERP cloudデータベースからのcsvファイルの段階的な抽出を確認するためのリンクを参照してください。
データ取得とストレージ:
データが抽出されたら、データ取得ステップとストレージで行う保存および処理する必要があります。
データ
Spark、Cassandra、Flume、HDFS、HBASEがどのように機能するかを見てみましょう。Sparkはさまざまな方法でデプロイでき、Java、Scala、Python、Rプログラミング言語のネイティブバインディングを提供し、SQL、ストリーミングデータ、機械学習、グラフ処理
RDDはsparkのフレームワークで、データをデータフレームに分割して並列処理するのに役立ちます。
Spark platformからデータを読み取るには、以下のコマンドを使用します。
results=spark。sql(“Select*From people”)
names=結果。地図(ラムダp:p.name)
json、JDBC、hiveなどの任意のデータソースに接続して、簡単なコマンドと関数を使用してSparkに接続します。 以下のようにjsonデータを読むことができます。
spark。読む。json(“s3n://…”)。registerTempTable(“json”)
results=spark.sql(“SELECT*FROM people JOIN json…”)
Sparkは、Rとpythonソースを使用して上記で見たリアルタイムのデータソースからのストリーミングのような機能で構成されています。
メインのapache spark webサイトでは、sparkがデータ抽出、モデリングでどのように役割を果たすかを示す多くの例を見つけることができます。
https://spark.apache.org/examples.html
Cassandra:
Cassandraはまた、0フォールトトレランスを提供するために、複数のノードでデータとストレージのストレージと検索のためのsparkのようなApache技術です。 Create、select、update、delete操作などの通常のデータベースコマンドを使用します。 また、sqlのような単純なコマンドでインデックス、マテリアライズド、通常のビューを作成することもできます。 拡張機能は、以下のような追加の操作を実行するためにJSONデータ型を使用できることです
Insert into mytable JSON'{“\”myKey\””:0,”value”:0}’
.net、Python、Java、PHP、NodeJs、Scala、Perl、RORで使用されるgit hubオープ
データベースを設定するときは、ノード名によってノードの数を設定する必要があり、各ノードの負荷に基づいてトークンを割り当てます。 また、authorizationコマンドとroleコマンドを使用して、特定のノードに対するデータレベルの権限を管理することもできます。
詳細については、指定されたリンクを参照することができます
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html
Casandraは、キャッシュ、トランザクション管理、レプリケーション、読み取りと書き込みの同時実行、ディスク最適化コマンド、データフレームサイズの輸送と長さを管理することにより、特定のノード上のデータを管理するための複数のオプションを提供するため、0フォールトトレランスを達成することを約束します。私がHDFSについて最も好きなのは、そのアイコン、hdfs自体のように強力で弾力性のあるジャンボ象です。/div>上の図に示すように、ビッグデータ用のhdfsシステムはcassandraのように似ていますが、外部システムとの非常に簡単なインターフェイスを提供します。
データは、分散ファイルシステムに格納されている異なるまたは類似のサイズのデータフレームにチョップされます。 データはさらに、データを格納するために最適化されたクエリ結果に基づいて様々なノードに転送されます。 基本的なアーキテクチャは、Hadoop if Map reduceモデルの集中型モデルです。
1. データは128MB
2のブロックに分割されます。 これらのデータは、さまざまなノードに分散されています
3. HDFSは処理を監督します
4. レプリケーションとキャッシュは、最大のフォールトトレランスを得るために実行されます。
5. mapとreduceが実行され、ジョブが正常に計算された後、それらはメインサーバーに戻ります
Hadoopは主にJavaでコード化されているので、Javaを手に入れれば、これらのコ
すべてのHadoop関連の概念のためのクイックガイドは、以下のリンクで見つけることができます
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html
レポートと可視化
今、完全なデータセットを分析し、特定の所望のビジネス目標に出席するためにグラフィカルな表現を作成するいくつかの複雑な数学的モデルに基づいている機械学習アルゴリズムである複雑なアルゴリズムの助けを借りて、大規模なデータセットを分析するために使用されるSAS、R studioとKimeについて話しましょう。 販売データ、顧客市場の可能性、資源利用などの例SAS、R、Kinmeの三つのツールはすべて、高度な分析、IOT、機械学習、リスク管理方法論、セキュリティインテリジェンスからの機能の広い範囲を提供しています。
しかし、それらのうち1つは商用であり、他の2つはオープンソースであるため、それらの間にいくつかの大きな違いがあります。
それぞれを一つずつ調べるのではなく、それぞれのソフトウェアの違いとそれらについて話すいくつかの有用なヒントを要約しました。