Big data ecosystem

It not ‘ Now a day Big data..”história que deu origem a esta era de grandes dados, mas há muito tempo …” os humanos começaram a recolher informações através de inquéritos manuais, websites, sensores, ficheiros e outras formas de métodos de recolha de dados. Mesmo isso inclui organizações internacionais como a OMS, a ONU, que coletou internacionalmente todos os possíveis conjuntos de informações para monitorar e rastrear atividades não apenas relacionadas com humanos, mas vegetação e espécies animais para tomar decisões importantes e implementar as ações necessárias.assim, as grandes multinacionais, especialmente as empresas de comércio eletrônico e marketing, começaram a utilizar a mesma estratégia para acompanhar e monitorar as atividades dos clientes para promover marcas e produtos que deram origem ao ramo de análise. Agora não vai saturar tão facilmente como empresas começaram a perceber o valor real de dados para a tomada de decisões centrais em cada fase do projeto do início ao fim para criar melhores soluções otimizadas em termos de custo, quantidade, mercado, recursos e aprimoramentos.

Os V de dados grandes são volume, Velocidade, variedade, veracidade, Valência e valor e cada impacto coleta de dados, monitoramento, armazenamento, análise e relatórios. O ecossistema em termos de jogadores de tecnologia de grande sistema de dados é como se vê abaixo.

Agora vou discutir a tecnologia de cada um por um para dar um vislumbre do que a importantes componentes e interfaces.

Como extrair dados de redes sociais de dados do Facebook, Twitter e linkedin em um arquivo csv simples para processamento posterior.

para ser capaz de extrair dados do Facebook usando um código python você precisa se registrar como um desenvolvedor no Facebook e, em seguida, ter um token de acesso. Aqui estão os passos para isso.1. Ir para a ligação developers.facebook.com, criar uma conta lá.2. Ir para a ligação developers.facebook.com/tools/explorer 3. Vá para” My apps “cair no canto superior direito e selecione”Adicionar um novo aplicativo”. Escolha um nome de exibição e uma categoria e, em seguida, “criar App ID”.4. Mais uma vez volte ao mesmo link developers.facebook.com/tools/explorer. você verá ” Graph API Explorer “abaixo de” My Apps ” no canto superior direito. Da lista “Graph API Explorer”, seleccione a sua aplicação.5. Em seguida, selecione “Obter Token”. A partir desta lista, seleccione “obter o item de Acesso Do Utilizador”. Seleccione as permissões do menu que aparece e depois seleccione “obter o item de acesso.”

6. Ir para a ligação developers.facebook.com/tools/accesstoken. seleccione ” depurar “correspondente a”Token de utilizador”. Vá para “Extend Token Access”. Isto irá garantir que o seu token não expire a cada duas horas.

Python Code to Access Facebook Public Data:

Go to link https://developers.facebook.com/docs/graph-api if want to collect data on anything that is available publicly. Ver https://developers.facebook.com/docs/graph-api/reference/v2.7/. A partir desta documentação, escolha qualquer campo que você deseja extrair dados como” grupos “ou” páginas”, etc. Vá para exemplos de códigos depois de ter selecionado estes e, em seguida, selecione “API do grafo do facebook” e você vai obter dicas sobre como extrair informações. Este blog é principalmente sobre a obtenção de dados de eventos.

em primeiro lugar, importar ‘urllib3’, ‘facebook’, ‘requests’ se já estiverem disponíveis. Caso contrário, descarregue essas bibliotecas. Defina um token variável e defina o seu valor para o que você tem acima como “Token de acesso ao usuário”.

a Extração de dados a partir do Twitter:

2 Simples passos podem ser seguidos como abaixo

  1. Você vai dar na página de detalhes da aplicação; mova-se para a página’ Keys and Access Tokens’, desloque para baixo e carregue em’Create my access token’. Note Os valores do API Keyand API Secret para uso futuro. Se não partilhares isto com ninguém, podes aceder à tua conta se eles tiverem as chaves.
  2. A fim de extrair tweets, você precisará estabelecer uma conexão segura entre R e Twitter da seguinte forma,

#ambiente R Claro
rm(lista=ls())
#carregar bibliotecas necessárias
instalar.packs (“twitteR”)
install.packs (“ROAuth”)
library (“twitteR”)
library (“ROAuth”)
# Download do arquivo e loja em seu diretório de trabalho
download.file (url= “http://curl.haxx.se/ca/cacert.pem”, destfile= “cacert.pem”)

#Inserir o seu consumerKey e consumerSecret abaixo
credenciais <- OAuthFactory$new(consumerKey=’XXXXXXXXXXXXXXXXXX’,
consumerSecret=’XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX’,
requestURL=’https://api.twitter.com/oauth/request_token’,
accessURL=’https://api.twitter.com/oauth/access_token’,
authURL=’https://api.twitter.com/oauth/authorize’)
cred$handshake(cainfo=”cacert.pem”)#Load Authentication Data
load (“twitter authentication.Rdata”)

#Registar o Twitter de Autenticação
setup_twitter_oauth(credenciais$consumerKey, credenciais$consumerSecret, credenciais$oauthKey, credenciais$oauthSecret)
#Extrato de Tweets em causa a seqüência de caracteres(primeiro argumento), seguido pelo número de tweets (n) e o idioma (lang)
tweets <- searchTwitter(‘#DataLove’, n=10, lang=”pt”)

Agora você pode pesquisar qualquer palavra na caixa de busca do Twitter função para extrair os tweets que contenham a palavra.a extrair dados do Oracle ERP

pode visitar a ligação para verificar passo a passo a extracção do ficheiro csv a partir da base de dados oracle ERP cloud.

Data Acquisition and Storage:

Now once the data is extracted, it has to be stored and processed which we do in data acquisition step and storage.vamos ver como Spark, Cassandra, Flume, HDFS, HBASE funciona.

Spark

Spark pode ser implantado em uma variedade de maneiras, fornece ligações nativas para as linguagens de programação Java, Scala, Python e R, e suporta SQL, streaming de dados, aprendizagem de máquinas e processamento de grafos.
RDD é o framework para spark que irá ajudar no processamento paralelo de dados dividindo-o em quadros de dados.
para ler dados da plataforma Spark, use o comando abaixo

resultados = spark.SQL (“Select * From people”)
names = results.mapa (lambda p: p.name)
conecte-se a qualquer fonte de dados como json, JDBC, Colmeia para Spark usando comandos e funções simples. Como se você pudesse ler os dados json como abaixo

spark.ler.json (“s3n://…”).registerTempTable (“json”)
results = spark.sql (“SELECT * FROM people JOIN json…”)

Spark consiste em mais recursos como streaming a partir de fontes de dados em tempo real que vimos acima usando a fonte r e python.

no site principal apache spark você pode encontrar muitos exemplos que mostram como spark pode desempenhar um papel na extração de dados, modelagem.Cassandra: Cassandra: Cassandra é também uma tecnologia Apache como faísca para armazenamento e recuperação de dados e armazenamento em múltiplos nós para fornecer 0 tolerância à falha. Ele usa comandos de banco de dados normais como criar, selecionar, Atualizar e excluir operações. Também você pode criar índices, materializado e visão normal com comandos simples como em SQL. A extensão é que você pode usar o tipo de dados JSON para realizar operações adicionais como o visto abaixo

inserir no mytable JSON ‘ {“\”myKey\””: 0, “valor”: 0}’

ele fornece drivers de código aberto do git para serem usados com.Net, Python, Java, PHP, NodeJs, Scala, Perl, ROR.

ao configurar a base de dados, é necessário configurar o número de nós pelos nomes dos nós, alocar token com base na carga em cada nó. Você também pode usar comandos de autorização e função para gerenciar a permissão de nível de dados sobre um determinado nó.

Para mais detalhes você pode se referir a determinado link
http://cassandra.apache.org/doc/latest/configuration/cassandra_config_file.html

Casandra promete atinge de 0 a tolerância a falhas como fornece várias opções para gerenciar os dados em um determinado nó de cache, gerenciamento de transações, a replicação, a simultaneidade para ler e escreve, otimização de disco de comandos, gerenciar o transporte e a duração do quadro de dados de tamanho.

HDFS

O que mais gosto em HDFS é o seu Ícone, um elefante jumbo poderoso e resistente como HDFS em si.

Como visto no diagrama acima, o HDFS sistema para grandes volumes de dados é semelhante, como Cassandra, mas oferece uma simples interface com sistemas externos.dados são cortados em diferentes ou semelhantes quadros de dados de tamanho que são armazenados no sistema de arquivos distribuídos. Os dados são ainda transferidos para vários nós com base em resultados de consulta otimizados para armazenar dados. A arquitetura básica é do modelo centralizado de Hadoop se o mapa reduzir o modelo.
1. Os dados são divididos em blocos de cerca de 128 MB
2. Estes dados são distribuídos através de vários nós
3. HDFS supervisiona o processamento
4. A replicação e a caching são realizadas para obter a máxima tolerância à falha.
5. depois que o map and reduce é executado e as tarefas computadas com sucesso, elas voltam para o servidor principal

Hadoop é principalmente codificado em Java, por isso é ótimo se você começar algumas mãos em Java do que ele vai rápido e fácil de configurar e executar todos esses comandos.
Um guia rápido para todo o Hadoop relacionados com o conceito pode ser encontrado no link abaixo
https://www.tutorialspoint.com/hadoop/hadoop_quick_guide.html

Relatórios e Visualização

Agora Vamos falar sobre o SAS, R studio e Kime que são utilizados para a análise de grandes conjuntos de dados com a ajuda de algoritmos complexos que são algoritmos de aprendizado que são baseados em alguns modelos matemáticos complexos que analisa conjunto completo de dados e cria a representação gráfica para participar específico desejado objetivo de negócios. Exemplo de dados de vendas, potencial de mercado do cliente, utilização de recursos, etc.

SAS, R e Kinme todas as três ferramentas oferecem uma ampla gama de recursos de análise avançada, IOT, aprendizagem de máquinas, metodologias de gestão de risco, inteligência de segurança.

mas como um deles é comercial e outros 2 são de código aberto, eles têm algumas grandes diferenças entre eles.

em vez de passar por cada um deles um por um, eu resumi cada uma das diferenças de software e algumas dicas úteis que falam sobre eles.

Deixe uma resposta

O seu endereço de email não será publicado.