Introdução ao Azure HDInsight

Escritor | 01:11 Leave a Comment

Introdução

Os dados estão em todos os lugares; na verdade, estamos agora no universo de "grandes dados", onde os sistemas de computação precisam lidar com imensa quantidade de dados para determinar certos padrões de comportamento. Apache Hadoop é um framework, que é projetado para lidar com esses enormes quantidades de dados.

Ao fazer Hadoop disponível como um serviço, HDInsight pode ajudar a gerenciar, analisar e informar sobre big data. Apache Hadoop usa Hadoop Distributed File System (HDFS) para fornecer armazenamento de dados confiável. O modelo de programação MapReduce é usado para processar e analisar os dados em paralelo.

HDInsight fornece um ambiente simples, fácil, escalável e eficiente em termos de custo. Quando HDInsight implanta um cluster, uma segunda headnode é adicionado aos clusters para aumentar a disponibilidade do serviço (ao contrário de implantações Hadoop clássicos).


O ecossistema Hadoop / HDInsight é visualizado abaixo.
Hadoop / HDInsight Ecosystem
Hadoop / HDInsight Ecosystem

Como HDInsight Gerencia e armazena dados

HDInsight usa armazenamento Azure Blob como o sistema de arquivos padrão. Clusters Hadoop são otimizados para a execução de tarefas computacionais MapReduce e pode ser descartado uma vez que as tarefas sejam executadas.  
Para gerenciar os trabalhos do Hadoop, HDInsight usa Azure PowerShell.

Como Chegar Stared com Usando HDInsight


Para começar a usar HDInsight, visite o Portal de Gestão Azure emhttps://manage.windowsazure.com   e faça login.
Depois que você estiver conectado, você será presenteado com a página inicial da sua conta.
 Portal de Gestão Azure Homepage
 Portal de Gestão Azure Homepage
Clica no link HDInsight à esquerda.
HDInsight link
HDInsight link
Clique no link para "Criar um cluster HDinsight".
Criar um Cluster HDinsight
Criar um Cluster HDinsight
Forneça um nome de cluster e também especificar a senha para o "admin" função de usuário e clique em "Criar HDInsight Cluster".
Criar HDInsight Cluster
Criar HDInsight Cluster
Depois de enviar as informações, o processo de criação do cluster Hadoop começa, que pode ser visualizado como abaixo.
Processo Hadoop Cluster Criação
Processo Hadoop Cluster Criação
Pode levar até 10 minutos para concluir o provisionamento. Uma vez completo, o painel vai olhar como abaixo.
Provisionamento completo
Provisionamento completo
Clique na seta ao lado do nome do cluster e você será redirecionado para o painel de instrumentos HDInsight.
HEInsight Painel
HEInsight Painel
Aqui podemos acompanhar como nosso cluster Hadoop está realizando. Podemos ver que o meu caso particular está usando 24 núcleos de um total possível de 170 núcleos HDInsight.
Depois que o cluster HDInsight foi provisionado, podemos agendar nossos trabalhos MapReduce. Um trabalho de MapReduce precisa de um programa de MapReduce (arquivo .jar) e insumos (se aplicável).
Azure PowerShell pode ser usado para executar trabalhos.

Resumo

Neste artigo, nós demos uma visão geral de HDInsight.