[MÚSICA] [SEM_ÁUDIO] Olá. Nesta aula de hoje nós vamos aprender a usar Stata para fazer cluster analysis. Primeira coisa, vamos abrir o software Stata versão 13 que é a que nós estamos usando e importar a base de dados. Primeira base que nós vamos usar, vamos fazer aqui o browse, é a base de dados chamada Gastos Diários. Esta base é aquela base muito simples que a gente já usou nas nossas vídeo aulas para mostrar os gastos diários de pessoas, entre comida e roupa. Toda vez que você importa uma base de dados você tem que identificar qual é a planilha. A planilha certa é planilha Dados, e aí clicar nessa casa para que o nome da variável assuma a posição correta. Você pode agora ir no editor, ver se a base de dados foi carregada corretamente. Nós temos aqui as cinco pessoas, os gastos diários com comida e os gastos diários com roupas. Portanto estamos já condições de pedir para o Stata fazer gráfico para que a gente possa identificar o posicionamento das pessoas relação aos pontos. O gráfico a gente faz aqui Gráficos. Vamos fazer gráfico chamado Twoway Graph, que é scatter porter, clicando nesse local você cria gráfico, você pode então definir aqui no seu eixo do Y, vamos colocar o X2, no eixo dos X, o X1 e vamos colocar no 'marker properties' para a gente identificar os pontos, que é nada mais é do que Label. Coloque aqui 'Add labels to markers' e vamos colocar Pessoas. Dá Accept e dá Ok e dá Ok aqui e aguarda alguns segundos até que o Stata faça gráfico colocando os cinco pontos de acordo com as variáveis comida e roupas. Estamos aguardando o Stata e aí estamos. Nada de novo. Os pontos A e D estão mais próximos, o conjunto C, B e E também. Ainda não fizemos cluster analysis, fizemos apenas gráfico de dispersão que indica que nós podemos ter dois agrupamentos, mas para isso temos que fazer o procedimento cluster analysis. Para fazer esse procedimento eu vou ter que deslocar pouco o cursor do nosso vídeo para que você acompanhe bem onde eu vou fazer. Eu vou clicar aqui Estatísticas, Análise multivariada, Cluster analysis. Estamos no início, portanto eu vou aqui no caminho cluster data e vou fazer pelo método do vizinho mais próximo, também chamado single linkage. Quando eu abro este comando, eu tenho que dizer quais são as variáveis. Obviamente que eu tenho várias maneiras de colocar as variáveis, eu posso colocar a variável indicando iluminada e ou mesmo poderia também colocar simplesmente as variáveis colocando X* uma vez que ele pegaria todas as variáveis que começariam com X. Eu não posso colocar a variável pessoa, porque é uma variável que tem respostas categóricas de A à E e não se presta a uma análise de cluster. Então colocando aqui as variáveis X1 e X2 eu vou agora escolher se eu quero a distância euclidiana ou a distância euclidiana ao quadrado. O Stata tem ainda várias outras distâncias que eu posso usar aqui nessa barra de rolamento, mas nós vamos fixar Marketing que a gente vai usar com mais frequência as distâncias euclidiana e ao quadrado. Nesse caso eu vou usar a distância euclidiana, dá Ok. E aparentemente o Stata não devolveu nenhuma resposta aqui, exceto o comando que que eu acabei de dar. Mas se você vier aqui no editor de dados você vai notar que o Stata fez três colunas que não haviam no meu banco de dados. Na coluna ele simplesmente identificou de a cinco as variáveis, na coluna dois ele ordenou, ele está me dizendo que o e o dois, ou seja, as observações A e D são próximas e que depois as observações três, quatro e cinco também são próximas. E estes números você vai lembrar estão exatamente na nossa tabela de Excel para distâncias euclidianas. Ou seja, o Stata fez agora uma coluna a partir de qual ele está condições de me fazer gráfico muito importante que vai me permitir decidir quantos grupos eu quero colocar. É o gráfico chamado Dendrograma. De novo eu vou deslocar o meu cursor e vou naquela Campo estatísticas, vou análise multivariada, vou cluster. Eu já fiz o cluster e, portanto, eu vou post cluster e vou pedir para fazer dendrograma. Quando eu peço para fazer o dendrograma o Stata abre esta tela e eu imediatamente estou condições de pedir para que ele faça o dendrograma deste cluster que foi o primeiro que eu fiz e eu posso já pedir para ele colocar aqui a identificação da pessoa, que assim quando sai o Stata eu já sei exatamente quem está agrupado com quem. Dá Ok e imediatamente nós vamos ter gráfico que nos permite olhar, observar, que o ponto A e D estão mais próximos, o C, B e E estão mais próximos. Existe uma grande distância entre esses dois agrupamentos. O agrupamento onde temos dois pontos e o agrupamento dois onde temos três pontos. Nós aqui temos que fazer uma decisão e a decisão é do pesquisador, é do estudante, é do profissional, é do analista de marketing, mas tecnicamente a melhor decisão é tomarmos aqui dois grupos. Decidido que vamos fazer dois grupos eu tenho que contar para o Stata que eu quero dois grupos e de novo eu vou ter que deslocar o meu cursor. Abrir Estatísticas, vou análise multivariada de dados, vou cluster data. Eu já fiz o meu cluster, agora eu vou post cluster e vou pedir para ele fazer summary, e gerar uma variável onde eu posso colocar nome, eu vou colocar aqui o nome Cluster underline 2 a partir da minha clusterização inicial e tenho que contar o número. A informação mais importante além do nome que você quer dar para coluna é o número de grupos. Eu escolhi dois grupos uma vez que pelo meu dendrograma eu cheguei a conclusão que eu tenho dois grupos bem distintos. Eu dou Ok. De novo dá impressão que não foi feito, mas sim, foi feito. Toda vez que o Stata sai comando aqui preto é porque a coisa funcionou, se tivesse tido algum erro teria saído vermelho. Olha só o que nós temos agora. Nós temos agora uma coluna nova chamada Cluster_2, onde ele me disse que a observação A e a observação D estão no mesmo cluster, enquanto que as observações B. C e E estão no Cluster_2. A partir daí eu posso agora fazer de novo aquele meu mesmo scatter plotter, só que agora eu queria criar outro e colocar aqui na variável Y, de novo, roupas, na variável X, de novo, comidas, mas eu queria marcar com propriedades a variável grupos. Eu quero saber onde cada pessoa caiu cada grupo. Então eu marco a variável Cluster_2. De antemão eu já posso dizer que eu tenho que colocar o label numa posição que me permita a leitura. Então eu vou colocar como se fosse num relógio oposto nove horas da noite e aí eu dou Ok, Aceito, Aceito, Ok. E aí ele vai fazer novo scatter plotter oficialmente me mostrando que eu tenho dois clusters o Cluster_1 e o Cluster_2. Com isso nós terminamos essa video aula de clusterização e você tem a possibilidade agora de fazer plano de marketing voltado para o Cluster_1 e plano de marketing voltado para o Cluster_2.