[MÚSICA] Olá, nesta videoaula nós vamos continuar a usar o software Stata 13 para fazer cluster analysis. O nosso primeiro exercício foi bem simples, foi daquela base de dados de gastos diários e esse segundo vai ser pouco mais sofisticado, porque nós vamos usar base de dados de cremes dentais. Primeira coisa, então, abrimos o nosso software e carregamos a base de dados através do comando import Excel, fazemos browse e ai vamos diretamente na base de dados cremes dentais e abrimos. Clicamos aqui para que a primeira linha acabe ficando no lugar certo e damos ok. Só para ver o que está carregado, é fácil dar comando sum e aí você tem aqui os respondentes, as variáveis são de V1 a V6, estão medidas escala [INCOMPREENSÍVEL] de a sete. Esse comando sum, como todos os comandos do Stata, podem ser sempre dados da seguinte maneira. Você pode clicar o comando e dar ok e ele faz ou você pode sempre usar o comando que a gente chama de point and click e você vem aqui summary summary statistics e ele acaba fazendo o summarize e se você der ok deixando todas as variáveis, ele faz para todas as variáveis. Lembre-se sempre que, então, Stata, você pode tanto escrever o comando aqui, como fazer o point and click. Eu deveria agora entrar estatísticas e entrar análises multivariadas de dados, cluster analysis, cluster data e solicitar o método. Vocês estão vendo, parcialmente, que o nosso bloco sai pouco do nosso campo visual. Então, eu vou usar aqui a técnica de colocar o comando digitado. Eu peço que você olhe esse comando com atenção. Nós estamos digitando cluster, espaço, wardslinkage, que é o método que nós vamos usar o método de encadeamento chamado de método de ward, conforme nós vimos na nossa videoaula, V, asterisco. Nós queremos que estas variáveis que começam com V, ou seja, de V1 a V6, entre na minha análise de medidas euclidianas e eu vou usar como medida a medida euclidiana ao quadrado. Dá enter e, de novo, a gente sabe que foi feito uma análise de cluster, que não aparece aqui na minha tela principal, mas está sim no meu banco de dados. Quando eu vou lá, eu percebo que foram criadas três colunas, uma de identificação das 30 observações, a outra que ordena as observações de acordo com a distância, isso aqui é chamado de HGT, que seria como se fosse altura inglês, e aí você tem já a base pronta para pedir para o Stata fazer o gráfico que me permite decidir o número de grupos, que é gráfico chamado dendrograma. O dendrograma, ele aparece pós-cluster e eu vou preferir colocar então o cursor pouco mais para baixo para que você veja pelo método de point and click. Eu venho aqui, já fiz o meu cluster e agora clico aqui dendograma. Enquanto ele faz, eu volto com o meu cursor para que você tenha o campo visual correto e aí ele pergunta: "Você quer o dendrogramado cluster ?". Eu só tenho, até o momento, esse. Eu vou dizer que sim. Eu posso até colocar aqui os respondentes aqui como o meu variable containing leaf labels aqui o meu label, e peço dendrograma. Dessa vez eu vou pedir dendrogramahorizontal para que você perceba a diferença. Pronto, aí está o dendrograma. Dessa vez ele é horizontal. Aqui a gente não consegue ler as observações, mas, claramente, a gente percebe que existem agrupamentos desses respondentes e o dendrograma serve, exatamente, para você definir o número de grupos. Como? Através da distância visual. Você está vendo que se eu fizer corte aqui, eu teria claramente dois grupos bem diferentes. Esse grupo que está aqui é bem diferente desse. Porém, se eu fizer corte aqui, eu tenho três grupos também suficientemente distantes, a distância aqui pode ser até pouco menor, mas três grupos talvez fosse a melhor decisão, do ponto de vista de marketing. De novo, a decisão é do analista. Ele pode escolher aleatoriamente ou até mesmo, se ele tiver uma teoria, modelo ou tiver já uma ideia de quantos planos ele quer preparar termos de segmentação. Vamos escolher, então, três grupos como se a gente tivesse fazendo o corte aqui e esses três grupos, eu tenho que contar para o Stata que eu quero três grupos e, para isso, eu tenho que fazer, de novo, uma mudança no meu cursor para que você acompanhe o comando. Eu venho, de novo, aqui estatísticas, vou análise multivariada, vou cluster, eu estou pós-cluster e eu peço para ele fazer summary das variables e agora voltando com o cursor para cá, eu posso dizer que eu quero que ele faça cluster que eu vou chamar de três. Por que? Porque são três grupos e assim eu lembro que eu coloquei o número três. É da minha clusterização, cluster eu só tenho essa até o momento e dou ok. De novo, a gente está vendo aqui, no nosso banco de dados, o que o Stata fez foi designar cada daqueles 30 respondentes a grupo de uma a três. Se eu quiser agora, eu posso pedir uma tabela que me resuma esses dados. Eu vou entrar aqui summary, other tables e vou clicar aqui compact tables of summary statistics. No campo variáveis, eu tenho três alternativas, como sempre. Eu posso clicar aqui, nessa flechinha e ele manda imediatamente para lá, como posso também clicar aqui e mandar para lá. E, como a gente já aprendeu, quando todas as variáveis começam com a mesma letra, eu posso simplesmente colocar V e asterisco. E eu quero que agora ele faça o grupamento de acordo com a minha coluna ou a minha variável cluster três. Eu vou pedir para ele calcular a média e vou pedir para ele calcular também a contagem, que eu quero saber quantas pessoas estão cada grupo. Quando eu dou ok, ele prepara uma tabela resumindo, para as variáveis de V1 a seis, qual é a média, ou também chamado centróide, nesse caso, dos meus três grupos. Eu sei, então, de antemão que o grupo valoriza muito a variável V1, que vocês devem se lembrar do nosso exercício, é a prevenção de cáries. Assim como valoriza muito a variável V3 e a variável V5 e a gente depois pode dar nomes a esses grupos e descobrir que esse grupo é grupo que tem grande preocupação com a saúde bucal. Como a gente já viu anteriormente, o grupo três é grupo que tem uma preocupação com a estética, que são as variáveis que deram notas elevadas e o grupo do meio é grupo que tem baixa preocupação com a saúde oral. Posso lançar uma pasta de dentes voltada então para a prevenção de cáries e também prevenção de problemas bucais, posso lançar uma segunda marca, uma segunda pasta focada no segmento de estética. Isso tudo a partir de uma análise de cluster feita com o método preciso e matemático de cálculo das distâncias euclidianas. Com isso, nós terminamos a nossa aplicação prática e você já está condições de começar a fazer os seus primeiros exercícios sozinho.