[MÚSICA] [ÁUDIO_EM_BRANCO] Olá. Para completar a nossa videoaula sobre o Uso de Stata Análise de Cluster, está faltando mostrar para você como que a gente usa o método kmeans e como a gente padroniza variáveis. Para isso, vamos abrir de novo o Stata e carregar a mesma base de dados do exercício anterior, que é aquela base de dados de cremes dentais. Eu estou indo agora pouco mais rápido, uma vez que você já viu a solução desse exercício de uma maneira bastante detalhada. Você se lembra que a gente aqui fez o nosso comando que a gente pode digitar aqui agora o comando de fazer clusters através do método de Ward. A gente pode escrever aqui 'cluster' espaço 'wards' 'linkage' espaço 'V*' para pegar todas as variáveis, vírgula 'measure' abre parênteses 'L2' 'squared'. Quando a gente dá esse comando, a gente já viu como anteriormente, na nossa base de dados é criada as colunas com as distâncias euclidianas medidas pelo método de Ward. A partir daí, a gente tem que dar aquele comando que vai nos permitir gerar as três colunas e, para isso, eu vou deslocar o nosso cursor de novo, clicar no comando de postclustering, que é de summary variables, que vai permitir que eu volte a colocar as minhas, eu vou colocar agora o nome de cluster três e dizer para o Stata que eu quero três grupos. Note que, da minha base de dados, eu tenho os grupos definidos de uma a três. Como que a gente pode fazer esses mesmos três grupos usando o método kmeans? Eu vou de novo aqui colocar o meu cursor mais para baixo e clicar estatísticas, análise multivariada, cluster, cluster data e agora eu venho aqui kmeans. O método kmeans, ele permite que eu coloque aqui as variáveis, de novo, V* e aqui é que eu tenho que definir o número de grupos. É grupo, o número de grupos é definido a priori. Como a gente já explicou na nossa videoaula, a gente pode escolher dois, três, quatro, quantos grupos a gente quiser. Eu vou definir como sendo dois grupos, perdão, três grupos, uma vez que eu quero realmente comparar com a solução obtida através da clusterização pelo método de Ward. Agora, eu vou colocar aqui já a distância euclidiana ao quadrado e eu posso dar nome para essa clusterização de cluster k3. K para lembrar que é do kmeans, três para lembrar que são três grupos. De novo, eu vou agora na minha base de dados e eu gostaria de pedir para você comparar esta solução com esta. Olha só. O que era grupo virou grupo três. O que era grupo dois, virou grupo. O que era grupo três, virou grupo dois. Mas, existe sim uma grande correspondência, tirando o nome do grupo, isso eu posso fazer agora uma tabela comparativa com as variáveis V* agrupadas, tanto pela como três grupos e aquela mesma tabela que vocês já viram, como eu posso também fazer a mesma tabela, mas agora fazendo com a variável agrupamento com o método de kmeans. E vocês estão vendo aqui que, comparando a solução de cima com a de baixo, elas são rigorosamente iguais. A única diferença é que o grupo virou o grupo três, o grupo dois virou o grupo e o grupo três virou o grupo número dois. As conclusões de Martin são as mesmas e agora você tem os mesmo clusters também feito pelo método kmeans. Você se lembra naquele exercício que nós fizemos Excel, que quando a idade era medida ano, que a idade era medida meses, havia uma grande distorção no cálculo da distância euclidiana. Nós precisamos sempre ter as variáveis medidas nas mesmas dimensões, nas mesmas unidades, se não a análise de cluster fica distorcida. O que fazer, então, quando você tem uma base de dados, onde você tem uma variável que é renda, medida milhares de reais por ano, ou uma outra variável que é idade, uma outra variável que pode ser número de filhos. Você tem que primeiro padronizar as variáveis. Nesta base de dados, eu não precisaria padronizar, porque as minhas variáveis estão todas na mesma escala, que é a escala likert, mas mesmo assim, eu quero mostrar para você o comando para quando você precisar. Você tem que vir aqui data, create or change variables e nesta posição, você clica create new variable (extended). Você quer criar, na verdade, vamos chamar a variável V1 e vamos colocar na frente dela a letra z para identificar que é os nosso z score, ou variável padronizada. A variável padronizada, ela aparece aqui neste comando standardized values. E nesse lugar aqui de expression, você clica e você diz que o que você quer é que pegue a variável V1, clica na variável V1 e dá ok. Nesse momento, o meu banco de dados vai criar uma variável chamada zV1, que é a V1 padronizada com média igual a zero, desvio padrão igual a. Dá ok, imediatamente o meu banco de dados agora tem uma nova variável, que é a variável zV1. Se você duvida, você pode até colocar 'sum zV1' para ver se a média dá zero e o desvio padrão dá. Média, praticamente, zero, como você está vendo e elevado a menos zero oito, é número muito próximo de zero e o desvio padrão é. Portanto, toda vez que você for usar banco de dados que as variáveis tiverem medidas unidades diferentes, padronize. Padronize antes, que assim a sua análise de cluster vai ser sucesso. Até breve.