[MÚSICA] Olá, dando sequência à segmentação baseada comportamento do consumidor, nós vamos falar agora de como fazer análise de agrupamentos. Análise de agrupamentos, também chamada de Cluster Analysis, ela é constituída de seis passos. No início, você tem que definir problema e também tem que ter uma base de dados. A partir disso, você vai começar a calcular as distâncias entre os respondentes e observações da sua base de dados. Depois, nós vamos ter que fazer procedimento de aglomeração, como juntar e nós vamos ver que existem vários procedimentos. A partir daí, nós já podemos decidir quantos clusters nós queremos e, consequentemente, interpretar o perfil de cada cluster e ver se os resultados são válidos. A formação de segmentos necessita de uma medida de distância. Nós temos que saber como medir a distância entre as observações, sejam elas indivíduos, famílias, sejam elas tomadores de decisão, empresas. Análise de Cluster serve para muitas pesquisas, muitas formas de pesquisa e nós vamos ver com foco marketing, então, na maior parte das vezes nós vamos ter os respondentes que são consumidores, mas ela pode ser usada também para empresas e assim por diante. E aí, nós queremos método para indicar, prescrever, designar cada observação que grupo deve estar colocado. Retomando o nosso exemplo de comportamento de gastos diários, nós precisamos medir a distância entre dois pontos. Vamos tomar aqui, por exemplo, o ponto A e D. Como que a gente poderia medir a distância entre eles? Vocês deve estar se lembrando do famoso teorema de pitágoras, onde a gente pode fazer triângulo e identificar que essa distância nada mais é do que a hipotenusa de triângulo retângulo, onde a soma dos quadrados dos catetos é igual ao quadrado da hipotenusa. Esse tipo de cálculo é o que nós vamos usar. É cálculo que foi descoberto há muitos anos atrás, 580 anos antes de Cristo nasceu Pitágoras, e ele fez esse cálculo geométrico para medir a distância entre dois pontos. Nós sabemos, também, que 200 anos depois veio grande matemático do Egito chamado Euclídes e o Euclídes nada mais fez do que generalizar a fórmula de Pitágoras. Ou seja, o Euclídes criou o que a gente chama de Geometria Euclidiana, generalizando não mais para duas variáveis, mas para "n" variáveis, então, se você tiver quatro, cinco, seis, é claro que não dá mais para fazer gráfico, mas você pode, tranquilamente, usar a mesma expressão. Vamos aplicar, então, a fórmula para calcular a distância entre os pontos. Vamos voltar no nosso exemplo, você tem aqui "x1" e "x2", o ponto A. Qual é a distância entre o A e B? Se eu fizer a distância entre o A e B usando apenas a variável x1, eu faço dois menos oito dá menos seis. Se eu usar apenas a variável x2, eu tenho quatro menos dois é igual a dois. E aí a gente pode fazer uma fórmula que é extrair a raiz quadrada da soma dos quadrados, que é exatamente o Teorema de Pitágoras. [ÁUDIO BRANCO] Com isso, a gente pode construir uma tabela que vocês estão vendo agora, que é a tabela das distâncias de todos os pontos, só usando as variáveis de maneira isolada e, seguida, de uma maneira combinada, extraindo a raiz quadrada da soma dos quadrados. [ÁUDIO BRANCO] Vamos fazer mais exercício. Nós temos aqui três indivíduos com rendas diferentes, idades diferentes e eu peço que você calcule, então, a distância euclidiana entre o A e o B e o B e o C. [ÁUDIO BRANCO] [ÁUDIO BRANCO] [ÁUDIO BRANCO] [ÁUDIO BRANCO] Neste exemplo que nós acabamos de ver, ficou claro que quando nós transformamos a unidade da medida de idade de anos para meses, os resultados são completamente diferentes, fica tudo distorcido. Cluster Analysis tem essa coisa que você precisa prestar muita atenção. As unidades das variáveis estão na mesma base? Tem a mesma escala? São de igual dimensão? Se forem, tudo bem, você parte para a análise de cluster com as variáveis originais, senão, tem que fazer uma transformação das variáveis. É uma transformação muito simples, que consiste padronizar as variáveis e nós vamos ver como se faz isso no software. Padronizar a variável nada mais é do que você pegar aquela variável, subtrair a média e dividir pelo desvio padrão. Com isso, a variável passa a ter uma média igual a zero e o desvio padrão igual a. E aí você pode partir, tranquilamente, para análise de cluster. Aqui está a fórmula de Euclídes, é uma fórmula bastante simples, basta você fazer a diferença para cada respondente, a nota que ele deu para cada variável. Você vai fazer a distância entre o A e o B, você pega a variável 1, o que ele respondeu, o respondente A e o B, subtrai e eleva ao quadrado. Soma e depois tira a raiz quadrada. Essa é a Fórmula de Euclídes para calcular a distância euclidiana. Agora você está pronto para a próxima etapa, onde nós vamos aprender a fazer os procedimentos de cluster. [ÁUDIO BRANCO]