[MÚSICA] Neste modo segmentação baseada comportamento do consumidor, o nosso foco agora é falar de procedimentos de análise de agrupamentos. São vários os procedimentos de agrupamentos, ou procedimentos de cluster ou procedimentos de aglomeração, são todos sinônimos, e eles se dividem dois grandes blocos, hierárquicos e não hierárquicos. Vamos falar primeiro dos hierárquicos. Os hierárquicos é uma hierarquia, eu tenho uma base respondente, eu tenho lá uma amostra com 100, 200, 500, milhão de respondentes e eu quero agrupá-los e fazer grupos homogênios. Como? Através de processo hierárquico, eu vou começar da base e vou tentar encaixar cada daqueles milhão pequenos grupos. Começo com milhão de grupos, depois eu vou juntar dois, depois mais depois mais. É processo hierárquico que ele vem de baixo para cima. Esse processo hierárquico pode ser aglomerativo e nós vamos ver que tem que mede a distância entre os grupos pelos pontos mais próximos, que mede pelos pontos mais distantes e que mede pela média das distâncias e tem o procedimento de Ward. Depois nós temos procedimento que é não hierárquico que é muito usado para grandes bases de dados onde você define a priori qual é o seu número de grupos. Nós vamos ver detalhe todos esses procedimentos. Os mais usados marketing são esses o average linkage, o ward e o K-means. Esses nomes são inglês porque são muito usados também no Brasil e por isso a gente gostaria que vocês soubessem a tradução média das distâncias e K-means é K-médias. O método de Ward a gente chama método de Ward porque é o nome do criador dele. Como funciona? Funciona mais ou menos assim: no método single linkage, você tem vizinho mais próximo e você mede a distância entre os pontos mais próximos de cada grupo e atribui isso à distância entre os grupos. No método complete linkage é o ponto mais distante. E o método que a gente mais recomenda é o métdo average linkage onde existe uma média de distâncias entre os grupos. Vamos ver como funciona esses métodos de encadeamento através de exemplo. Nós vamos fazer o método de vizinho mais próximo. Imagine que eu tenha cinco grupos numerados de a cinco e tenho uma tabela que marca as distâncias euclidianas entre eles. As distâncias euclidianas são essas que você está vendo, como por exemplo, a distância entre o quatro e o vírgula oitenta e. Eu poderia criar gráfico e esse gráfico me ajudar a visualizar como os respondentes dos cinco estão separados entre si. Para isso o que é que eu teria que fazer? Eu coloco que o e o dois estão separados por vírgula quarenta e nove como está na matriz. O gráfico também mostra que entre o três e o quatro nós temos uma distância de e quarenta e oito. Entre o grupo formado pelo e o dois e o novo grupo formado pelo três e o quatro, eu vou procurar agora a distância mais próxima do respondente mais próximo. Eu encontro que essa distância é e oitenta e que é entre o e o quatro, então eu coloco lá no meu gráfico. Esse gráfico é construído de uma maneira hierárquica, eu saio da base com cinco grupos e vou chegando na ponta com cada vez menos grupos até ter somente dois grupos. Dessa forma eu tenho uma visualização pelo tamanho das barras de quão espalhados estão os agrupamentos e isso vai me permitir definir o meu número de grupos. O método hierárquico ele permite construir esse gráfico que tem o nome de dendrograma. Dendro vem da palavra grega folhas, árvores, galhos, por isso que é gráfico que parece uma árvore, ele vai formando uma árvore que permite que eu veja as ramificações dos grupos. Com base nesse dendrograma eu sou capaz de definir o meu número de grupos. Vamos agora explicar pouco como funciona o procedimento hierárquico através do método de Ward. Esse é pouco diferente, ele não pega nem o vizinho mais próximo, nem o vizinho mais distante nem a média das distâncias. O que ele faz? Ele faz o seguinte, para cada grupo ele calcula como se fosse uma média, centróide. Ele calcula através de método que é minimizando a soma dos quadrados das distâncias desse próprio ponto com os respondentes. Esse método, ele tem uma vantagem, que é ele provoca uma auto homogeneidade interna. Esse método tem uma fórmula que assusta pouco mas esse fórmula entende-se como a fórmula que minimiza a soma das distâncias dos quadrados dos desvios entre o centróide e cada respondente. Esse método você tem aqui os clusters, os indivíduos e as distâncias. Esse método é muito bom, muito robusto, nós vamos também praticar. E agora vamos pegar o nosso querido exemplo de gastos diários. Este é o dendograma de gastos diários. Você se lembra daquelas cinco observações? A, D, B, E, C. Aqui vocês estão vendo as distâncias euclidianas entre o A e o B que é muito pequena, entre o B e o E também é pequena. O grupo formado por B e E relação ao C também é pequena e depois tem uma enorme distância entre esses dois blocos entre si. Essa enorme distância permite com tranquilidade dizer que a melhor separação para esses cinco respondentes é dois grupos. Porquê? Você cortando dois grupos, você passa uma reta no dendograma e você vê quantas pernas tem. São duas. Essas duas pernas indicam que você fazendo uma escolha de dois grupos está fazendo uma ótima escolha porque a distância entre os dois grupos é muito grande e se você quisesse partir para três grupos você ia ter grupos muito parecidos. O respondente C é muito parecido com A e E e três grupos não seria uma boa solução. Método hierárquico permite fazer dendograma, dendograma permite você decidir quantos grupos você quer. E assim nós aqui temos os dois grupos que agora nós podemos dizer de forma matemática e precisa e podemos calcular as suas médias. Nós podemos dizer que o gasto médio do grupo comida é vírgula cinco, gasto médio do grupo dois comida é oito e meio. O gasto médio roupas do grupo é quatro e meio, o gasto médio de roupas grupo dois é dois. Nós agora estamos condições de fazer plano de marketing. Nós sabemos que temos dois grupos, gasta mais comida do que o outro, oito e meio, o outro gasta mais roupas, que é o primeiro, quatro e meio. Temos agora resolvido belo problema de marketing e podemos fazer plano de marketing para atacar o segmento de gastadores comida de uma maneira distinta do segmento de gastadores roupas. Vamos falar pouco do método K-means, que é uma técnica não hierárquica, é uma técnica muito mais simples, na verdade ele não parte de baixo para cima, ele não faz todos os parzinhos, ele só vai fazer a locação dos respondentes no número de grupos que você definiu que é exatamente esse chamado K. Se você pedir para para o software ele vai fazer três grupos, ele divide diretamente três grupos ele não faz toda a árvore de baixo para cima. Portanto ele não pode permitir fazer dendograma e ele não te ajuda a definir o número de grupos. De onde vem então o número de grupos? Vem, ou de uma teoria, ou de limite que você tem, a empresa não pode trabalhar com mais do que quatro grupos e assim por diante. Ou até mesmo, se você puder, faz primeiro o hierárquico e depois faz o K-means. O K-means é muito usado na prática, porque você pode fazer procedimento computacional mais rápido e ele é muito bom para quando você tem bases de dados acima de 100, 200, 300, milhão de respondentes. Se você tiver base de dados grandes, você vai ter que usar o K-means. Nós vamos depois praticar tanto o método de Ward, quanto o método de K-means, quanto o método de complete linkage. Para encerrar essa videoaula, eu queria falar com vocês que nós vamos também ter que saber quais variáveis que nós temos no nosso banco de dados. Muitas vezes a gente tem banco de dados misto onde tem variáveis demográficas, variáveis até psicográficas e também as variáveis comportamentais. Quando você tem todas essas variáveis, nós vamos aprender que nós vamos usar, para segmentação, a variável que informa o que o consumidor deseja. São muito mais as variáveis de comportamento de compra. A partir daí nós vamos depois usar as variáveis que a gente chama de variáveis discriminantes, que são as variáveis ligadas com as características demográficas, para saber quem é o consumidor. Ou seja, na clusterização a gente define os grupos pelos comportamentos de compra, depois analisa pelas variáveis demográficas para saber quem está por trás de cada grupo. Quem é o meu cliente? Se é formado por pessoas A, B, C, D ou se tem predominância do sexo, idade e assim por diante. Nós já estamos preparados agora e vamos agora passar para a nossa aplicação prática.