Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare uma empresa Scribd logo
Índice
Introdução................................................................................................................................. 1
Problema .................................................................................................................................. 1
Objetivos .................................................................................................................................. 1
   Objetivo geral ....................................................................................................................... 1
   Objetivos específicos............................................................................................................. 2
Metodologia.............................................................................................................................. 2
   Material ................................................................................................................................ 2
   Métodos ................................................................................................................................ 3
Revisão da literatura ................................................................................................................. 4
   Análise de Agrupamento ....................................................................................................... 4
   Análise de agrupamento hierárquico ...................................................................................... 4
   Método de Ward ................................................................................................................... 5
Análise discriminante................................................................................................................ 5
Apresentação e discussão dos resultados ................................................................................... 6
   Análise do comportamento dos clientes ................................................................................. 6
       Análise exploratória de dados ............................................................................................ 6
   Representatividade da amostra .............................................................................................. 6
   Multicolinearidade ................................................................................................................ 6
   Análise de agrupamento ........................................................................................................ 7
       Apresentação e discussão das soluções dos agrupamentos. ................................................. 7
       Validação das soluções ...................................................................................................... 7
       Método K-Médias ............................................................................................................. 7
       Caracterização das soluções de 2 e 4 agrupamentos. .......................................................... 8
   Análise discriminante ............................................................................................................ 8
       Avaliação da validade preditiva através de outras variáveis para 4 agrupamentos. .............. 8
       Análise exploratória dos grupos ......................................................................................... 8
       Verificação de pressuposto da análise discriminante .......................................................... 8
Conclusão e recomendações .................................................................................................... 12
Bibliografia............................................................................................................................. 12
Anexos ................................................................................................................................... 13




Nhantumbo, Samuel Orlando- 2012                                                                     Análise de Agrupamento
Nhantumbo, Samuel Orlando


Introdução
A competitividade no mercado globalizado impulsiona as Organizações a criarem
estratégias voltadas à inovação. Num primeiro momento, a inovação é relacionada aos
produtos, porém, inovação pode ser vista de forma mais ampla, como, por exemplo,
inovação nas práticas de gestão de modo a alcançar a satisfação dos clientes. A relação
empresa e cliente vêm sendo o foco principal das decisões, ou seja, o cliente está cada
vez mais exigente na procura por serviços oferecidos, que sejam certificados ou
credenciados. Salienta-se, dessa forma, a importância da satisfação do cliente perante a
um serviço prestado, e a sintonia da empresa com o seu cliente, pois dele depende o seu
ciclo de vida.


Este trabalho consiste em aprimorar a prática de análise da satisfação dos clientes. O
trabalho apresenta um modelo para análise das respostas do questionário de avaliação da
satisfação dos clientes da HATCO com auxílio de técnicas estatísticas multivariadas,
especificamente, análise de agrupamento e análise discriminante. Com o auxílio das
ferramentas de análise estatística multivariada, é possível identificar comportamentos
similares entre os clientes e agrupa-los mediante essas similaridades de modo que a
gestão possa desenhar estratégias que irão de acordo com as necessidades e preferências
de cada grupo.


Problema
Devido ao crescimento do mercado global, e com o surgimento de tecnologias
avançadas para diferentes áreas, é importante para qualquer empresa ter conhecimento
do nível de exigência dos seus clientes de modo a desenhar planos de ação para fideliza-
los ora angariar novos, neste contesto surge para HATCO a necessidade de conhecer a
segmentação e/ou categorização dos seus clientes de modo a lhe permitir desenhar
diferentes estratégias de acordo com o nível de exigência e necessidade de cada.


Objetivos
Objetivo geral
Segmentar os clientes em grupos com percepções semelhantes da HATCO, para facilitar
a formulação de estratégias com apelos diferentes para os grupos separados.




                                                                                           1
Nhantumbo, Samuel Orlando


Objetivos específicos
    Identificar comportamentos similares entre os clientes;
    Agrupar os clientes de acordo com as similaridades
    Nomeação dos grupos formados
    Verificar se os grupos são diferentes em relação ao nível de uso e satisfação dos
       clientes.


Metodologia
Material
A pesquisa consiste em 100 observações sobre 14 variáveis separadas, contêm três tipos
de informação fornecida pelo docente da cadeira, também disponível na internet
(Arquivo HATCO (Hair et al., 2005)). Primeiro é a percepção da HATCO sobre 7
atributos identificados em estudos anteriores como os mais influentes na escolha de
fornecedores. Os respondentes, executivos que compram da HATCO, a avaliaram em
cada atributo. O segundo tipo de informação refere-se a compras reais, tanto às
avaliações da satisfação de cada cliente com a HATCO como ao percentual de compras
da HATCO daquele cliente. O terceiro tipo de informação contém características gerais
das companhias compradoras.

Descrição e codificação da variável        Tipo de variável
Percepções da HATCO
X1 velocidade de entrega                   Métrica
X2 nível de preço                          Métrica
X3 flexibilidade de preço                  Métrica
X4 Imagem do fabricante                    Métrica
X5 serviço geral                           Métrica
X6 imagem da força de vendas               Métrica
X7qualidade do produto                     Métrica
Resultados das compras
X9 nível de uso                            Métrica
X10 nível satisfação                       Métrica
Característica do comprador
X8 tamanho da empresa                      Não-Métrica




                                                                                         2
Nhantumbo, Samuel Orlando

X11 Especificação de compra                  Não-Métrica
X12 Estrutura de aquisição                   Não-Métrica
X13 Tipo de indústria                        Não-Métrica
X14 Forma de pagamento                       Não-Métrica


Neste estudo de caso apenas são relevantes as percepções da HATCO e os resultados da
compra, todas elas métricas.
Para o presente estudo do caso, a análise de dados foi possível por meio do uso de
programas computacionais de análise estatística em combinação, Software SPSS versão
13.0, pacote estatístico R versão 2.14.1e o complemento Action embutido no Microsoft
Office Excel 2007 e Microsoft Office Word para o processamento do texto.

Métodos
O método empregado neste trabalho foi classificado como, exploratório-descritivo, dado
que análise de agrupamentos não é uma técnica inferencial.
Para análise de agrupamento, primeiro foi necessário identificar qualquer observação
atípica na amostra antes que a partição tenha iniciado, em seguida verificou se outras
suposições da análise de agrupamentos, neste caso a multicolinearidade usando a
tolerância e de VIF para cada variável independente, onde valor de VIF> 10 ou
tolerância <0.1 indica a existência de multicolinearidade.


Dado que o conjunto das variáveis (x1 a x7) é métrica a distância euclidiana quadrada é
escolhida como a medida de semelhança, pós a multicolinearidade não mostrou efeito
ponderador das variáveis de forma desigual porque o contrário a distância de
Mahalanobis seria apropriada.


A padronização das variáveis não é realizada, pós todas as variáveis estão na mesma
escala de medida. Para o agrupamento empregará-se métodos hierárquicos,
concretamente o método de Ward para minimizar as diferenças internas de grupos e
para evitar problemas de encadeamento das observações encontradas no método de
ligação individual.
Após a formação dos grupos, para investigar as diferenças quanto a nível de uso e de
satisfação empregar-se-á a análise discriminante. Para usar esta técnica, é necessário
efetuar a verificação dos pressupostos para sua aplicação, concretamente a normalidade




                                                                                          3
Nhantumbo, Samuel Orlando

multivariada das variáveis x9 e x10, homogeneidade das matrizes de variância-
covariância das mesmas variáveis. Para testar a igualdade de matrizes de variância das
variáveis x9 e x10 nos grupos obtidos pela análise de agrupamentos, foi aplicado o teste
M de Box. O nível de significância empregue em todos casos para inferir é de 5%.


Revisão da literatura
Análise de Agrupamento
A análise de agrupamento é uma técnica multivariada que tem por objetivo proporcionar
uma ou várias partições na massa de dados, em grupos, por algum critério de
classificação, de tal forma que exista homogeneidade dentro e heterogeneidade entre
grupos (Sneath & Sokal, 1973; Mardia et al., 1997).
Essa técnica sumariza dados para interpretação e utiliza métodos que procuram grupos
excludentes, ascendentes, reduzindo as informações de um conjunto de n indivíduos
para informações de um novo conjunto de g grupos, onde g é significativamente menor
que n, resultando um dendrograma de exclusão (Mardia et al., 1997).

Análise de agrupamento hierárquico
A técnica de agrupamento hierárquico interliga as amostras por suas associações,
produzindo um dendrograma onde as amostras semelhantes, segundo as variáveis
escolhidas, são agrupadas entre si. A suposição básica de sua interpretação é esta:
quanto menor a distância entre os pontos, maior a semelhança entre as amostras. Os
dendrogramas são especialmente úteis na visualização de semelhanças entre amostras
ou objetos representados por pontos em espaço com dimensão maior do que três, onde a
representação de gráficos convencionais não é possível.


Existem muitas maneiras de procurar agrupamentos no espaço n-dimensional. A
maneira matematicamente mais simples consiste em agrupar os pares de pontos que
estão mais próximos, usando a distância euclidiana, e substituí-los por um novo ponto
localizado na metade da distância entre eles. Este procedimento, quando repetido até
que todos os pontos sejam agrupado em um só ponto, leva a construção do
dendrograma, onde, no eixo horizontal são colocadas as amostras e, no eixo vertical, o
índice de similaridade




                                                                                           4
Nhantumbo, Samuel Orlando


Método de Ward
Conforme Reis (1997), o método de Ward se baseia na perda de informação resultante
do agrupamento das espécies e medida através da soma dos quadrados dos desvios das
observações individuais relativamente às médias dos grupos em que são classificadas.
Cada grupo se caracteriza por uma soma dos quadrados dos desvios de cada observação
do centróides do mesmo (é uma soma dos numeradores dos estimadores das variâncias
de cada variável dentro do grupo, é também a soma de distância Mahalanobis do
quadrado de cada observação do centróides). A distância entre dois grupos se define
como o aumento que se pronunciaria nesta soma de quadrados, se ambos os grupos se
agregassem para a formação de um único grupo. O método de Ward é atraente por se
basear numa medida com forte apelo estatístico e por gerar grupos que, assim como os
do método vizinho mais longe, possuem uma alta homogeneidade interna (Barroso &
Artes, 2003).


Romesburg (1984) cita as seguintes características desse método:
    Apresenta bons resultados tanto para distâncias Mahalanobis quanto para outras
       distâncias;
    Pode apresentar resultados insatisfatórios quando o número de elementos em
       cada grupo é praticamente igual;
    Tem tendência a combinar grupos com poucos elementos;
    Sensível à presença de outliers.


Análise discriminante
A análise discriminante (Discriminant Analysis – DA) é aplicada para analisar a relação
entre uma única variável dependente qualitativa ou categórica (grupos) e um conjunto
de variáveis independentes quantitativas ou métricas. Esse método tem como objetivo
determinar as variáveis que diferenciam ou discriminam os grupos, permitindo, assim, a
identificação de grupos similares e a classificação de novos casos, em que a inserção é
feita no grupo a que o caso tem maior probabilidade.




                                                                                          5
Nhantumbo, Samuel Orlando


Apresentação e discussão dos resultados
Análise do comportamento dos clientes

Análise exploratória de dados
Nesta secção apresentar-se-á um breve resumo das características das variáveis quanto a
média, variação e distribuição da percepção dos serviços prestados pela HATCO vide
em anexos Tabela 7. Com base na informação contida nestas estatísticas verificamos
que X1, X2, X5 e X6 apresentam percepções relativamente baixas, sendo que os
clientes foram mais unanimes na avaliação pelo que pode se identificar pelos desvios
apresentados diante da média que é baixo. As variáveis X3, X4, X7 estas apresentam
uma alta percepção em geral visível também através dos desvios padrões. De notar que
avaliando os resultados da compra, X9 apresenta uma distribuição assimétrica negativa,
isto levando no a ver que a maior parte dos clientes da HATCO usam menos os
produtos da empresa, mas em contra partida quanto ao nível de satisfação dos clientes
não pode se classificar em alto ou baixo mas sim seria viável classificar como moderado
com uma distribuição alongada a direita.

Valores atípicos
Verificou se a existência dos valores atípicos usando a medida D² de mahalanobis que
avalia a posição de cada observação comparada com o centro (média) de todas variáveis
do conjunto. Com esta comparação, duas observações (22 e 55) foram identificadas com
significativamente diferente (observações atípicas), ambas com p-value=0,00. Para se
decidir a retenção ou eliminaçao destas observações, efetuou se análise univariada a
procura de observações atípicas onde foram encontradas as observações 39, 71, 82, 96
para a variáveis x1, x2, x4, x5 respectivamente e observações 5 e 42 para variável x6, as
demais variáveis métricas não apresentaram valores atípicos. Contudo decidiu se com a
não remoção das observações dadas com atípicas na análise multivariada.

Representatividade da amostra
Para feitos de análise vamos considerar que a amostra é representativa da população.

Multicolinearidade
Variável     X1         X2         X3         X4         X5          X6         X7
Tolerância .028         .032       .608       .347       .023        .371       .623
VIF          35.747     31.597     1.645      2.879      43.834      2.697      1.606




                                                                                            6
Nhantumbo, Samuel Orlando

VIF mede a correlação da variável com todas as outras independentes, no entanto não se
verifica se para X1, X2 e X5 um VIF superior a 10, que significa que há
multicolinearidade das variáveis mencionadas, o contrário pode se dizer das
remanescentes. Com estes resultados podemos dizer que a multicolinearidade não tem
um efeito ponderador nas variáveis, assim nada nos impede de efetuar uma análise de
agrupamentos para este conjunto de dados.

Análise de agrupamento

Apresentação e discussão das soluções dos agrupamentos.
Através da análise do dendrograma (anexos) podemos sustentar o que foi dito em
relação a valores atípicos, pós por este podemos verificar uma observação candidata a
exclusão devido ao afastamento com as demais. Para a escolha do número de grupos
calculou se R2 para diferentes números de grupos (2, 3 e 4), onde o agrupamento com
quatro grupos foi mais adequado, o que explicam acima de 50% da variância total. Pode
se sustentar essa informação por meio da análise do dendrograma efetuando o corte
entre 20 e 25, também com coeficientes de aglomeração podemos verificar que é
proposta solução 4 agrupamentos.

Validação das soluções
O processo de validação é atingido em dois passos, primeiro a validade é avaliada pela
aplicação de métodos de agrupamento alternativo e a comparação das soluções. Em
seguida, os agrupamentos são avaliados quanto a validade preditiva sobre duas medidas
adicionais x9 e x10 (nível de uso e de satisfação) que são indicativas da potência para
estratégias diferenciada entre os agrupamentos.

Método K-Médias
Para refinar as soluções de modo a se obter a situação que mais se adequa ao caso ou a
estrutura de dados, analisou se a solução obtida pelo método de Ward, pelo método não
hierárquico e após a análise da estrutura notou-se que a variável X5 ainda não apresenta
uma diferença estaticamente significativa no agrupamento de 2 soluções, e o primeiro
cluster, o que mais apresenta níveis superiores (vide anexos figura 2). Para a solução de
4 (anexos figura 3) agrupamentos verifica se a concentração de centróides elevados no
agrupamento 4 e em seguida 1, sendo o segundo agrupamento o que apresenta
percepções medias baixas.




                                                                                            7
Nhantumbo, Samuel Orlando

Caracterização das soluções de 2 e 4 agrupamentos.
Para a solução de 2 agrupamentos, pode-se verificar a existência de diferenças
significativas em quase todas variáveis exceptuando a X5 que com um p-value 0,341
não se diferem as médias relativas a percepção de nível geral de serviço que deve ser
mantido pela empresa. Para a solução de 4 agrupamentos, ao nível das 7 variáveis
verificou se a existência de diferenças estaticamente significativas das médias entre os
agrupamentos formados, levando esta solução uma vantagem comparativa a solução de
2 agrupamento. Mesmo que descartemos o R² para escolha do número de grupos, por
este ser proporcional de uma certa forma directamente com o número de grupos,
conciliando a estrutura inicial dada pelas variáveis, a imagem emitida pelo dendrograma
e as anovas realizadas para os dois agrupamentos (2 e 4) ira admitir se a solução de 4
agrupamentos como sendo a melhor forma de segmentação de cliente da HATCO
quanto a suas percepções dos serviços prestados pela empresa.

Análise discriminante

Avaliação da validade preditiva através de outras variáveis para 4 agrupamentos.
Para avaliar a validade preditiva, usou-se variáveis que tem uma relação teórica com as
7 variáveis do agrupamento, mas não foram incluídas na solução final (x9, x10) a
procura das diferenças existentes entre as médias dos 4 grupos. Para a análise ira se
recorrer a análise discriminante.

Análise exploratória dos grupos
A Tabela 8 (anexos) mostra, para cada grupo, as médias, os desvios-padrão e o número
de elementos das variáveis X9 e X10. Para a variável X10, nos 4 grupos apresenta uma
homogeneidade em relação as médias e a dispersão é muito baixa comparada com a
variável X9.

Verificação de pressuposto da análise discriminante

Homogeneidade das matrizes de covariância- teste M de Box
Tabela 1

         Resultados do teste

  Box's M                        5,737

  F          Approx.              ,607

             df1                     9

             df2            16930,309

             Sig.                 ,792

  Hipótes e nula: As matrizes de c ovariancia populacional s ão iguais




                                                                                           8
Nhantumbo, Samuel Orlando

O teste M de Box mostra que a hipótese de igualdade de matrizes de covariância não foi
violada com uma p-value=0,792> 0,05

Normalidade multivariada

                          Gráfico QQ para Normalidade M ultivariada
                 35
                 30
                 25
Mahalanobis D2

                 20
                 15
                 10
                 5




                                   5               10                15         20

                                        qchisq(ppoints(n), df = p)




                      Gráfico 1

Como os pontos seguem o comportamento da reta (não estão distantes dela), temos
indícios de que a hipótese da normalidade multivariada das variáveis x9 e x10 não foi
violada. Esta ilustração gráfica pode ser sustentada através da análise univariada da
normalidade de X9 e X10 por meio do teste de Kolmogorov-Smirnov que este não
rejeita a hipótese de cada uma das variáveis seguir distribuição normal com p-vaule
0,786 e 0,77 respetivamente (ambos> 0,05) vide Tabela 9 (anexos).

Com os pressupostos acima não violados, pode se continuar com a análise
discriminante.

Teste de igualdade das médias dos grupos para nível de uso e satisfação.


                       Wilks' Lambda        F               df1           df2         Sig.
x9                               ,684           14,769                3          96          ,000
x10                              ,965            1,177                3          96          ,323



A estatística de Wilk´s Lambda oferece informação sobre as diferenças entre os grupos,
para cada variável individualmente. Obtém-se pela razão da variação dentro dos grupos
(variação não explicada) sobre a variação total. Varia de 0 e 1, em que os pequenos
valores indicam grandes diferenças entre os grupos, enquanto os valores elevados
indicam não haver diferenças entre os mesmos. Adicionalmente, a maior estatística F
(univariado) está associada a variável X9, o que indica que essa variável é a que melhor
discrimina ou distingue os grupos.



                                                                                                    9
Nhantumbo, Samuel Orlando

Da tabela acima, dos p-values associados as estatísticas F calculadas para os 4
agrupamentos, observa-se que para a variável nível de satisfação não apresenta
diferenças significativas nos 4 grupos com o p-value=0.322> 0.05, mas quanto a
variável nível de uso apresenta diferenças significativas das médias nos 4 grupos com o
p-value=0.00 <0.05.


Tabela 2       Matriz estrutura
                                                                Tabela 3                  Auto-valores

                          Função
                                                                                                                                       Canonical
                  1                 2                 Função            Eigenvalue         % of Variance         Cumulative %          Correlation
x9                    ,933(*)             ,359        1                         ,530(a)                 99,7                  99,7             ,588
x10                    -,258            ,966(*)       2                         ,002(a)                     ,3               100,0             ,039

                                                               a First 2 canonical discriminant functions were used in the analysis.




A matriz de estrutura evidencia a contribuição de cada variável para a função
discriminante, realçando com um asterisco as variáveis mais importantes. Quanto
maiores forem os coeficientes em valor absoluto, mais a função discriminante detém
informação contida nessas variáveis.                                   Neste caso verifica-se que X9 faz parte da
primeira função discriminante e X10 da segunda.
Assim sendo, a Tabela abaixo apresenta as estatísticas e os testes que permitem avaliar a
importância das funções discriminantes. Os valores próprios (eigenvalues) são a razão
da variação entre os grupos pela variação dentro dos mesmos. Quanto mais afastado de
1, maior será a variação entre os grupos explicada pela função discriminante. Pode-se
observar que a primeira função contribui com 99,7% para o total da variância entre os
grupos, sendo efetivamente a que tem o maior poder de separação. A segunda função
explica 0,3% da variância intergrupal.


Como complemento dessas estatísticas, procede-se ao teste de Wilk´s Lambda,
conforme mostra a Tabela 3, para determinar-se o número de funções a serem retidas.
Assim, testa-se também a hipótese das médias das duas funções discriminantes serem
iguais nos 4 grupos, a qual é rejeitada (sig. = 0,000) na primeira função, isto é apenas
uma única função discriminante deve ser usada para discriminar os grupos
Tabela 4                                  Wilks' Lambda


Test of Function(s)       Wilks' Lambda           Chi-square               Df                 Sig.
1 through 2                         ,653                  40,956                    6                ,000
2                                   ,998                    ,146                    2                ,930




                                                                                                                                                      10
Nhantumbo, Samuel Orlando

A função linear discriminante de Fisher basea-se no pressuposto de que as matrizes de
covariância são iguais. Com base nessa função, é possível classificar indivíduos como
pertencente a um determinado grupo, tendo como base a distancia de Mahalanobis até
ao centro de cada grupo ou os escores de classificação. Uma nova observação é
considerada como pertencente a um determinado grupo se para esse grupo ela
apresentar a menor distância (ao quadrado) ou o maior escore de classificação de
Fisher.

Os escores de classificação são calculados usando os coeficientes apresentados na
Tabela abaixo.

                         Coeficiente da função de classificação
Tabela 5

                                                     Ward Method

                           1                     2                         3                  4
 x9                             ,755                  ,636                         ,776               ,879
 x10                           5,780                 6,220                     5,636              5,447
 (Constant)                 -32,786               -29,699                  -33,097             -37,506

Fisher's linear discriminant functions




Resultados da Classificação

Tabela 6

                                                                         Classification Results a

                                                                                      Predicted Group Membership
                                  Ward Method                        1                    2                  3          4          Total
      Original     Count          1                                            3               10                  5         11            29

                                  2                                            6               25                  4          3            38

                                  3                                            5                  2                3          2            12

                                  4                                            4                  1                2         14            21

                   %              1                                       10,3                34,5               17,2       37,9      100,0

                                  2                                       15,8                65,8               10,5        7,9      100,0

                                  3                                       41,7                16,7               25,0       16,7      100,0

                                  4                                       19,0                 4,8                9,5       66,7      100,0
         a. 45,0% of original grouped cases correctly c lassified.




Da tabela acima, pode-se verificar que a regra de classificação apresenta resultados, não
maus, tanto que 45% da classificação original é corretamente obtida pela regra acima
definida. Os erros de classificação são graves no primeiro e terceiro grupo onde foram
classificados corretamente 10,3% e 25% respetivamente, para os outros dois grupos a
classificação é satisfatória.




                                                                                                                                                11
Nhantumbo, Samuel Orlando


Conclusão e recomendações
Pode-se verificar que 4 agrupamentos para os clientes da HATCO é a melhor forma de
segmentação dos mesmos por meio das suas similaridades. Estes grupos de acordo com
a caracterização dos mesmos, sendo que o grupo 4 tem percepções altas dos produtos da
e o grupo 1 com menores percepções.
Na análise discriminante, observou-se que estes 4 grupos formados podem ser
explicados pela diferença existente no nível de uso dos produtos da HATCO.
A função discriminante encontrada, classificou corretamente 45% dos casos originais,
sendo esta a probabilidade de classificarmos de forma correta novas observações
recorrendo apenas ao nível de uso e satisfação dos clientes pelos produtos da HATCO.
Com esta informação podemos caraterizar os clientes da HATCO em: não exigentes,
menos exigentes, exigentes e mais exigentes. Sendo que a HATCO pode segmentar
também a linha dos seus produtos em 4 grupos para atender o nível de exigência de cada
extrato, dado que o nível de satisfação é quase homogéneo nos 4 grupos, isto a empresa
a estar num bom passo já que consegue produzir uma linha de produtos que satisfaz os
diferentes segmentos, mas o nível de uso é diferente, assim necessário estimular os
grupos com menor nível de uso a aderir ao produtos por meio de criação de pacotes
direcionados e melhoria na prestação dos serviços.




Bibliografia
HAIR, JOSEPH F.; TATHAM, RONALD L.; ANDERSON, ROLPH E.; BLACK,
WILIAM et al. tradução, Adonai Schlup Sant´Anna e Anselmo Chave Neto, Análise
Multivariada de Dados, pp. 25 – 33, 5ª ed. - Porto Alegre: Bookman, 2005.


MARTINS, G. A. Estatística Geral e Aplicada. São Paulo. Atlas, p.417, 20.


Maroco, João; Análise Estatística com utilização de SPSS,     Edição, Edições Sílabo,
2007.




                                                                                         12
Nhantumbo, Samuel Orlando


Anexos

Dendrograma usando método de Ward
Figura 2

                                   Cluster Dendrogram
          80
          60
 Height

          40
          20
          0




                 3
                 2

                 4




                 6
                 8
                 7


                 9

                 5


                 1
                82
                93
                37
                48
                31
                53
                30
                10
                34
                57
                71
                83
                24
                27
                75
                99
                89
                65
                79
                39
                96
                94
                98
                40
                54
                45
                86
                56
                91
                23
                32
                85
                87
                11
                52
               100
                60
                70
                17
                64
                68
                36
                41
                84
                88
                67
                90
                15
                20
                19
                28
                49
                97
                58
                74
                12
                76
                66
                80
                14
                38
                63
                42
                33
                62
                25
                44
                26
                59
                51
                77
                95
                43
                46
                18
                92
                69
                81
                50
                72
                22
                55
                35
                13
                21
                47
                61
                16
                73
                29
                78
                                                   d
                                          hclust (*, "ward")
Fonte: Action, Software R embutido em M.Excell 2007

Tabela 7: Estatísticas descritivas
Variável     X1        X2       X3        X4       X5          X6     X7      X9      X10
Média        3,52      2,36     7,89      5,25     2,92        2,67   6,97    46,10   4,77
Des.Padrão 1,32        1,20     1,39      1,13     0,75        0,77   1,59    9,00    0,86
Assimetria -0,85 0,47           -0,29     0,22     -0,37       0,49   -0,23   -0,63   0,09
Fonte: Autor




Tabela 9: Teste Kolmogorov-Smirnov

Variável                          X9                              X10
Kolmogorov-Smirnov (sig)          0,786                           0,777




                                                                                             13
Nhantumbo, Samuel Orlando

Tabela 8: Estatísticas das variáveis x9 e x10 nos 4 agrupamentos
                                          Est atísticas

                                                                        Valid N (lis twis e)

   Grupos                       Médias          Des v. padrão      Unweighted         Weighted
   1             x9                  47,000               8,5398             29            29,000

                 x10                  4,724                ,8210             29            29,000

   2             x9                  40,500               7,5793             38            38,000

                 x10                  4,963                ,9494             38            38,000

   3             x9                  48,083               5,5343             12            12,000

                 x10                  4,633                ,8700             12            12,000

   4             x9                  53,857               6,9591             21            21,000

                 x10                  4,567                ,6836             21            21,000

   Total         x9                  46,100               8,9888            100           100,000

                 x10                  4,771                ,8556            100           100,000

Fonte: Autor criada no SPSS

Figura 2 perfis de agrupamento para solução de 2 cluster

  10

   8

   6
                                                                                                    Cluster 1
   4                                                                                                Cluster 2

   2

   0
            X1        X2        X3         X4         X5           X6         X7
Fonte: Autor criada no M.Excell
Figura 3 perfil de agrupamento para solução de 4 cluster
 10
  9
  8
  7
                                                                                       Agrupamento1
  6
  5                                                                                    Agrupamento2
  4                                                                                    Agrupamento3
  3
                                                                                       Agrupamento4
  2
  1
  0
            X1   X2        X3        X4         X5         X6      X7
Fonte: Autor criada em M.Excell




                                                                                                                14

Mais conteúdo relacionado

Trabalho final de estatística multivariada revistossss

  • 1. Índice Introdução................................................................................................................................. 1 Problema .................................................................................................................................. 1 Objetivos .................................................................................................................................. 1 Objetivo geral ....................................................................................................................... 1 Objetivos específicos............................................................................................................. 2 Metodologia.............................................................................................................................. 2 Material ................................................................................................................................ 2 Métodos ................................................................................................................................ 3 Revisão da literatura ................................................................................................................. 4 Análise de Agrupamento ....................................................................................................... 4 Análise de agrupamento hierárquico ...................................................................................... 4 Método de Ward ................................................................................................................... 5 Análise discriminante................................................................................................................ 5 Apresentação e discussão dos resultados ................................................................................... 6 Análise do comportamento dos clientes ................................................................................. 6 Análise exploratória de dados ............................................................................................ 6 Representatividade da amostra .............................................................................................. 6 Multicolinearidade ................................................................................................................ 6 Análise de agrupamento ........................................................................................................ 7 Apresentação e discussão das soluções dos agrupamentos. ................................................. 7 Validação das soluções ...................................................................................................... 7 Método K-Médias ............................................................................................................. 7 Caracterização das soluções de 2 e 4 agrupamentos. .......................................................... 8 Análise discriminante ............................................................................................................ 8 Avaliação da validade preditiva através de outras variáveis para 4 agrupamentos. .............. 8 Análise exploratória dos grupos ......................................................................................... 8 Verificação de pressuposto da análise discriminante .......................................................... 8 Conclusão e recomendações .................................................................................................... 12 Bibliografia............................................................................................................................. 12 Anexos ................................................................................................................................... 13 Nhantumbo, Samuel Orlando- 2012 Análise de Agrupamento
  • 2. Nhantumbo, Samuel Orlando Introdução A competitividade no mercado globalizado impulsiona as Organizações a criarem estratégias voltadas à inovação. Num primeiro momento, a inovação é relacionada aos produtos, porém, inovação pode ser vista de forma mais ampla, como, por exemplo, inovação nas práticas de gestão de modo a alcançar a satisfação dos clientes. A relação empresa e cliente vêm sendo o foco principal das decisões, ou seja, o cliente está cada vez mais exigente na procura por serviços oferecidos, que sejam certificados ou credenciados. Salienta-se, dessa forma, a importância da satisfação do cliente perante a um serviço prestado, e a sintonia da empresa com o seu cliente, pois dele depende o seu ciclo de vida. Este trabalho consiste em aprimorar a prática de análise da satisfação dos clientes. O trabalho apresenta um modelo para análise das respostas do questionário de avaliação da satisfação dos clientes da HATCO com auxílio de técnicas estatísticas multivariadas, especificamente, análise de agrupamento e análise discriminante. Com o auxílio das ferramentas de análise estatística multivariada, é possível identificar comportamentos similares entre os clientes e agrupa-los mediante essas similaridades de modo que a gestão possa desenhar estratégias que irão de acordo com as necessidades e preferências de cada grupo. Problema Devido ao crescimento do mercado global, e com o surgimento de tecnologias avançadas para diferentes áreas, é importante para qualquer empresa ter conhecimento do nível de exigência dos seus clientes de modo a desenhar planos de ação para fideliza- los ora angariar novos, neste contesto surge para HATCO a necessidade de conhecer a segmentação e/ou categorização dos seus clientes de modo a lhe permitir desenhar diferentes estratégias de acordo com o nível de exigência e necessidade de cada. Objetivos Objetivo geral Segmentar os clientes em grupos com percepções semelhantes da HATCO, para facilitar a formulação de estratégias com apelos diferentes para os grupos separados. 1
  • 3. Nhantumbo, Samuel Orlando Objetivos específicos  Identificar comportamentos similares entre os clientes;  Agrupar os clientes de acordo com as similaridades  Nomeação dos grupos formados  Verificar se os grupos são diferentes em relação ao nível de uso e satisfação dos clientes. Metodologia Material A pesquisa consiste em 100 observações sobre 14 variáveis separadas, contêm três tipos de informação fornecida pelo docente da cadeira, também disponível na internet (Arquivo HATCO (Hair et al., 2005)). Primeiro é a percepção da HATCO sobre 7 atributos identificados em estudos anteriores como os mais influentes na escolha de fornecedores. Os respondentes, executivos que compram da HATCO, a avaliaram em cada atributo. O segundo tipo de informação refere-se a compras reais, tanto às avaliações da satisfação de cada cliente com a HATCO como ao percentual de compras da HATCO daquele cliente. O terceiro tipo de informação contém características gerais das companhias compradoras. Descrição e codificação da variável Tipo de variável Percepções da HATCO X1 velocidade de entrega Métrica X2 nível de preço Métrica X3 flexibilidade de preço Métrica X4 Imagem do fabricante Métrica X5 serviço geral Métrica X6 imagem da força de vendas Métrica X7qualidade do produto Métrica Resultados das compras X9 nível de uso Métrica X10 nível satisfação Métrica Característica do comprador X8 tamanho da empresa Não-Métrica 2
  • 4. Nhantumbo, Samuel Orlando X11 Especificação de compra Não-Métrica X12 Estrutura de aquisição Não-Métrica X13 Tipo de indústria Não-Métrica X14 Forma de pagamento Não-Métrica Neste estudo de caso apenas são relevantes as percepções da HATCO e os resultados da compra, todas elas métricas. Para o presente estudo do caso, a análise de dados foi possível por meio do uso de programas computacionais de análise estatística em combinação, Software SPSS versão 13.0, pacote estatístico R versão 2.14.1e o complemento Action embutido no Microsoft Office Excel 2007 e Microsoft Office Word para o processamento do texto. Métodos O método empregado neste trabalho foi classificado como, exploratório-descritivo, dado que análise de agrupamentos não é uma técnica inferencial. Para análise de agrupamento, primeiro foi necessário identificar qualquer observação atípica na amostra antes que a partição tenha iniciado, em seguida verificou se outras suposições da análise de agrupamentos, neste caso a multicolinearidade usando a tolerância e de VIF para cada variável independente, onde valor de VIF> 10 ou tolerância <0.1 indica a existência de multicolinearidade. Dado que o conjunto das variáveis (x1 a x7) é métrica a distância euclidiana quadrada é escolhida como a medida de semelhança, pós a multicolinearidade não mostrou efeito ponderador das variáveis de forma desigual porque o contrário a distância de Mahalanobis seria apropriada. A padronização das variáveis não é realizada, pós todas as variáveis estão na mesma escala de medida. Para o agrupamento empregará-se métodos hierárquicos, concretamente o método de Ward para minimizar as diferenças internas de grupos e para evitar problemas de encadeamento das observações encontradas no método de ligação individual. Após a formação dos grupos, para investigar as diferenças quanto a nível de uso e de satisfação empregar-se-á a análise discriminante. Para usar esta técnica, é necessário efetuar a verificação dos pressupostos para sua aplicação, concretamente a normalidade 3
  • 5. Nhantumbo, Samuel Orlando multivariada das variáveis x9 e x10, homogeneidade das matrizes de variância- covariância das mesmas variáveis. Para testar a igualdade de matrizes de variância das variáveis x9 e x10 nos grupos obtidos pela análise de agrupamentos, foi aplicado o teste M de Box. O nível de significância empregue em todos casos para inferir é de 5%. Revisão da literatura Análise de Agrupamento A análise de agrupamento é uma técnica multivariada que tem por objetivo proporcionar uma ou várias partições na massa de dados, em grupos, por algum critério de classificação, de tal forma que exista homogeneidade dentro e heterogeneidade entre grupos (Sneath & Sokal, 1973; Mardia et al., 1997). Essa técnica sumariza dados para interpretação e utiliza métodos que procuram grupos excludentes, ascendentes, reduzindo as informações de um conjunto de n indivíduos para informações de um novo conjunto de g grupos, onde g é significativamente menor que n, resultando um dendrograma de exclusão (Mardia et al., 1997). Análise de agrupamento hierárquico A técnica de agrupamento hierárquico interliga as amostras por suas associações, produzindo um dendrograma onde as amostras semelhantes, segundo as variáveis escolhidas, são agrupadas entre si. A suposição básica de sua interpretação é esta: quanto menor a distância entre os pontos, maior a semelhança entre as amostras. Os dendrogramas são especialmente úteis na visualização de semelhanças entre amostras ou objetos representados por pontos em espaço com dimensão maior do que três, onde a representação de gráficos convencionais não é possível. Existem muitas maneiras de procurar agrupamentos no espaço n-dimensional. A maneira matematicamente mais simples consiste em agrupar os pares de pontos que estão mais próximos, usando a distância euclidiana, e substituí-los por um novo ponto localizado na metade da distância entre eles. Este procedimento, quando repetido até que todos os pontos sejam agrupado em um só ponto, leva a construção do dendrograma, onde, no eixo horizontal são colocadas as amostras e, no eixo vertical, o índice de similaridade 4
  • 6. Nhantumbo, Samuel Orlando Método de Ward Conforme Reis (1997), o método de Ward se baseia na perda de informação resultante do agrupamento das espécies e medida através da soma dos quadrados dos desvios das observações individuais relativamente às médias dos grupos em que são classificadas. Cada grupo se caracteriza por uma soma dos quadrados dos desvios de cada observação do centróides do mesmo (é uma soma dos numeradores dos estimadores das variâncias de cada variável dentro do grupo, é também a soma de distância Mahalanobis do quadrado de cada observação do centróides). A distância entre dois grupos se define como o aumento que se pronunciaria nesta soma de quadrados, se ambos os grupos se agregassem para a formação de um único grupo. O método de Ward é atraente por se basear numa medida com forte apelo estatístico e por gerar grupos que, assim como os do método vizinho mais longe, possuem uma alta homogeneidade interna (Barroso & Artes, 2003). Romesburg (1984) cita as seguintes características desse método:  Apresenta bons resultados tanto para distâncias Mahalanobis quanto para outras distâncias;  Pode apresentar resultados insatisfatórios quando o número de elementos em cada grupo é praticamente igual;  Tem tendência a combinar grupos com poucos elementos;  Sensível à presença de outliers. Análise discriminante A análise discriminante (Discriminant Analysis – DA) é aplicada para analisar a relação entre uma única variável dependente qualitativa ou categórica (grupos) e um conjunto de variáveis independentes quantitativas ou métricas. Esse método tem como objetivo determinar as variáveis que diferenciam ou discriminam os grupos, permitindo, assim, a identificação de grupos similares e a classificação de novos casos, em que a inserção é feita no grupo a que o caso tem maior probabilidade. 5
  • 7. Nhantumbo, Samuel Orlando Apresentação e discussão dos resultados Análise do comportamento dos clientes Análise exploratória de dados Nesta secção apresentar-se-á um breve resumo das características das variáveis quanto a média, variação e distribuição da percepção dos serviços prestados pela HATCO vide em anexos Tabela 7. Com base na informação contida nestas estatísticas verificamos que X1, X2, X5 e X6 apresentam percepções relativamente baixas, sendo que os clientes foram mais unanimes na avaliação pelo que pode se identificar pelos desvios apresentados diante da média que é baixo. As variáveis X3, X4, X7 estas apresentam uma alta percepção em geral visível também através dos desvios padrões. De notar que avaliando os resultados da compra, X9 apresenta uma distribuição assimétrica negativa, isto levando no a ver que a maior parte dos clientes da HATCO usam menos os produtos da empresa, mas em contra partida quanto ao nível de satisfação dos clientes não pode se classificar em alto ou baixo mas sim seria viável classificar como moderado com uma distribuição alongada a direita. Valores atípicos Verificou se a existência dos valores atípicos usando a medida D² de mahalanobis que avalia a posição de cada observação comparada com o centro (média) de todas variáveis do conjunto. Com esta comparação, duas observações (22 e 55) foram identificadas com significativamente diferente (observações atípicas), ambas com p-value=0,00. Para se decidir a retenção ou eliminaçao destas observações, efetuou se análise univariada a procura de observações atípicas onde foram encontradas as observações 39, 71, 82, 96 para a variáveis x1, x2, x4, x5 respectivamente e observações 5 e 42 para variável x6, as demais variáveis métricas não apresentaram valores atípicos. Contudo decidiu se com a não remoção das observações dadas com atípicas na análise multivariada. Representatividade da amostra Para feitos de análise vamos considerar que a amostra é representativa da população. Multicolinearidade Variável X1 X2 X3 X4 X5 X6 X7 Tolerância .028 .032 .608 .347 .023 .371 .623 VIF 35.747 31.597 1.645 2.879 43.834 2.697 1.606 6
  • 8. Nhantumbo, Samuel Orlando VIF mede a correlação da variável com todas as outras independentes, no entanto não se verifica se para X1, X2 e X5 um VIF superior a 10, que significa que há multicolinearidade das variáveis mencionadas, o contrário pode se dizer das remanescentes. Com estes resultados podemos dizer que a multicolinearidade não tem um efeito ponderador nas variáveis, assim nada nos impede de efetuar uma análise de agrupamentos para este conjunto de dados. Análise de agrupamento Apresentação e discussão das soluções dos agrupamentos. Através da análise do dendrograma (anexos) podemos sustentar o que foi dito em relação a valores atípicos, pós por este podemos verificar uma observação candidata a exclusão devido ao afastamento com as demais. Para a escolha do número de grupos calculou se R2 para diferentes números de grupos (2, 3 e 4), onde o agrupamento com quatro grupos foi mais adequado, o que explicam acima de 50% da variância total. Pode se sustentar essa informação por meio da análise do dendrograma efetuando o corte entre 20 e 25, também com coeficientes de aglomeração podemos verificar que é proposta solução 4 agrupamentos. Validação das soluções O processo de validação é atingido em dois passos, primeiro a validade é avaliada pela aplicação de métodos de agrupamento alternativo e a comparação das soluções. Em seguida, os agrupamentos são avaliados quanto a validade preditiva sobre duas medidas adicionais x9 e x10 (nível de uso e de satisfação) que são indicativas da potência para estratégias diferenciada entre os agrupamentos. Método K-Médias Para refinar as soluções de modo a se obter a situação que mais se adequa ao caso ou a estrutura de dados, analisou se a solução obtida pelo método de Ward, pelo método não hierárquico e após a análise da estrutura notou-se que a variável X5 ainda não apresenta uma diferença estaticamente significativa no agrupamento de 2 soluções, e o primeiro cluster, o que mais apresenta níveis superiores (vide anexos figura 2). Para a solução de 4 (anexos figura 3) agrupamentos verifica se a concentração de centróides elevados no agrupamento 4 e em seguida 1, sendo o segundo agrupamento o que apresenta percepções medias baixas. 7
  • 9. Nhantumbo, Samuel Orlando Caracterização das soluções de 2 e 4 agrupamentos. Para a solução de 2 agrupamentos, pode-se verificar a existência de diferenças significativas em quase todas variáveis exceptuando a X5 que com um p-value 0,341 não se diferem as médias relativas a percepção de nível geral de serviço que deve ser mantido pela empresa. Para a solução de 4 agrupamentos, ao nível das 7 variáveis verificou se a existência de diferenças estaticamente significativas das médias entre os agrupamentos formados, levando esta solução uma vantagem comparativa a solução de 2 agrupamento. Mesmo que descartemos o R² para escolha do número de grupos, por este ser proporcional de uma certa forma directamente com o número de grupos, conciliando a estrutura inicial dada pelas variáveis, a imagem emitida pelo dendrograma e as anovas realizadas para os dois agrupamentos (2 e 4) ira admitir se a solução de 4 agrupamentos como sendo a melhor forma de segmentação de cliente da HATCO quanto a suas percepções dos serviços prestados pela empresa. Análise discriminante Avaliação da validade preditiva através de outras variáveis para 4 agrupamentos. Para avaliar a validade preditiva, usou-se variáveis que tem uma relação teórica com as 7 variáveis do agrupamento, mas não foram incluídas na solução final (x9, x10) a procura das diferenças existentes entre as médias dos 4 grupos. Para a análise ira se recorrer a análise discriminante. Análise exploratória dos grupos A Tabela 8 (anexos) mostra, para cada grupo, as médias, os desvios-padrão e o número de elementos das variáveis X9 e X10. Para a variável X10, nos 4 grupos apresenta uma homogeneidade em relação as médias e a dispersão é muito baixa comparada com a variável X9. Verificação de pressuposto da análise discriminante Homogeneidade das matrizes de covariância- teste M de Box Tabela 1 Resultados do teste Box's M 5,737 F Approx. ,607 df1 9 df2 16930,309 Sig. ,792 Hipótes e nula: As matrizes de c ovariancia populacional s ão iguais 8
  • 10. Nhantumbo, Samuel Orlando O teste M de Box mostra que a hipótese de igualdade de matrizes de covariância não foi violada com uma p-value=0,792> 0,05 Normalidade multivariada Gráfico QQ para Normalidade M ultivariada 35 30 25 Mahalanobis D2 20 15 10 5 5 10 15 20 qchisq(ppoints(n), df = p) Gráfico 1 Como os pontos seguem o comportamento da reta (não estão distantes dela), temos indícios de que a hipótese da normalidade multivariada das variáveis x9 e x10 não foi violada. Esta ilustração gráfica pode ser sustentada através da análise univariada da normalidade de X9 e X10 por meio do teste de Kolmogorov-Smirnov que este não rejeita a hipótese de cada uma das variáveis seguir distribuição normal com p-vaule 0,786 e 0,77 respetivamente (ambos> 0,05) vide Tabela 9 (anexos). Com os pressupostos acima não violados, pode se continuar com a análise discriminante. Teste de igualdade das médias dos grupos para nível de uso e satisfação. Wilks' Lambda F df1 df2 Sig. x9 ,684 14,769 3 96 ,000 x10 ,965 1,177 3 96 ,323 A estatística de Wilk´s Lambda oferece informação sobre as diferenças entre os grupos, para cada variável individualmente. Obtém-se pela razão da variação dentro dos grupos (variação não explicada) sobre a variação total. Varia de 0 e 1, em que os pequenos valores indicam grandes diferenças entre os grupos, enquanto os valores elevados indicam não haver diferenças entre os mesmos. Adicionalmente, a maior estatística F (univariado) está associada a variável X9, o que indica que essa variável é a que melhor discrimina ou distingue os grupos. 9
  • 11. Nhantumbo, Samuel Orlando Da tabela acima, dos p-values associados as estatísticas F calculadas para os 4 agrupamentos, observa-se que para a variável nível de satisfação não apresenta diferenças significativas nos 4 grupos com o p-value=0.322> 0.05, mas quanto a variável nível de uso apresenta diferenças significativas das médias nos 4 grupos com o p-value=0.00 <0.05. Tabela 2 Matriz estrutura Tabela 3 Auto-valores Função Canonical 1 2 Função Eigenvalue % of Variance Cumulative % Correlation x9 ,933(*) ,359 1 ,530(a) 99,7 99,7 ,588 x10 -,258 ,966(*) 2 ,002(a) ,3 100,0 ,039 a First 2 canonical discriminant functions were used in the analysis. A matriz de estrutura evidencia a contribuição de cada variável para a função discriminante, realçando com um asterisco as variáveis mais importantes. Quanto maiores forem os coeficientes em valor absoluto, mais a função discriminante detém informação contida nessas variáveis. Neste caso verifica-se que X9 faz parte da primeira função discriminante e X10 da segunda. Assim sendo, a Tabela abaixo apresenta as estatísticas e os testes que permitem avaliar a importância das funções discriminantes. Os valores próprios (eigenvalues) são a razão da variação entre os grupos pela variação dentro dos mesmos. Quanto mais afastado de 1, maior será a variação entre os grupos explicada pela função discriminante. Pode-se observar que a primeira função contribui com 99,7% para o total da variância entre os grupos, sendo efetivamente a que tem o maior poder de separação. A segunda função explica 0,3% da variância intergrupal. Como complemento dessas estatísticas, procede-se ao teste de Wilk´s Lambda, conforme mostra a Tabela 3, para determinar-se o número de funções a serem retidas. Assim, testa-se também a hipótese das médias das duas funções discriminantes serem iguais nos 4 grupos, a qual é rejeitada (sig. = 0,000) na primeira função, isto é apenas uma única função discriminante deve ser usada para discriminar os grupos Tabela 4 Wilks' Lambda Test of Function(s) Wilks' Lambda Chi-square Df Sig. 1 through 2 ,653 40,956 6 ,000 2 ,998 ,146 2 ,930 10
  • 12. Nhantumbo, Samuel Orlando A função linear discriminante de Fisher basea-se no pressuposto de que as matrizes de covariância são iguais. Com base nessa função, é possível classificar indivíduos como pertencente a um determinado grupo, tendo como base a distancia de Mahalanobis até ao centro de cada grupo ou os escores de classificação. Uma nova observação é considerada como pertencente a um determinado grupo se para esse grupo ela apresentar a menor distância (ao quadrado) ou o maior escore de classificação de Fisher. Os escores de classificação são calculados usando os coeficientes apresentados na Tabela abaixo. Coeficiente da função de classificação Tabela 5 Ward Method 1 2 3 4 x9 ,755 ,636 ,776 ,879 x10 5,780 6,220 5,636 5,447 (Constant) -32,786 -29,699 -33,097 -37,506 Fisher's linear discriminant functions Resultados da Classificação Tabela 6 Classification Results a Predicted Group Membership Ward Method 1 2 3 4 Total Original Count 1 3 10 5 11 29 2 6 25 4 3 38 3 5 2 3 2 12 4 4 1 2 14 21 % 1 10,3 34,5 17,2 37,9 100,0 2 15,8 65,8 10,5 7,9 100,0 3 41,7 16,7 25,0 16,7 100,0 4 19,0 4,8 9,5 66,7 100,0 a. 45,0% of original grouped cases correctly c lassified. Da tabela acima, pode-se verificar que a regra de classificação apresenta resultados, não maus, tanto que 45% da classificação original é corretamente obtida pela regra acima definida. Os erros de classificação são graves no primeiro e terceiro grupo onde foram classificados corretamente 10,3% e 25% respetivamente, para os outros dois grupos a classificação é satisfatória. 11
  • 13. Nhantumbo, Samuel Orlando Conclusão e recomendações Pode-se verificar que 4 agrupamentos para os clientes da HATCO é a melhor forma de segmentação dos mesmos por meio das suas similaridades. Estes grupos de acordo com a caracterização dos mesmos, sendo que o grupo 4 tem percepções altas dos produtos da e o grupo 1 com menores percepções. Na análise discriminante, observou-se que estes 4 grupos formados podem ser explicados pela diferença existente no nível de uso dos produtos da HATCO. A função discriminante encontrada, classificou corretamente 45% dos casos originais, sendo esta a probabilidade de classificarmos de forma correta novas observações recorrendo apenas ao nível de uso e satisfação dos clientes pelos produtos da HATCO. Com esta informação podemos caraterizar os clientes da HATCO em: não exigentes, menos exigentes, exigentes e mais exigentes. Sendo que a HATCO pode segmentar também a linha dos seus produtos em 4 grupos para atender o nível de exigência de cada extrato, dado que o nível de satisfação é quase homogéneo nos 4 grupos, isto a empresa a estar num bom passo já que consegue produzir uma linha de produtos que satisfaz os diferentes segmentos, mas o nível de uso é diferente, assim necessário estimular os grupos com menor nível de uso a aderir ao produtos por meio de criação de pacotes direcionados e melhoria na prestação dos serviços. Bibliografia HAIR, JOSEPH F.; TATHAM, RONALD L.; ANDERSON, ROLPH E.; BLACK, WILIAM et al. tradução, Adonai Schlup Sant´Anna e Anselmo Chave Neto, Análise Multivariada de Dados, pp. 25 – 33, 5ª ed. - Porto Alegre: Bookman, 2005. MARTINS, G. A. Estatística Geral e Aplicada. São Paulo. Atlas, p.417, 20. Maroco, João; Análise Estatística com utilização de SPSS, Edição, Edições Sílabo, 2007. 12
  • 14. Nhantumbo, Samuel Orlando Anexos Dendrograma usando método de Ward Figura 2 Cluster Dendrogram 80 60 Height 40 20 0 3 2 4 6 8 7 9 5 1 82 93 37 48 31 53 30 10 34 57 71 83 24 27 75 99 89 65 79 39 96 94 98 40 54 45 86 56 91 23 32 85 87 11 52 100 60 70 17 64 68 36 41 84 88 67 90 15 20 19 28 49 97 58 74 12 76 66 80 14 38 63 42 33 62 25 44 26 59 51 77 95 43 46 18 92 69 81 50 72 22 55 35 13 21 47 61 16 73 29 78 d hclust (*, "ward") Fonte: Action, Software R embutido em M.Excell 2007 Tabela 7: Estatísticas descritivas Variável X1 X2 X3 X4 X5 X6 X7 X9 X10 Média 3,52 2,36 7,89 5,25 2,92 2,67 6,97 46,10 4,77 Des.Padrão 1,32 1,20 1,39 1,13 0,75 0,77 1,59 9,00 0,86 Assimetria -0,85 0,47 -0,29 0,22 -0,37 0,49 -0,23 -0,63 0,09 Fonte: Autor Tabela 9: Teste Kolmogorov-Smirnov Variável X9 X10 Kolmogorov-Smirnov (sig) 0,786 0,777 13
  • 15. Nhantumbo, Samuel Orlando Tabela 8: Estatísticas das variáveis x9 e x10 nos 4 agrupamentos Est atísticas Valid N (lis twis e) Grupos Médias Des v. padrão Unweighted Weighted 1 x9 47,000 8,5398 29 29,000 x10 4,724 ,8210 29 29,000 2 x9 40,500 7,5793 38 38,000 x10 4,963 ,9494 38 38,000 3 x9 48,083 5,5343 12 12,000 x10 4,633 ,8700 12 12,000 4 x9 53,857 6,9591 21 21,000 x10 4,567 ,6836 21 21,000 Total x9 46,100 8,9888 100 100,000 x10 4,771 ,8556 100 100,000 Fonte: Autor criada no SPSS Figura 2 perfis de agrupamento para solução de 2 cluster 10 8 6 Cluster 1 4 Cluster 2 2 0 X1 X2 X3 X4 X5 X6 X7 Fonte: Autor criada no M.Excell Figura 3 perfil de agrupamento para solução de 4 cluster 10 9 8 7 Agrupamento1 6 5 Agrupamento2 4 Agrupamento3 3 Agrupamento4 2 1 0 X1 X2 X3 X4 X5 X6 X7 Fonte: Autor criada em M.Excell 14