sexta-feira, 21 de janeiro de 2011

Introdução à análise fatorial e análise de componentes principais


Análise fatorial, pra quem não lembra ou não sabe, é uma técnica para se reduzir o número de variáveis de uma base de dados, identificando o padrão de correlações ou de covariância entre elas e gerando um número menor de novas variáveis latentes, não observadas, calculadas a partir dos dados brutos.

A redução a um número menor de variáveis, também chamados muitas vezes de “fatores”, “dimensões” ou “componentes”, maximiza o poder de explicação do conjunto de todas as variáveis e possibilitam identificar subgrupos de questões que avaliam uma mesma habilidade ou capacidade cognitiva (PASQUALI, 2009; PRIMI, 2003; PRIMI, 2006; THOMPSON, 2004; YANAI & ICHIKAWA, 2007).

As técnicas de análise fatorial exploratória e confirmatória proporcionam evidências de validade para questionários comumente usados para diversos fins, sejam eles de respostas dicotômicas ou ainda escalas tipo Likert.

Essas técnicas são muito importantes, dentre outras áreas, em Psicometria e Sociometria. Todavia, são pouco utilizadas entre nós. Por isso, resolvi fazer este nem tão breve tutorial, calcado nas minhas próprias dificuldades iniciais em interpretar os longos resultados gerados a partir do SPSS (Statistical Package for Social Sciences) para esse tipo de análise.

É importante ressaltar a sistematização dos passos a serem seguidos na análise antes de começarmos a interpretação propriamente dita. Isso será um pouco longo, mas de grande valia para que você consiga interpretar bem sua análise.

Primeiramente, deve-se verificar o tamanho da amostra, o número de variáveis que se pretente analisar e quais variáveis serão escolhidas para a análise. Geralmente aceita-se uma amostra com pelo menos 50 pessoas, mesmo que sejam poucas variáveis a serem analisadas. A relação de pelo menos 5 participantes por variável deve ser obedecida, sendo que o ideal são 10 participantes por variável.

Além do tamanho da amostra em relação ao número de variáveis, outros pressupostos devem ser seguidos, como a normalidade, linearidade, homocedasticidade. Em amostras grandes e variáveis bem delineadas (p. ex., itens bem escritos), esses pressupostos não deverão ser motivo de preocupação. Mesmo assim, tão logo quanto possível postarei links para ajudá-lo a verificar se os mesmos estão sendo obedecidos.

Na maior parte das vezes os termos análise de fatores comuns e análise de componentes principais são utilizados como sinônimos, porém não o são, mesmo não havendo grande diferença em seus métodos e resultados, afinal ambos são métodos de análise fatorial. A diferença conceitual importante aqui é que na análise de componentes principais a variância a ser considerada para a extração dos fatores é a variância total, e na análise fatores comuns considera-se apenas a variância comum entre as variáveis.

Em seguida, deve-se realizar o procedimento de extração de fatores em análise fatorial exploratória. Nem todos os fatores são aproveitáveis numa análise fatorial e há controvérsia sobre os critérios que determinam quando um fator é estatisticamente importante. A determinação do número de fatores pode ser facilitada por meio da análise do gráfico de scree plot, técnica advogada por Cattell (1966).

O scree plot mostra o número de componentes fatoriais extraídos em relação aos autovalores (“eigenvalues”) associados a esses fatores. Para entender o melhor o scree plot e o conceito de autovalor, é necessário conhecer o conceito de autovetor (“eigenvector”). Os autovetores de uma matriz de correlações consistem em representações lineares que são identificáveis no gráfico de scatterplot pelos maiores e menores diâmetros da elipse visualizável a partir dos pontos formados neste gráfico. Para facilitar sua compreensão, procure visualizar uma elipse em torno dos pontos presentes em do scatterplot presente na Figura 1.

Figura 1 - Exemplo de scatterplot

Os autovalores são, por sua vez, medidas do comprimento dos autovetores na elipse, ou da figura tridimensional elipticóide – se considerarmos correlações multivariadas. Portanto, ao analisarmos os autovalores de um conjunto de dados, consegue-se conhecer de que forma as variâncias da matriz de correlações estão distribuídas. Em outras palavras, é possível visualizar as grandezas da figura elipsóide formada na distribuição espacial das variáveis. O autovalor é calculado pela soma dos quadrados dos carregamentos de cada variável para a variável latente representada pelo fator obtido. O entendimento do conceito de autovalor é facilitado ao lembrarmos dois pontos importantes: 1) o carregamento (loading) é o valor do coeficiente de correlação entre a variável e o fator obtido; e 2) o quadrado do coeficiente de qualquer correlação é igual a porcentagem da variância de uma variável que é explicada pela outra. (FIELD, 2009).

Portanto, quando se analisa os autovalores de um conjunto de dados, consegue-se conhecer de que forma as variâncias da matriz de correlações estão distribuídas. Em outras palavras, os autovalores representam o quanto da variância é explicada pelo fator.

O número de fatores a ser utilizado pode suscitar dúvidas pois é comum haver divergência entre os métodos empregados. É praxe buscar-se o menor número possível de fatores. Geralmente, esse número equivale ao número de fatores anterior ao ponto de inflexão da curva, apontada pela seta da Figura 2, os quais apresentam autovalores consideravelmente mais elevados à esquerda. Note nessa figura que o único fator com autovalor maior que 1,0 é o primeiro, demonstrando que o conjunto de dados é unidimensional.

Figura 2 - Exemplo de scree plot.

Pelo critério de Kaiser (manter fatores com “eigenvalue”, ou autovalor, maior que 1), deve-se manter dois fatores. Outro critério, criado por Jolliffe, preconiza manter fatores com “eigenvalue” maior que 0,7, pois para esse autor, o critério de Kaiser é muito restritivo. O critério de Kaiser tem acurácia quando o número de variáveis é menor que 30 e as comunalidades são maiores que 0,7 ou quando o tamanho da amostra é maior que 250 e a comunalidade média é maior que 0,6.

Há um problema fundamental no critério de Kaiser e em qualquer outro critério que utilize um valor de cut-off para determinação de quais fatores devem ser retidos, incluindo o de Jolliffe: a magnitude da variância explicada expressa pelo autovalor depende da quantidade de variáveis. Um autovalor de 1 numa análise com 100 variáveis significa que o fator explica 1% da variância. Um autovalor de 1 numa análise com 10 variáveis significa que o fator explica 10% da variância. Um autovalor de 1 também significa que o fator explica tanta variância quanto uma variável, o que evidencia a não-realização da intenção original da análise de reduzir as variáveis para um número menor e mais “substantivo” de fatores subjacentes. Consequentemente, o critério de Kaiser frequentemente superestima o número de fatores e o critério de Jolliffe é ainda pior, já que o fator explicaria menos variância do que uma variável original. Por isso que a análise do scree plot para verificação do ponto de inflexão é tão importante, além do percentual de variância explicada (pelo menos 3%, idealmente mais que 5%).

Uma outra opção para verificação do número de fatores a serem mantidos é a análise paralela. Bases de dados com as mesmas características da base a ser analisada são geradas aleatoriamente para terem seus autovalores comparados. Os fatores são mantidos se seus autovalores forem maiores que os autovalores das bases com dados randômicos.

Se a análise fatorial revela a unidimensionalidade do instrumento de avaliação, a utilização da teoria clássica dos testes para o cálculo da discriminação do item torna-se mais aceitável quando calculada por meio de coeficiente de correlação item-total e também é um dos
pressupostos da teoria de resposta ao item. Outros métodos para avaliação da dimensionalidade incluem a análise de componentes principais da matriz de correlações inter-itens, empregada na teoria clássica dos testes; e a análise de componentes principais dos
resíduos do modelo de regressão logística, empregado na teoria de resposta ao item.

Quando se compreende que a dimensão (ou fator) é um eixo de classificação no qual as variáveis estão posicionadas, compreende-se a importância de se conhecer os métodos de rotação fatorial. Não cabe o detalhamento dos métodos de rotação no escopo deste artigo. No
entanto, deve-se esclarecer que a rotação escolhida para extração dos fatores depende principalmente do grau de inter-relação que se supõe para seus fatores. Se você deseja encontrar fatores independentes, os métodos de rotação ortogonal, como o varimax, são preferidos em detrimento daqueles de rotação oblíqua, como o promax e o direct oblimin - mais apropriados para fatores correlacionados entre si.

Com essa introdução espero ter esclarecido alguns conceitos importantes para a realização e a interpretação da análise fatorial.

Não deixe de ler o post que continua a discussão a respeito de análise fatorial com a interpretação dos resultados gerados a partir do SPSS clicando aqui.

Aguardo os comentários de vocês e as sugestões para aprimoramento deste post!

Abraços,

Collares

10 comentários:

  1. Bom dia Collares, estou tendo que usar a ACP para análise de compostos voláteis(11 compostos) liberados por plantas submetidas a diferentes tratamentos (4 tratamentos). No entanto estou tendo dificuldade quanto a maneira de plotar estes dados para rodar a análise. Estou usando o programa XLstat e dependendo da maneira que coloco os dados ele analisa de uma forma. Gostaria de saber o que devo fazer diante disso.

    Muito Obrigada

    Att

    Franciele

    ResponderExcluir
  2. Desculpa a demora em responder. Faz tempo que não venho ao blog. Sua pergunta é tão ampla que fica difícil responder assim para vc.
    Também não tenho informações suficientes:
    Vc já fez a ACP nas leituras com os 4 tratamentos separadamente?
    Também desconheço o tipo de leitura. Se os compostos forem bem diferentes entre si e as leituras (picos) forem bem distantes, uma coisa que posso imaginar seria utilizar uma rotação ortogonal.

    Será que a ACP é a técnica mais apropriada?

    Confesso que não sou experiente em ACP para esse tipo de dado, para os quais há certas especificidades que não domino (veja: http://link.springer.com/article/10.1007%2Fs004490050523?LI=true e http://www.ncbi.nlm.nih.gov/pubmed/14763845 para exemplos de como eles fizeram para usar ACP em dados de cromatografia).

    Talvez para você possa ser um bom começo a ACP, mas depois que vc tiver uma estrutura fatorial definida, provavelmente vc vai querer ver o impacto dos tratamentos nos 4 grupos.

    Então uma modelagem de equações estruturais pode ser necessário para ver o impacto dos tratamentos (procure por modelos MIMIC).

    Boa sorte,

    Carlos

    ResponderExcluir
  3. Olá Carlos eu tenho uma dúvida
    eu tenho dados biométricos de órgãos do corpo de um invertebrado nas 4 estações do ano, eu posso utilizar esses dados em porcentagem pra PCA?
    Obrigada
    Maris

    ResponderExcluir
  4. Todas as variáveis estão em porcentagem? Se sim, pode sim.

    ResponderExcluir
  5. Muito bom. Ajudou bastante! Obrigado.

    ResponderExcluir
  6. Ao modelar AF no SPSS é possível alterar o "ponto de corte" do autovalor, quando o mesmo é utilizado como método de decisão para o número de fatores resultantes. No programa esse valor está setado para 1. minha dúvida é: se a ferramenta tem caráter altamente exploratório por que manter esse valor como 1, ou por que razões o analista aumentaria/diminuiria esse valor?

    ResponderExcluir
    Respostas
    1. Desculpe-me pela demora na resposta.

      O autovalor indica o poder explicativo do fator. Um autovalor de 2 é uma indicação de que o fator tem o poder explicativo de 2 variáveis combinadas. A análise fatorial busca justamente aumentar o poder explicativo dos seus dados ao identificar padrões de correlação ou covariância entre elas. Por isso, um autovalor menor que 1 não faz sentido, já que o fator está explicando menos do que uma variável original.

      Minha sugestão é sempre usar uma análise paralela com números randômicos. Os fatores "realmente explicativos" de sua base de dados original muito provavelmente serão aqueles que estiverem acima do percentil 95% ou 99% da análise paralela (com dados gerados randomicamente mas com o mesmo número de variáveis e "participantes").

      Respondido?

      Abs,

      CFC

      Excluir
    2. Em partes, meu problema era justificar o aumento do autovalor para 1,5. Seria algo muito errado?

      Outra dúvida é: se eu vou utilizar os resultados da minha fatorial para rodar uma regressão eu obrigatoriamente tenho que rotacionar? Resumindo: poque rotacionar? por que não rotacionar?? Apesar dos resultados serem diferentes na regressão, qual deve prevalecer?
      O que me gera dificuldade é essa imensidão de possibilidade que AF permite me causando preocupação se estou modelando de maneira coerente.

      Abraço,
      Ricardo.

      Excluir
    3. Muitas vezes há autovalores acima de 1 que são apenas "ruído". Se fizeres uso de um programa de análise paralela com 1000 ou mais matrizes randômicas de igual tamanho, verás que muito provavelmente os autovalores abaixo do percentil 95 são muito provavelmente apenas ruído.

      Há scripts de parallel analysis para softwares como o SPSS, arquivos executáveis, de fácil uso e ferramentas online mais simples como essa: http://ires.ku.edu/~smishra/parallelengine.htm

      Aí você vai descobrir realmente qual o melhor valor de corte (o eigenvalue do percentil 95 é o melhor na minha opinião e de acordo com pelo menos uma referência, embora alguns usem ainda a média).

      Abs,

      Collares

      Excluir
    4. E quanto à rotação ser importante. É importante para você definir de que forma você imagina a relação entre seus fatores: havendo correlação ou não. Se você pensa que há existência de correlação, use uma rotação oblíqua com a varimax, que irá ROTACIONAR os eixos correspondentes às dimensões nesse ESPAÇO dimensional para que essas correlações ocorram. Quando há duas ou três dimensões é fácil você imaginar os lados dos eixos girando para se aproximarem ou se repelirem. Essa é a rotação. Difícil é visualizar e calcular isso quando há mais eixos e o espaço é tão multidimensional que fica impossível até mesmo sua visualização.

      Abs,

      Collares

      Excluir

Related Posts Plugin for WordPress, Blogger...