Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

sexta-feira, 21 de janeiro de 2011

Introdução à análise fatorial e análise de componentes principais


Análise fatorial, pra quem não lembra ou não sabe, é uma técnica para se reduzir o número de variáveis de uma base de dados, identificando o padrão de correlações ou de covariância entre elas e gerando um número menor de novas variáveis latentes, não observadas, calculadas a partir dos dados brutos.

A redução a um número menor de variáveis, também chamados muitas vezes de “fatores”, “dimensões” ou “componentes”, maximiza o poder de explicação do conjunto de todas as variáveis e possibilitam identificar subgrupos de questões que avaliam uma mesma habilidade ou capacidade cognitiva (PASQUALI, 2009; PRIMI, 2003; PRIMI, 2006; THOMPSON, 2004; YANAI & ICHIKAWA, 2007).

As técnicas de análise fatorial exploratória e confirmatória proporcionam evidências de validade para questionários comumente usados para diversos fins, sejam eles de respostas dicotômicas ou ainda escalas tipo Likert.

Essas técnicas são muito importantes, dentre outras áreas, em Psicometria e Sociometria. Todavia, são pouco utilizadas entre nós. Por isso, resolvi fazer este nem tão breve tutorial, calcado nas minhas próprias dificuldades iniciais em interpretar os longos resultados gerados a partir do SPSS (Statistical Package for Social Sciences) para esse tipo de análise.

É importante ressaltar a sistematização dos passos a serem seguidos na análise antes de começarmos a interpretação propriamente dita. Isso será um pouco longo, mas de grande valia para que você consiga interpretar bem sua análise.

Primeiramente, deve-se verificar o tamanho da amostra, o número de variáveis que se pretente analisar e quais variáveis serão escolhidas para a análise. Geralmente aceita-se uma amostra com pelo menos 50 pessoas, mesmo que sejam poucas variáveis a serem analisadas. A relação de pelo menos 5 participantes por variável deve ser obedecida, sendo que o ideal são 10 participantes por variável.

Além do tamanho da amostra em relação ao número de variáveis, outros pressupostos devem ser seguidos, como a normalidade, linearidade, homocedasticidade. Em amostras grandes e variáveis bem delineadas (p. ex., itens bem escritos), esses pressupostos não deverão ser motivo de preocupação. Mesmo assim, tão logo quanto possível postarei links para ajudá-lo a verificar se os mesmos estão sendo obedecidos.

Na maior parte das vezes os termos análise de fatores comuns e análise de componentes principais são utilizados como sinônimos, porém não o são, mesmo não havendo grande diferença em seus métodos e resultados, afinal ambos são métodos de análise fatorial. A diferença conceitual importante aqui é que na análise de componentes principais a variância a ser considerada para a extração dos fatores é a variância total, e na análise fatores comuns considera-se apenas a variância comum entre as variáveis.

Em seguida, deve-se realizar o procedimento de extração de fatores em análise fatorial exploratória. Nem todos os fatores são aproveitáveis numa análise fatorial e há controvérsia sobre os critérios que determinam quando um fator é estatisticamente importante. A determinação do número de fatores pode ser facilitada por meio da análise do gráfico de scree plot, técnica advogada por Cattell (1966).

O scree plot mostra o número de componentes fatoriais extraídos em relação aos autovalores (“eigenvalues”) associados a esses fatores. Para entender o melhor o scree plot e o conceito de autovalor, é necessário conhecer o conceito de autovetor (“eigenvector”). Os autovetores de uma matriz de correlações consistem em representações lineares que são identificáveis no gráfico de scatterplot pelos maiores e menores diâmetros da elipse visualizável a partir dos pontos formados neste gráfico. Para facilitar sua compreensão, procure visualizar uma elipse em torno dos pontos presentes em do scatterplot presente na Figura 1.

Figura 1 - Exemplo de scatterplot

Os autovalores são, por sua vez, medidas do comprimento dos autovetores na elipse, ou da figura tridimensional elipticóide – se considerarmos correlações multivariadas. Portanto, ao analisarmos os autovalores de um conjunto de dados, consegue-se conhecer de que forma as variâncias da matriz de correlações estão distribuídas. Em outras palavras, é possível visualizar as grandezas da figura elipsóide formada na distribuição espacial das variáveis. O autovalor é calculado pela soma dos quadrados dos carregamentos de cada variável para a variável latente representada pelo fator obtido. O entendimento do conceito de autovalor é facilitado ao lembrarmos dois pontos importantes: 1) o carregamento (loading) é o valor do coeficiente de correlação entre a variável e o fator obtido; e 2) o quadrado do coeficiente de qualquer correlação é igual a porcentagem da variância de uma variável que é explicada pela outra. (FIELD, 2009).

Portanto, quando se analisa os autovalores de um conjunto de dados, consegue-se conhecer de que forma as variâncias da matriz de correlações estão distribuídas. Em outras palavras, os autovalores representam o quanto da variância é explicada pelo fator.

O número de fatores a ser utilizado pode suscitar dúvidas pois é comum haver divergência entre os métodos empregados. É praxe buscar-se o menor número possível de fatores. Geralmente, esse número equivale ao número de fatores anterior ao ponto de inflexão da curva, apontada pela seta da Figura 2, os quais apresentam autovalores consideravelmente mais elevados à esquerda. Note nessa figura que o único fator com autovalor maior que 1,0 é o primeiro, demonstrando que o conjunto de dados é unidimensional.

Figura 2 - Exemplo de scree plot.

Pelo critério de Kaiser (manter fatores com “eigenvalue”, ou autovalor, maior que 1), deve-se manter dois fatores. Outro critério, criado por Jolliffe, preconiza manter fatores com “eigenvalue” maior que 0,7, pois para esse autor, o critério de Kaiser é muito restritivo. O critério de Kaiser tem acurácia quando o número de variáveis é menor que 30 e as comunalidades são maiores que 0,7 ou quando o tamanho da amostra é maior que 250 e a comunalidade média é maior que 0,6.

Há um problema fundamental no critério de Kaiser e em qualquer outro critério que utilize um valor de cut-off para determinação de quais fatores devem ser retidos, incluindo o de Jolliffe: a magnitude da variância explicada expressa pelo autovalor depende da quantidade de variáveis. Um autovalor de 1 numa análise com 100 variáveis significa que o fator explica 1% da variância. Um autovalor de 1 numa análise com 10 variáveis significa que o fator explica 10% da variância. Um autovalor de 1 também significa que o fator explica tanta variância quanto uma variável, o que evidencia a não-realização da intenção original da análise de reduzir as variáveis para um número menor e mais “substantivo” de fatores subjacentes. Consequentemente, o critério de Kaiser frequentemente superestima o número de fatores e o critério de Jolliffe é ainda pior, já que o fator explicaria menos variância do que uma variável original. Por isso que a análise do scree plot para verificação do ponto de inflexão é tão importante, além do percentual de variância explicada (pelo menos 3%, idealmente mais que 5%).

Uma outra opção para verificação do número de fatores a serem mantidos é a análise paralela. Bases de dados com as mesmas características da base a ser analisada são geradas aleatoriamente para terem seus autovalores comparados. Os fatores são mantidos se seus autovalores forem maiores que os autovalores das bases com dados randômicos.

Se a análise fatorial revela a unidimensionalidade do instrumento de avaliação, a utilização da teoria clássica dos testes para o cálculo da discriminação do item torna-se mais aceitável quando calculada por meio de coeficiente de correlação item-total e também é um dos
pressupostos da teoria de resposta ao item. Outros métodos para avaliação da dimensionalidade incluem a análise de componentes principais da matriz de correlações inter-itens, empregada na teoria clássica dos testes; e a análise de componentes principais dos
resíduos do modelo de regressão logística, empregado na teoria de resposta ao item.

Quando se compreende que a dimensão (ou fator) é um eixo de classificação no qual as variáveis estão posicionadas, compreende-se a importância de se conhecer os métodos de rotação fatorial. Não cabe o detalhamento dos métodos de rotação no escopo deste artigo. No
entanto, deve-se esclarecer que a rotação escolhida para extração dos fatores depende principalmente do grau de inter-relação que se supõe para seus fatores. Se você deseja encontrar fatores independentes, os métodos de rotação ortogonal, como o varimax, são preferidos em detrimento daqueles de rotação oblíqua, como o promax e o direct oblimin - mais apropriados para fatores correlacionados entre si.

Com essa introdução espero ter esclarecido alguns conceitos importantes para a realização e a interpretação da análise fatorial.

Não deixe de ler o post que continua a discussão a respeito de análise fatorial com a interpretação dos resultados gerados a partir do SPSS clicando aqui.

Aguardo os comentários de vocês e as sugestões para aprimoramento deste post!

Abraços,

Collares

Related Posts Plugin for WordPress, Blogger...