Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

sexta-feira, 4 de maio de 2012

No caso de uma regressão logística, não é necessário testar a multicolinearidade?

Precisa testar pra multicolinearidade na regressão logística, sim!
Você pode avaliar os valores de tolerância e VIF.
Valores muito baixos de tolerância e valores muito altos de VIF quase certamente indicam problemas de multicolinearidade.
Valores de tolerância abaixo de 0,1 e valores de VIF acima de 10 devem alertá-lo para isso.

Outra maneira é avaliar a proporção de variância ("variance proportions") das últimas dimensões (as que tem menor eigenvalue). Proporções de variância similares entre variáveis nas dimensões de menor eigenvalue indicam alta colinearidade entre elas.

Claro que se você tiver apenas uma variável independente (preditora), não faz sentido testar multicolinearidade.

(Obrigado ao anônimo que postou a pergunta no Formspring. Agora entendi o que você estava perguntando... Respondido?)

O que quer dizer o F na análise de variância (ANOVA)

Pense em um teste t.
No teste t, testa-se a hipótese de que as duas amostras têm a mesma média.

De forma similar, a análise de variância (ANOVA) nos diz se três ou mais médias são iguais.
A ANOVA produz um valor chamado F (F-statistics ou F-ratio).

Esse valor de F é similar ao valor de t pelo fato de comparar a quantidade de variância sistemática nos dados com a quantidade de variância não-sistemática.

Em outras palavras, o valor de F é a razão entre o modelo e seu erro.

Difícil ainda, né?

Vamos dar um exemplo:

Suponha que você fez um experimento com três grupos.
O valor de F vai nos dizer o quanto as médias desses três grupos não são iguais.

Para entender o valor de F é preciso saber que o F é parecido com o coeficiente de determinação usado em correlações e regressões (R2). A diferença é que o R2 é calculado pela divisão da  soma dos quadrados do modelo (sum of squares of the model, SSm) com a soma total dos quadrados (total sum of squares, SSt).

Procure imaginar um gráfico de dispersão (scatterplot).

A soma total dos quadrados (SSt) usa as diferenças entre os dados observados de x e o valor médio de y (pense numa linha horizontal perpendicular ao eixo y).

A soma dos quadrados residuais (SSr) usa a diferença entre os dados observados de x e a linha de regressão entre x e y (pense numa linha diagonal).

A soma dos quadrados do modelo (SSm) é uma medida da melhora obtida pelo modelo e utiliza as diferenças entre o valor médio de y e a linha de regressão.

Como a soma dos quadrados dependem do número de diferenças, usamos os quadrados médios para calcular o F, isto é: a soma dos quadrados divididos pelo número de graus de liberdade.

Em termos matemáticos o valor de F é calculado pela divisão entre os quadrados médios para o modelo (mean squares for the model, MSm) e os quadrados médios residuais (residual mean squares, MSr).

Ou simplesmente: F = MSm / MSr.

Os graus de liberdade são usados para dividir ambas as somas dos quadrados (sum of quares).
No numerador, o número de graus de liberdade é igual ao número de grupos menos 1. Para uma ANOVA de três grupos, esse valor é 2. No denominador, o número de graus de liberdade é igual ao número de observações menos o número de grupos. Se o número de observações for 24 e o número de grupos for três, esse valor é 21.

Na publicação ficaria assim: F (2,21) = 71.84 (chutei um valor de F qualquer).

Para um modelo de regressão, por exemplo, quanto maior o F, melhor, pois significa que os quadrados médios do modelo são maiores que os quadrados médios residuais. Quanto maior o F, mais significativo o valor de p para a ANOVA.

Para a comparação de médias entre os 3 grupos, um valor de F elevado significa que há alguma diferença entre esses grupos capaz de ser expressa adequadamente por meio de um modelo de regressão.

Agora você sabe o que o F quer dizer.

Só que o valor de F só diz se houve alguma diferença geral entre as médias, mas não nos diz nada sobre quais pares de grupos posuem médias significativamente diferentes.

Para isso você precisa dos testes post hoc. Mas isto é algo para este post.

Um vídeo em inglês que ajuda a entender bem o que quer dizer o F pode ser visto abaixo



Related Posts Plugin for WordPress, Blogger...