Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

quarta-feira, 11 de maio de 2011

O que é uma regressão logística?



Assim como a regressão linear, a regressão logística é uma maneira de transformar a relação entre duas variáveis numa equação, mas numa equação um pouquinho diferente, já que uma das variáveis (a de desfecho) é dicotômica, isto é tem apenas duas categorias (p. ex. sim/não, óbito/sobrevivência, aprovação/reprovação), isso faz com que a a linha de tendência esperada não seja reta no gráfico, como ocorreria numa variável contínua. Empiricamente, tal tipo de desfecho gera uma curva em forma de S inclinado, como no desenho abaixo.


Essa curva em S é oriunda de uma equação (função) logística, que é dada pelas fórmulas abaixo:





A entrada pode ser qualquer número, mas a variável dependente (desfecho), como é calculada de forma probabilística, só resulta em valores entre 0 e 1 (ou seja, em um percentual entre 0 e 100%). Quem estiver com probabilidade abaixo de 50% é colocada no grupo de desfecho 0. Quem estiver com probabilidade acima de 50% vai para o grupo de desfecho 1.

Em seguida comparamos como o modelo de regressão logística agrupou os indivíduos com o que aconteceu de fato. Assim, temos o percentual de eficácia da equação do modelo de regressão em prever corretamente o desfecho. Cálculos de valores preditivos positivos e negativos e curvas ROC são análises complementares que refinam a compreensão da eficácia do modelo de regressão. Gráficos de dispersão mostrando a probabilidade do evento ocorrer de acordo com a variável independente escolhida devem corroborar na coerência do modelo com a teoria.

Obviamente, é muito difícil termos 100% de eficácia de um modelo de regressão, afinal, sempre tem indivíduos mais distantes da linha (ou curva) gerada pela equação do modelo de regressão, os outliers. Observe na linha vermelha do gráfico acima. Ela representa os valores observados empiricamente. A curva em preto representa o modelo logístico estimado para os dados empíricos.

A teoria de resposta ao item usa funções logísticas de 1, 2 e 3 parâmetros na equação de regressão (1 parâmetro = dificuldade b; 2 parâmetros = b + discriminação a; 3 parâmetros = b + a + acerto ao acaso c). Para testes de múltipla escolha como o TPI, o modelo logístico de 3 parâmetros é o melhor. O gráfico acima representa um modelo de regressão logística de 3 parâmetros em função do nível de theta dos estudantes para a questão 2 do TPI de 2010/2.


Related Posts Plugin for WordPress, Blogger...