Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

quarta-feira, 11 de maio de 2011

O que é uma regressão logística?



Assim como a regressão linear, a regressão logística é uma maneira de transformar a relação entre duas variáveis numa equação, mas numa equação um pouquinho diferente, já que uma das variáveis (a de desfecho) é dicotômica, isto é tem apenas duas categorias (p. ex. sim/não, óbito/sobrevivência, aprovação/reprovação), isso faz com que a a linha de tendência esperada não seja reta no gráfico, como ocorreria numa variável contínua. Empiricamente, tal tipo de desfecho gera uma curva em forma de S inclinado, como no desenho abaixo.


Essa curva em S é oriunda de uma equação (função) logística, que é dada pelas fórmulas abaixo:





A entrada pode ser qualquer número, mas a variável dependente (desfecho), como é calculada de forma probabilística, só resulta em valores entre 0 e 1 (ou seja, em um percentual entre 0 e 100%). Quem estiver com probabilidade abaixo de 50% é colocada no grupo de desfecho 0. Quem estiver com probabilidade acima de 50% vai para o grupo de desfecho 1.

Em seguida comparamos como o modelo de regressão logística agrupou os indivíduos com o que aconteceu de fato. Assim, temos o percentual de eficácia da equação do modelo de regressão em prever corretamente o desfecho. Cálculos de valores preditivos positivos e negativos e curvas ROC são análises complementares que refinam a compreensão da eficácia do modelo de regressão. Gráficos de dispersão mostrando a probabilidade do evento ocorrer de acordo com a variável independente escolhida devem corroborar na coerência do modelo com a teoria.

Obviamente, é muito difícil termos 100% de eficácia de um modelo de regressão, afinal, sempre tem indivíduos mais distantes da linha (ou curva) gerada pela equação do modelo de regressão, os outliers. Observe na linha vermelha do gráfico acima. Ela representa os valores observados empiricamente. A curva em preto representa o modelo logístico estimado para os dados empíricos.

A teoria de resposta ao item usa funções logísticas de 1, 2 e 3 parâmetros na equação de regressão (1 parâmetro = dificuldade b; 2 parâmetros = b + discriminação a; 3 parâmetros = b + a + acerto ao acaso c). Para testes de múltipla escolha como o TPI, o modelo logístico de 3 parâmetros é o melhor. O gráfico acima representa um modelo de regressão logística de 3 parâmetros em função do nível de theta dos estudantes para a questão 2 do TPI de 2010/2.


O que é uma regressão linear?




É uma maneira de transformar a relação entre duas variáveis contínuas numa equação do tipo y = b + ax. Objetivo principal de uma regressão: predição
No gráfico de dispersão (scatterplot) o cálculo da equação gera uma linha reta, como você pode ver na figura.






Esse gráfico demonstra uma linha de tendência entre o escore bruto no TPI de 2010/2 e o semestre cursado pelo participante.
O valor do R2 é o coeficiente de determinação: ele é calculado elevando-se ao quadrado o coeficiente de correlação r (que mede o grau de linearidade entre as variáveis). O coeficiente de determinação mede o percentual de variância de uma variável explicada pela outra variável. Lembrando: variância, que é o desvio padrão elevado ao quadrado, é uma medida da dispersão da variável. Com um R2 de 0,391, pode-se dizer que a etapa do estudante explica 39,1% da variância nos escores do TPI. Com isso podemos afirmar que o poder explicativo de um modelo de regressão entre escore bruto no TPI é de 39,1%.

Utilizando-se a teoria dos conjuntos, é mais fácil visualizar. Veja no desenho abaixo:




Imagine que cada conjunto representa a variância (desvio padrão ao quadrado, uma medida da dispersão da variável) de uma variável. A intersecção entre as duas variáveis é o percentual de variância explicada uma pela outra, representado pelo R2, no caso da relação entre escore bruto no TPI e etapa, esse percentual, como já disse, é de 39,1%, o que é ótimo pra nós – uma evidência incontestável de que os estudantes progridem mesmo ao longo do curso.


Outro dia eu explico como realizar a interpretação de uma regressão linear, os métodos de seleção de variáveis e a avaliação de seus pressupostos, mas agora eu vou pra regressão logística...

TENSO


O gráfico abaixo mostra a relação entre a probabilidade de passar no processo seletivo de algum programa de residência médica e o escore obtido no teste de progresso conforme calculado pela teoria de resposta ao item, o qual chamamos de escore theta. Theta é o nome que se convencionou utilizar na teoria de resposta ao item para designar o conceito de "traço latente", "construto" e/ou "dimensão"; ou seja, é a variável não observada diretamente, mas que se pretende mensurar a partir dos dados observados. A escala vai de "menos infinito" a "mais infinito". O zero é dado pela dificuldade média das questões e o 1 (um) equivale ao desvio padrão dessa mesma dificuldade. O escore em theta é mais confiável pois elimina os acertos por chute e leva em conta não apenas o número de acertos, mas a dificuldade de cada questão.

Como vocês podem ver, quanto maior o escore em theta, maior a probabilidade de passar na residência...
Obviamente, não resisti a usar esse meme espertão e brincalhão:



Esse pontinho aí tem um LONGO caminho a percorrer no desenvolvimento do seu potencial...
Related Posts Plugin for WordPress, Blogger...