Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

quinta-feira, 20 de janeiro de 2011

Teoria de resposta ao item (TRI) e o ENEM (Exame Nacional do Ensino Médio) - Perguntas e Respostas


Depois de ler muita matéria ruim nos veículos de comunicação, decidi escrever um texto acessível para que os estudantes de ensino médio e seus familiares possam finalmente entender o que é a teoria de resposta ao item e o que ela tem haver com o presente e o futuro de avaliações decisivas, como é o caso do ENEM.

1 - O que é a Teoria de Resposta ao Item (TRI)?

A TRI é, na verdade, bem mais que uma teoria, mas para facilitar a compreensão do leitor, vou colocar da seguinte forma: trata-se de um conjunto de modelos matemáticos probabilísticos que relacionam a probabilidade de acerto em cada questão (ou item) com o grau de habilidade da pessoa testada. Esse grau de habilidade é também denominado "traço latente", ou "theta".

2 - Tá, e daí? Todas as provas já não fazem isso? Todas as provas já não funcionam assim?

Não. A maioria das provas segue aquilo que em Psicometria chamamos de Teoria Clássica dos Testes. Na Teoria Clássica você recebe a nota de acordo com a proporção de questões que você acertou. No caso de questões com pesos diferentes, soma-se o valor de cada questão para se obter a nota e os pesos das questões são escolhidos arbitrariamente pelos professores que elaboraram a prova. Na Teoria Clássica, o grau de confiabilidade e o erro padrão de medida são calculados para a prova como um todo. Além disso, o índice de dificuldade das questões é calculado apenas pelo percentual de erros. Para se calcular o poder das questões em discriminar (isto é, diferenciar) os testandos de alto dos de baixo desempenho, a Teoria Clássica utiliza correlações entre o item e a nota total (correlações bisserial e ponto-bisserial) ou por meio da diferença no percentual de acertos na questão entre os 33% de alunos com nota total alta e os 33% de alunos com nota total baixa. Na Teoria Clássica, o percentual de acertos ao acaso é fixo e estimado de acordo com o número de alternativas (20% para questões com 5 alternativas).

3 - Então quais são as vantagens da TRI?

Talvez algumas vantagens sejam perceptíveis e valorizadas apenas por pessoas muito aficcionadas por avaliação quantitativa. Todavia, algumas vantagens são realmente perceptíveis e importantes para os testandos, especialmente os que fazem provas como a do ENEM.

Primeira vantagem: Por analisar cada questão individualmente, a TRI consegue calcular o grau de confiabilidade e o erro padrão de medida de cada uma das questões, ao invés de calcular tais valores apenas para a prova inteira como na Teoria Clássica.

Segunda vantagem: Os graus de dificuldade, discriminação
e acerto ao acaso são parâmetros que podem ser colocados nas equações existentes para o cálculo da relação entre a probabilidade de acerto e a habilidade ("theta") do testando, coisa que a Teoria Clássica não é capaz de fazer.

Terceira vantagem: Quando obedecidos os pressupostos exigidos pelo modelo (p. ex., unidimensionalidade das questões - isto é, as questões medem o mesmo "construto", o mesmo "traço latente"/"theta"), os parâmetros das questões (dificuldade, discriminação e acerto ao acaso) são invariantes, ou seja, são consideravelmente constantes independentemente da amostra na qual são aplicadas. No caso do ENEM, como as questões são extraídas de um gigantesco banco de questões previamente aplicadas a amostras aleatórias, tais parâmetros são previamente conhecidos e possibilitam a equalização das provas. Isso quer dizer que realmente não houve prejuízo para aqueles candidatos que fizeram a prova do ENEM na segunda aplicação, mesmo com questões diferentes.

Quarta vantagem: a invariância dos parâmetros citada acima possibilita a utilização da testagem adaptativa computadorizada (ou CAT, de computerized adaptive testing), na qual o computador escolhe as questões seguintes de acordo com o seu desempenho nas questões anteriores. Isso acabaria com o problema de vazamento da prova do ENEM e poderia ainda reduzir sua duração. Além disso, como as questões são mais confiáveis quanto mais próximas do nível de habilidade do candidato, e o computador vai calibrando a dificuldade das questões de acordo com o nível de habilidade, haveria um ganho no grau de confiabilidade da prova. Com a utilização da CAT, portanto, saberíamos com mais certeza se a prova está medindo "direito" o que quer que esteja sendo mensurado.

Quinta vantagem: como a TRI leva em conta o grau de dificuldade das questões para a composição da nota, pessoas com o mesmo número de acertos poderão ter notas diferentes. Dá-se mais valor às questões mais difíceis. Com isso o testando fica livre dos pesos conferidos arbitrariamente pelos professores e tem seu desempenho mais adequadamente valorizado.

Sexta vantagem: a identificação de "chutes" e "colas" fica facilitado pois a probabilidade de que um estudante com baixo nível de habilidade acerte questões com alto nível de dificuldade é baixa. Pode-se não provar a "cola" ou o "chute", mas corrobora-se a legitimidade da suspeita.

Há mais vantagens que eu poderia citar aqui, mas não vou alugar vocês com mais Psicometria.

4 - Como a TRI faz essa mágica toda? Será que um dia vou finalmente entendê-la?

Na TRI, a habilidade das pessoas, ou "theta", é colocada na mesma escala da dificuldade da questões. Ao utilizarmos a mesma métrica para a habilidade dos testandos e para a dificuldade das questões, podemos tecer comparações úteis e visualizar graficamente as probabilidades de acerto da questão. Na minha opinião, este é o verdadeiro "pulo do gato" para entender a TRI.

Veja como estão dispostos o estudante fictício "Joãozinho" e a fictícia questão 7 na escala de theta:

No exemplo acima, como o theta de Joãozinho (2,0) é maior que o theta da questão 7 (1,0), a probabilidade de que Joãozinho acerte a questão 7 é maior que 50%.

Para a questão 8, o theta calculado é de 3,0. Veja no gráfico abaixo:

Nesse caso, como o theta de Joãozinho (2,0) é menor que o theta da questão 8 (3,0), a probabilidade de que ele acerte essa questão é menor que 50%.

E se o theta da questão for igual ao theta de Joãozinho?

Se a questão tivesse um theta igual a 2,0, a probabilidade de que ele acertasse a questão seria igual a 50%.

5 - E da onde vêm os valores de theta das pessoas e das questões?

Os valores de theta das pessoas são calculados tendo-se como princípio a distribuição normal das habilidades dos testandos e a padronização desses valores como se faz com os escores z, nos quais a média é igual a zero (0,0) e o desvio padrão é igual a um (1,0). Pode-se centrar a média zero na dificuldade das questões, se assim desejado, para possibilitar a equalização de provas com questões totalmente diferentes. Contudo, se não há interesse em equalizar provas, o mais comum é centrar a média zero para as habilidades dos testandos. Em suma, o theta é um valor derivado do desvio padrão (isto é, a raiz quadrada da variância).

Para que obtenhamos o theta das pessoas precisamos dos valores de theta das questões. O theta das questões é obtido a partir de diferentes métodos de estimação e a calibração dessa estimativa é feita por meio de um processo iterativo (repetitivo, que vai e volta), até obter-se o valor "correto". O mesmo se faz para os parâmetros de discriminação e acerto ao acaso.

6 - Esse "correto" está entre aspas. Como assim? É possível que a TRI seja "errada"?

Há que se entender que a TRI é um modelo matemático probabilístico, como exposto no início.
Como a probabilidade que está sendo estudada é a de um evento dicotômico, ou seja, com duas possibilidades de desfecho (acerto x erro na questão), é apropriado utilizar-se a técnica de regressão logística dos valores observados empiricamente.

Veja no gráfico abaixo a curva entre o grau de habilidade (theta) e a probabilidade de acerto na questão (0,0 a 1,0, isto é, de 0% a 100%):

Ao gráfico obtido entre a probabilidade de acerto e o theta confere-se a denominação "curva característica do item", que nada mais é do que uma função logística. Leia mais sobre o que é uma regressão logística aqui.

Itens mais difíceis terão um desvio da curva para a direita. Itens mais fáceis estarão com suas curvas desviadas para a esquerda. A dificuldade do item em theta é igual ao valor no qual a probabilidade de acerto é de 0,5 (50%).

Toda regressão envolve a transformação da relação entre variáveis em uma equação.
Nesse processo há invariavelmente uma perda, uma diferença entre os valores reais e os valores previstos pelo modelo. A essa diferença dá-se o nome de resíduo.

A calibração iterativa dos valores dos parâmetros a partir de valores iniciais pré-determinados objetiva reduzir ao máximo os valores dos resíduos. Para assegurar que não haja uma discrepância excessiva entre os valores empíricos e modelados, as questões com resíduos elevados são eliminadas. Outros cálculos são realizados com esse intuito de assegurar a viabilidade do uso da TRI, como o infit e o outfit. Questões com o infit ou o outfit elevados são igualmente descartadas.

Veja no gráfico abaixo a relação entre os valores "reais" ou "empíricos", representados pelos pontos, e os valores previstos pela função logística:





A análise de componentes principais dos resíduos também é realizada para assegurar que o pressuposto da unidimensionalidade do teste e/ou seus subtestes não seja violado. Ou seja, há uma perda de informação durante a modelagem, porém há como controlá-la para que não seja estatisticamente significativa.

Para saber mais:



Related Posts Plugin for WordPress, Blogger...