Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

terça-feira, 10 de janeiro de 2012

Você concorda com essa frase? “O estudante que tirou abaixo de cinco (5,0) no ENADE ou na prova do Conselho merece ser reprovado mesmo pois ignora da metade do conhecimento médico necessário para ser um bom profissional.”

A priori, não parece haver nada errado com essa afirmação…

Todavia, alguns fatores podem prejudicar conclusões desse tipo. Não só para a educação médica, mas para qualquer teste educacional, do ENEM ao ENADE e etc.

Para ser válida, uma prova precisa ser constituída por questões que representem uma boa amostragem do conteúdo que se pretende medir.

Uma estratégia útil para assegurar a validade de conteúdo de instrumentos de avaliação é o blueprinting de competências.

Além de assegurar a validade de conteúdo, há que se verificar a confiabilidade do instrumento.

Para entender o conceito de confiabilidade, isto é, o quanto o instrumento "mede direito" aquilo que se deseja medir, deve-se assumir que o teste é uma medida indireta do construto que se deseja mensurar.

Partindo desse pressuposto, pode-se dizer que a variância observada das notas é o conjunto formado pela variância de escore "real" com a variância de um certo "erro de medida" (variância = desvio padrão elevado ao quadrado). Esse erro de medida é proporcional à "imperfeição" do instrumento de avaliação. Então:

Variância total = variância do "escore real" + variância do "erro de medida"

Do ponto de vista puramente matemático, a precisão (ou confiabilidade) do teste é igual a variância "verdadeira" sobre a variância total.

confiabilidade (precisão) = variância "verdadeira" / variância total

Desenvolvendo a equação, podemos escrever essa fórmula assim:

erro padrão = desvio padrão x (raiz quadrada de 1 - confiabilidade)

Tome um exemplo de uma prova qualquer cuja nota é dada numa escala de 0 a 100. O desvio padrão encontrado na prova foi 8.

A confiabilidade dessa prova, calculada pelo método da consistência interna, resultou em um alfa de Cronbach de 0,80. Quanto mais próximo de um (1,0) for esse valor, tão melhor.

Para chegar no alfa de Cronbach usa-se a fórmula:

alfa de Cronbach = [K / (K -1)] x [1 - (SVI / VNT)]

K = número de itens da prova
SVI = soma da variância de todos os itens
VNT = variância das notas do teste

De posse do desvio padrão dos escores e agora do coeficiente de confiabilidade, você consegue calcular o erro de medida.

Erro de medida = 8 x (raiz quadrada de 1 - 0,8) =

Erro de medida = 8 x raiz quadrada de 0,2 =

Erro de medida = 8 x 0,4472 = 3,577.

Por isso, alguém que tirasse nota 50 numa escala de 0 a 100, numa outra prova de mesma qualidade, abrangendo o mesmo conteúdo com o mesmo nível de dificuldade, teria seu escore entre 46,423 e 53,577. Pela teoria clássica dos testes, essa faixa representaria o espectro onde se situa o escore "real" da pessoa.

A vantagem da teoria de resposta ao item é poder calcular o erro de medida não para a prova inteira, mas para cada nível de habilidade. Esse é o método da precisão local. Ele pode ser descrito com essa equação:

precisão local = (variância pontuação - variancia de erro) / variância pontuação

Isso é possibilitado pois a variância de erro é calculada para cada nível de habilidade na teoria de resposta ao item, algo que a teoria clássica dos testes não faz. Por isso a teoria de resposta ao item é chamada também de teoria do "escore real".

Geralmente observa-se níveis menores de precisão local quanto menor é o nível de habilidade.

Por isso, quanto maior seu nível de habilidade, melhor será o cálculo do seu "escore real".

Essa constatação oriunda da teoria de resposta ao item permite observarmos graficamente a necessidade de "emparelhamento" entre o nível de habilidade dos testandos e o nível necessário de dificuldade das questões. Essa necessidade "psicométrica" tem a ressalva de que é necessário manter o respeito à validade de conteúdo.

Veja um gráfico de precisão local dessa prova:



E por isso, se você é CDF como eu, muito melhor para você que seja utilizada a teoria de resposta ao item, como no ENEM.

Por exemplo: se você tivesse tirado 90 pontos nessa prova hipotética, a precisão local estaria em torno de 0,9 e o erro de medida estaria em 2,529. Seu escore "real" ficaria assim de acordo com cada teoria:

Teoria clássica dos testes: 90 mais ou menos 3,577
Teoria de resposta ao item: 90 mais ou menos 2,529

Uma redução de quase um terço no erro de medida.

Em provas como o ENEM, com grande população amostral e grande número de itens, a confiabilidade tende a ser ainda maior e a redução do erro de medida certamente é ainda mais eficaz.

Em suma:
- o uso da teoria clássica permite dizer que prova boa é aquela que tem heterogeneidade tanto na dificuldade das questões quanto nas notas dos testandos.
- o uso da teoria de resposta ao item aumenta a confiabilidade do processo para testandos de aptidão mais elevada, ao estimar de forma mais "precisa" seu "escore real".


As aspas são minha recalcitrante ironia. Desculpem a brincadeira. Não resisti. Se você acredita que tudo isso é só teoria, que a dificuldade e o poder informativo de cada questão não devem computar sua nota e que o que deveria contar é apenas o escore bruto, as aspas são pra você.




A questão da redação, que causou polêmica por estar "fora da escala da teoria de resposta ao item" e que talvez o modelo logístico de 1 ou 2 parâmetros seja mais adequado que o modelo logístico de 3 parâmetros usados pelo INEP ficam pra outro post, que espero ter a oportunidade de escrever ainda neste blog.

Queria que todos os testes de progresso, provas de residência e provas de entidades oficiais fizessem esse tipo de análise.

Related Posts Plugin for WordPress, Blogger...