Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

quinta-feira, 19 de janeiro de 2012

O que eu não consigo entender é como que redações em branco nessa TRI possuem notas diferentes e acima de 0.


Redações em branco com notas diferentes eu não tive notícia, mas é preciso esclarecer que a única parte do ENEM na qual o escore vai de 0 a 1000 é realmente só a redação.

O que acontece com as provas calibradas pela teoria de resposta ao item (TRI), no caso, a parte de múltipla escolha do ENEM, é que o escore correspondente à dificuldade média das questões é ajustada para 500 com um desvio padrão de 100.

Como a distribuição dos escores provavelmente segue mais ou menos a distribuição normal (dado seu tamanho amostral), a nota ZERO raramente será abaixo de 3 desvios padrões da média (ou 200 em termos de escore padronizado) na modelagem de TRI que for utilizada.

Nas modelagens pela TRI é comum termos uma oscilação de escores em torno de 2,5 a 3 desvios padrões acima ou abaixo da dificuldade média das questões. Às vezes a distribuição dos escores vão de -1,5 a +2,0 (que em termos de escore padronizado é 350 a 700) ou então -2,5 a +1,0 (que em escore padronizado é 250 a 600). Enfim, essa distribuição varia conforme o emparelhamento entre dificuldade das questões e habilidade dos testandos.

Se uma prova (ou parte da prova, isto é, um subteste) for mais difícil, poderá haver uma nota ZERO mais alta em termos de escore padronizado (ex. 250) e uma confiabilidade menor.

Se uma prova for muito fácil, a confiabilidade também será menor devido à falta de variância de escores (muita nota alta igual), mas a nota ZERO poderá ser equivalente a um escore padronizado mais baixo (ex. 150).

Como o teste é mais confiável quanto maior for o nível de aptidão do testando, e a idéia é ter confiabilidade maior para testandos mais hábeis, as variações de escores abaixo de 300 são virtualmente irrelevantes. Ou seja, não importa em nada se o ZERO resulta em qualquer número maior que zero.

A lógica da TRI não é a de um escore dado pelo percentual de acertos e sim a de um escore padronizado por média (centrada em habilidade ou dificuldade) e desvio padrão. No software a média do "escore real" ou escore "theta" é calculada em ZERO e o desvio padrão em mais ou menos UM. Depois reajustamos os escores para que o ZERO seja linearmente transformado em QUINHENTOS e o UM seja linearmente transformado em CEM. Assim, o escore -1 vira 400, o escore ZERO vira 500 e o escore +1 vira 600.

Veja esse gráfico da distribuição normal e daí é possível entender o motivo pelo qual o zero é diferente de zero na TRI.



Perceba que escores em torno de 200 equivalem ao ZERO na prática.

Com isso, a nota da redação fica realmente com um peso desproporcionalmente maior. Uma nota 200 na redação fica igual a virtualmente nada.

Talvez isso seja até algo deliberado por parte do INEP, para que a redação elimine os candidatos menos articulados e privilegie os testandos com melhor habilidade na escrita.

Fiz uma simulação pela teoria da generalizabilidade, pensando na confiabilidade da parte relativa à redação do ENEM.

Para resultados altamente generalizáveis, o ideal seria aumentar o número de avaliadores por redação, bem como aumentar o número de redações (exigindo-se menos palavras por redação).

Números interessantes para uma confiabilidade maior: seis redações e dez avaliadores. Uma solução alternativa seria recrutar uma junta de cinco juízes e se houvesse um desvio padrão maior que 30 (ou mais, ou menos) nos escores dados para a redação, faria-se uma nova junta com mais cinco juízes, prevalecendo a média.

E o ideal seria equalizar os escores da redação para a mesma padronização do restante do ENEM. A média geral da redação viraria o escore 500, com o desvio padrão sendo igual a 100.

Embora o restante do ENEM seja centrado na métrica da dificuldade das questões e não na métrica do desempenho discente, isso evitaria um peso maior justamente na parte mais suscetível a subjetividades.

Ainda assim, há que se pensar que aumentar o peso da redação, apesar do risco de subjetividade, poderá talvez ser mais adequada em termos de validade preditiva em relação ao desempenho acadêmico na graduação. Um cuidado psicométrico maior em relação à avaliação da redação é desejável. A correção eletrônica da redação com revisão humana é outra possibilidade bem viável.

Em um horizente próximo, espero que o ENEM utilize testagem computadorizada, a qual, no meu ver, melhoraria muito a eficiência e a segurança do processo, incluindo a questão da redação.

A TRI poderia permitir o uso da testagem adaptativa computadorizada, que traria maior variabilidade de questões entre testandos, e poderia aumentar a segurança contra vazamentos.

Related Posts Plugin for WordPress, Blogger...