Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

quinta-feira, 19 de janeiro de 2012

O que eu não consigo entender é como que redações em branco nessa TRI possuem notas diferentes e acima de 0.


Redações em branco com notas diferentes eu não tive notícia, mas é preciso esclarecer que a única parte do ENEM na qual o escore vai de 0 a 1000 é realmente só a redação.

O que acontece com as provas calibradas pela teoria de resposta ao item (TRI), no caso, a parte de múltipla escolha do ENEM, é que o escore correspondente à dificuldade média das questões é ajustada para 500 com um desvio padrão de 100.

Como a distribuição dos escores provavelmente segue mais ou menos a distribuição normal (dado seu tamanho amostral), a nota ZERO raramente será abaixo de 3 desvios padrões da média (ou 200 em termos de escore padronizado) na modelagem de TRI que for utilizada.

Nas modelagens pela TRI é comum termos uma oscilação de escores em torno de 2,5 a 3 desvios padrões acima ou abaixo da dificuldade média das questões. Às vezes a distribuição dos escores vão de -1,5 a +2,0 (que em termos de escore padronizado é 350 a 700) ou então -2,5 a +1,0 (que em escore padronizado é 250 a 600). Enfim, essa distribuição varia conforme o emparelhamento entre dificuldade das questões e habilidade dos testandos.

Se uma prova (ou parte da prova, isto é, um subteste) for mais difícil, poderá haver uma nota ZERO mais alta em termos de escore padronizado (ex. 250) e uma confiabilidade menor.

Se uma prova for muito fácil, a confiabilidade também será menor devido à falta de variância de escores (muita nota alta igual), mas a nota ZERO poderá ser equivalente a um escore padronizado mais baixo (ex. 150).

Como o teste é mais confiável quanto maior for o nível de aptidão do testando, e a idéia é ter confiabilidade maior para testandos mais hábeis, as variações de escores abaixo de 300 são virtualmente irrelevantes. Ou seja, não importa em nada se o ZERO resulta em qualquer número maior que zero.

A lógica da TRI não é a de um escore dado pelo percentual de acertos e sim a de um escore padronizado por média (centrada em habilidade ou dificuldade) e desvio padrão. No software a média do "escore real" ou escore "theta" é calculada em ZERO e o desvio padrão em mais ou menos UM. Depois reajustamos os escores para que o ZERO seja linearmente transformado em QUINHENTOS e o UM seja linearmente transformado em CEM. Assim, o escore -1 vira 400, o escore ZERO vira 500 e o escore +1 vira 600.

Veja esse gráfico da distribuição normal e daí é possível entender o motivo pelo qual o zero é diferente de zero na TRI.



Perceba que escores em torno de 200 equivalem ao ZERO na prática.

Com isso, a nota da redação fica realmente com um peso desproporcionalmente maior. Uma nota 200 na redação fica igual a virtualmente nada.

Talvez isso seja até algo deliberado por parte do INEP, para que a redação elimine os candidatos menos articulados e privilegie os testandos com melhor habilidade na escrita.

Fiz uma simulação pela teoria da generalizabilidade, pensando na confiabilidade da parte relativa à redação do ENEM.

Para resultados altamente generalizáveis, o ideal seria aumentar o número de avaliadores por redação, bem como aumentar o número de redações (exigindo-se menos palavras por redação).

Números interessantes para uma confiabilidade maior: seis redações e dez avaliadores. Uma solução alternativa seria recrutar uma junta de cinco juízes e se houvesse um desvio padrão maior que 30 (ou mais, ou menos) nos escores dados para a redação, faria-se uma nova junta com mais cinco juízes, prevalecendo a média.

E o ideal seria equalizar os escores da redação para a mesma padronização do restante do ENEM. A média geral da redação viraria o escore 500, com o desvio padrão sendo igual a 100.

Embora o restante do ENEM seja centrado na métrica da dificuldade das questões e não na métrica do desempenho discente, isso evitaria um peso maior justamente na parte mais suscetível a subjetividades.

Ainda assim, há que se pensar que aumentar o peso da redação, apesar do risco de subjetividade, poderá talvez ser mais adequada em termos de validade preditiva em relação ao desempenho acadêmico na graduação. Um cuidado psicométrico maior em relação à avaliação da redação é desejável. A correção eletrônica da redação com revisão humana é outra possibilidade bem viável.

Em um horizente próximo, espero que o ENEM utilize testagem computadorizada, a qual, no meu ver, melhoraria muito a eficiência e a segurança do processo, incluindo a questão da redação.

A TRI poderia permitir o uso da testagem adaptativa computadorizada, que traria maior variabilidade de questões entre testandos, e poderia aumentar a segurança contra vazamentos.

terça-feira, 10 de janeiro de 2012

Você concorda com essa frase? “O estudante que tirou abaixo de cinco (5,0) no ENADE ou na prova do Conselho merece ser reprovado mesmo pois ignora da metade do conhecimento médico necessário para ser um bom profissional.”

A priori, não parece haver nada errado com essa afirmação…

Todavia, alguns fatores podem prejudicar conclusões desse tipo. Não só para a educação médica, mas para qualquer teste educacional, do ENEM ao ENADE e etc.

Para ser válida, uma prova precisa ser constituída por questões que representem uma boa amostragem do conteúdo que se pretende medir.

Uma estratégia útil para assegurar a validade de conteúdo de instrumentos de avaliação é o blueprinting de competências.

Além de assegurar a validade de conteúdo, há que se verificar a confiabilidade do instrumento.

Para entender o conceito de confiabilidade, isto é, o quanto o instrumento "mede direito" aquilo que se deseja medir, deve-se assumir que o teste é uma medida indireta do construto que se deseja mensurar.

Partindo desse pressuposto, pode-se dizer que a variância observada das notas é o conjunto formado pela variância de escore "real" com a variância de um certo "erro de medida" (variância = desvio padrão elevado ao quadrado). Esse erro de medida é proporcional à "imperfeição" do instrumento de avaliação. Então:

Variância total = variância do "escore real" + variância do "erro de medida"

Do ponto de vista puramente matemático, a precisão (ou confiabilidade) do teste é igual a variância "verdadeira" sobre a variância total.

confiabilidade (precisão) = variância "verdadeira" / variância total

Desenvolvendo a equação, podemos escrever essa fórmula assim:

erro padrão = desvio padrão x (raiz quadrada de 1 - confiabilidade)

Tome um exemplo de uma prova qualquer cuja nota é dada numa escala de 0 a 100. O desvio padrão encontrado na prova foi 8.

A confiabilidade dessa prova, calculada pelo método da consistência interna, resultou em um alfa de Cronbach de 0,80. Quanto mais próximo de um (1,0) for esse valor, tão melhor.

Para chegar no alfa de Cronbach usa-se a fórmula:

alfa de Cronbach = [K / (K -1)] x [1 - (SVI / VNT)]

K = número de itens da prova
SVI = soma da variância de todos os itens
VNT = variância das notas do teste

De posse do desvio padrão dos escores e agora do coeficiente de confiabilidade, você consegue calcular o erro de medida.

Erro de medida = 8 x (raiz quadrada de 1 - 0,8) =

Erro de medida = 8 x raiz quadrada de 0,2 =

Erro de medida = 8 x 0,4472 = 3,577.

Por isso, alguém que tirasse nota 50 numa escala de 0 a 100, numa outra prova de mesma qualidade, abrangendo o mesmo conteúdo com o mesmo nível de dificuldade, teria seu escore entre 46,423 e 53,577. Pela teoria clássica dos testes, essa faixa representaria o espectro onde se situa o escore "real" da pessoa.

A vantagem da teoria de resposta ao item é poder calcular o erro de medida não para a prova inteira, mas para cada nível de habilidade. Esse é o método da precisão local. Ele pode ser descrito com essa equação:

precisão local = (variância pontuação - variancia de erro) / variância pontuação

Isso é possibilitado pois a variância de erro é calculada para cada nível de habilidade na teoria de resposta ao item, algo que a teoria clássica dos testes não faz. Por isso a teoria de resposta ao item é chamada também de teoria do "escore real".

Geralmente observa-se níveis menores de precisão local quanto menor é o nível de habilidade.

Por isso, quanto maior seu nível de habilidade, melhor será o cálculo do seu "escore real".

Essa constatação oriunda da teoria de resposta ao item permite observarmos graficamente a necessidade de "emparelhamento" entre o nível de habilidade dos testandos e o nível necessário de dificuldade das questões. Essa necessidade "psicométrica" tem a ressalva de que é necessário manter o respeito à validade de conteúdo.

Veja um gráfico de precisão local dessa prova:



E por isso, se você é CDF como eu, muito melhor para você que seja utilizada a teoria de resposta ao item, como no ENEM.

Por exemplo: se você tivesse tirado 90 pontos nessa prova hipotética, a precisão local estaria em torno de 0,9 e o erro de medida estaria em 2,529. Seu escore "real" ficaria assim de acordo com cada teoria:

Teoria clássica dos testes: 90 mais ou menos 3,577
Teoria de resposta ao item: 90 mais ou menos 2,529

Uma redução de quase um terço no erro de medida.

Em provas como o ENEM, com grande população amostral e grande número de itens, a confiabilidade tende a ser ainda maior e a redução do erro de medida certamente é ainda mais eficaz.

Em suma:
- o uso da teoria clássica permite dizer que prova boa é aquela que tem heterogeneidade tanto na dificuldade das questões quanto nas notas dos testandos.
- o uso da teoria de resposta ao item aumenta a confiabilidade do processo para testandos de aptidão mais elevada, ao estimar de forma mais "precisa" seu "escore real".


As aspas são minha recalcitrante ironia. Desculpem a brincadeira. Não resisti. Se você acredita que tudo isso é só teoria, que a dificuldade e o poder informativo de cada questão não devem computar sua nota e que o que deveria contar é apenas o escore bruto, as aspas são pra você.




A questão da redação, que causou polêmica por estar "fora da escala da teoria de resposta ao item" e que talvez o modelo logístico de 1 ou 2 parâmetros seja mais adequado que o modelo logístico de 3 parâmetros usados pelo INEP ficam pra outro post, que espero ter a oportunidade de escrever ainda neste blog.

Queria que todos os testes de progresso, provas de residência e provas de entidades oficiais fizessem esse tipo de análise.

Related Posts Plugin for WordPress, Blogger...