Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

terça-feira, 12 de junho de 2012

Acompanhamento longitudinal de escores latentes em testes de progresso: o uso da modelagem de equações estruturais



     Um dos desafios para a avaliação quantitativa do desempenho discente ao longo do tempo, isto é, avaliações longitudinais, ocorre com os testes de progresso. Sempre me incomodou o uso de escores brutos emparelhados ao longo do tempo para mostrar o tal progresso na aprendizagem. Nunca me conformei com essa estratégia. Sempre achei que esses gráficos não mostram nada, a não ser um "borrão" do real crescimento na aprendizagem. Erros de mensuração e variações na dificuldade das provas não são considerados nesses gráficos de escores brutos ao longo de sucessivos testes de progresso. Por isso, vi com muita felicidade a utilização do método do desvio cumulativo e da análise de tendência para a melhoria do benchmarking interinstitucional e da mensuração do progresso em testes longitudinais (Muijtjens, Schuwirth, Cohen-Schotanus, Thoben & van der Vleuten, 2008a; Muijtjens, Schuwirth, Cohen-Schotanus & van der Vleuten, 2008b; Schauber & Nouns, 2010). Porém, é necessário perceber que quando há diferenças individuais em curvas, há também mudanças nas variâncias e covariâncias ao longo do tempo. Isso significa que esses modelos podem ser analisados não apenas por análise de variância, mas também por modelos de regressão multinível aliados à teoria de resposta ao item, seguidos de análise por modelos de crescimento sob os pressupostos da modelagem de equações estruturais (Cohen, Cohen, West & Aiken, 2003).

     A representação do crescimento longitudinal por meio da modelagem de equações estruturais permite especificar de forma mais explícita as hipóteses a respeito de eventuais estruturas causais nos parâmetros de mudança e o potencial de predizer os escores "reais" da variável latente (theta). Pois é justamente a estimação das relações entre escores "livres de erro" propiciado a partir do uso de variáveis latentes a maior justificativa para o uso de modelagem de equações estruturais. No caso específico dos modelos de crescimento abordam tanto covariância quanto a mudança nas médias ao longo do tempo. Os vetores das médias e as matrizes de covariâncias são ambas utilizadas para fornecer informações  que pode ser utilizada para gerar estimativas de funções de mudança em construtos "livres de erro" (variáveis latentes, como o "theta"). Quem aplica isso atualmente de forma bastante elegante é a autarquia holandesa de avaliação, a CITO (http://www.cito.nl). Para detalhes, veja Verhelst & Verstralen (2002).

     Na minha opinião, e na de Cohen et al. (2003), a variância comumente incluída como "erro", i.e., as fontes residuais de variância ao longo do tempo, não são necessariamente "erro". O ideal seria chamar esse "erro" de variância residual. Por mais benefícios que a teoria de resposta ao item tenha contribuído na estimação mais adequada dos reais níveis de habilidade, quando comparada com a teoria clássica dos testes, os cálculos de precisão local da teoria de resposta ao item nos permitem afirmar com segurança que não existe algo como "escore real" ou "escore livre de erro". O que pode existir são escores com erros de mensuração minimizados.

     A equalização dos testes (test equating) é o ponto nevrálgico para o uso da teoria de resposta ao item (Schuwirth & van der Vleuten, 2012). O uso híbrido da calibração concomitante (concurrent calibration) e da calibração consecutiva em tese permite a comparação direta entre provas de diferentes dificuldades. Todavia, a  memorização de testes àncora usados na equalização pode interferir na mudança dos parâmetros (Langer & Swanson, 2010). Evitar a sueperexposição dos testes âncora é uma estratégia necessária, mas com eficácia aparentemente limitada. Deve-se lembrar que raramente os diversos pressupostos para a realização adequada da equalização são obedecidos.

     Em suma: a estratégia dos modelos de crescimento acoplados à teoria de resposta ao item (multinível ou não), não apenas minimizam os erros de medida, mas também melhoram sobremaneira o acompanhamento do desempenho do estudante. Todavia, não está isento de vieses. Como diz o ditado: não há mundo perfeito...


Referências:

Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Longitudinal regression methods. In: Applied multiple regression / correlation analysis for the behavioral sciences. 3rd ed. Mahwah, New Jersey: Lawrence Erlbaum.

Langer, M. M., & Swanson, D.B. (2010) Practical considerations in equating progress tests. Medical Teacher, 32 (6), 509-12.

Muijtjens, A. M., Schuwirth, L. W. T., Cohen-Schotanus, J., Thoben, A. J. N. M., & van der Vleuten C. P. M. 2008a. Benchmarking by cross-institutional comparison of student achievement in a progress test. Med Educ 41(1):82-88.

Muijtjens A. M., Schuwirth, L. W.T., Cohen-Schotanus, J., & van der Vleuten, C. P. M. 2008b. Differences in knowledge development exposed by multi-curricular progress test data. Adv Health Sci Educ 13:593-605.

Schauber S, & Nouns Z. (2010). Using the cumulative deviation method for cross-institutional benchmarking in the Berlin progress test. Medical Teacher, 32, 471-5.

Schuwirth, L. W. T., & van der Vleuten, C. P. M. (2012). The use of progress testing. Perspectives on Medical Education, 1, 24-30.

Verhelst, N. D., & Verstralen, H. H. F. M. (2002). Structural analysis of a univariate latent variable (SAUL): Theory and a computer program. Arnhem: Cito.














sexta-feira, 1 de junho de 2012

Prova Prática Farmacologia-Toxicologia 2012/1


Guilherme, 8 anos de idade, encefalopata crônico por paralisia cerebral, chegou ao PS, no final do plantão do Dr. Victor, às 02:34, trazido pela mãe e pela avó. Seu quadro clínico era caracterizado por agitação psicomotora, alucinações, midríase fixa isocórica, taquicardia (FC = 108) e ruídos hidroaéreos diminuídos. A mãe refere que o paciente não urina desde ontem e que o paciente faz uso continuado de clonazepam e carbamazepina.
A avó é a cuidadora da criança, mas teve que deixá-la com uma vizinha para visitar sua filha, Joana, mãe de Guilherme. Joana é portadora de esquizofrenia, diabetes, hipertensão, depressão, hipotireoidismo e HIV. Quando ambas foram encontrar Guilherme no final do dia, encontraram-no sozinho, com várias cartelas abertas e comprimidos espalhados no chão, os quais foram trazidos ao PS: Parcel (diidroergotamina, paracetamol e cafeína), metformina, enalapril, claritromicina, fluconazol,  zidovudina, levotiroxina, citalopram, prednisona, diclofenaco, etinilestradiol, ciprofloxacino, escopolamina e quetiapina.

1) Que perguntas devem ser feitas ao paciente e seus familiares para completar a história? (1,0)
2) Quais outros dados você procuraria para completar o exame físico? (1,0)
3) Qual síndrome tóxica você acredita que o paciente esteja apresentando no momento? Justifique. (1,0)
4) Cite cinco exemplos de agentes tóxicos que podem causar essa síndrome. (0,5)
5) Classifique farmacologicamente, incluindo a indicação terapêutica, dos fármacos encontrados próximos a Guilherme. (1,0).
6) Que outra(s) síndrome(s) tóxica(s) este paciente poderá apresentar? Devido a que substância(s)? A que sinais você deverá ficar atento para a identificação dessas síndromes? (2,0)
7) Quais as medidas iniciais que você recomendaria para conduzir o caso de Guilherme? (1,5)
8) Há possibilidade de interações medicamentosas de relevância clínica? Descreva-as se houver. Dica: usar o "interactions checker" do site www.drugs.com (2,0).

sexta-feira, 4 de maio de 2012

No caso de uma regressão logística, não é necessário testar a multicolinearidade?

Precisa testar pra multicolinearidade na regressão logística, sim!
Você pode avaliar os valores de tolerância e VIF.
Valores muito baixos de tolerância e valores muito altos de VIF quase certamente indicam problemas de multicolinearidade.
Valores de tolerância abaixo de 0,1 e valores de VIF acima de 10 devem alertá-lo para isso.

Outra maneira é avaliar a proporção de variância ("variance proportions") das últimas dimensões (as que tem menor eigenvalue). Proporções de variância similares entre variáveis nas dimensões de menor eigenvalue indicam alta colinearidade entre elas.

Claro que se você tiver apenas uma variável independente (preditora), não faz sentido testar multicolinearidade.

(Obrigado ao anônimo que postou a pergunta no Formspring. Agora entendi o que você estava perguntando... Respondido?)

O que quer dizer o F na análise de variância (ANOVA)

Pense em um teste t.
No teste t, testa-se a hipótese de que as duas amostras têm a mesma média.

De forma similar, a análise de variância (ANOVA) nos diz se três ou mais médias são iguais.
A ANOVA produz um valor chamado F (F-statistics ou F-ratio).

Esse valor de F é similar ao valor de t pelo fato de comparar a quantidade de variância sistemática nos dados com a quantidade de variância não-sistemática.

Em outras palavras, o valor de F é a razão entre o modelo e seu erro.

Difícil ainda, né?

Vamos dar um exemplo:

Suponha que você fez um experimento com três grupos.
O valor de F vai nos dizer o quanto as médias desses três grupos não são iguais.

Para entender o valor de F é preciso saber que o F é parecido com o coeficiente de determinação usado em correlações e regressões (R2). A diferença é que o R2 é calculado pela divisão da  soma dos quadrados do modelo (sum of squares of the model, SSm) com a soma total dos quadrados (total sum of squares, SSt).

Procure imaginar um gráfico de dispersão (scatterplot).

A soma total dos quadrados (SSt) usa as diferenças entre os dados observados de x e o valor médio de y (pense numa linha horizontal perpendicular ao eixo y).

A soma dos quadrados residuais (SSr) usa a diferença entre os dados observados de x e a linha de regressão entre x e y (pense numa linha diagonal).

A soma dos quadrados do modelo (SSm) é uma medida da melhora obtida pelo modelo e utiliza as diferenças entre o valor médio de y e a linha de regressão.

Como a soma dos quadrados dependem do número de diferenças, usamos os quadrados médios para calcular o F, isto é: a soma dos quadrados divididos pelo número de graus de liberdade.

Em termos matemáticos o valor de F é calculado pela divisão entre os quadrados médios para o modelo (mean squares for the model, MSm) e os quadrados médios residuais (residual mean squares, MSr).

Ou simplesmente: F = MSm / MSr.

Os graus de liberdade são usados para dividir ambas as somas dos quadrados (sum of quares).
No numerador, o número de graus de liberdade é igual ao número de grupos menos 1. Para uma ANOVA de três grupos, esse valor é 2. No denominador, o número de graus de liberdade é igual ao número de observações menos o número de grupos. Se o número de observações for 24 e o número de grupos for três, esse valor é 21.

Na publicação ficaria assim: F (2,21) = 71.84 (chutei um valor de F qualquer).

Para um modelo de regressão, por exemplo, quanto maior o F, melhor, pois significa que os quadrados médios do modelo são maiores que os quadrados médios residuais. Quanto maior o F, mais significativo o valor de p para a ANOVA.

Para a comparação de médias entre os 3 grupos, um valor de F elevado significa que há alguma diferença entre esses grupos capaz de ser expressa adequadamente por meio de um modelo de regressão.

Agora você sabe o que o F quer dizer.

Só que o valor de F só diz se houve alguma diferença geral entre as médias, mas não nos diz nada sobre quais pares de grupos posuem médias significativamente diferentes.

Para isso você precisa dos testes post hoc. Mas isto é algo para este post.

Um vídeo em inglês que ajuda a entender bem o que quer dizer o F pode ser visto abaixo



quarta-feira, 25 de abril de 2012

Professor, no meu estudo estou rodando uma regressão logística binária com apenas uma variável independente. O modelo apresentou boa aderência e qualidade, isso é possível? É normal trabalhar modelos com apenas uma variável explicativa?

Primeira coisa: regressão logística é classicamente para desfechos binários, OK? Então se sua variável dependente é dicotômica (ex. sim ou não), o modelo de regressão empregado usa necessariamente a função logística.

Ok, vá lá, existe a regressão logística ordinal, mas isso é uma aplicação BEM mais específica.

Por isso, em geral, falar regressão logística binária soa como um "pleonasmo redundante".

E quanto à sua pergunta: não há problema em se ter apenas uma variável independente no modelo, desde que os pressupostos estejam contemplados.

Eu mesmo já fiz isso em relação à preditividade da nota de diversos tipos de prova no curso de graduação em Medicina em relação à aprovação em alguma residência médica, o qual é um exemplo de desfecho dicotômico (sim / não).

Ask me anything

segunda-feira, 23 de abril de 2012

Boa tarde professor! Estou a validar para português de um questionário americano. Fiz uma análise factorial exploratoria e gostava de saber se tenho mesmo de proceder a uma AF confirmatória ou se posso só apresentar as dimensões que encontrei na AFE.Obg

Você pode usar as duas abordagens, mas se for usar as duas, é melhor dividir a amostra em duas partes. Honestamente, prefiro a AFC. Afinal, se sua AFE mostra uma estrutura fatorial diferente daquela encontrada no estudo original, como quantificar o grau de validade do seu instrumento adaptado? Essa quantificação não é possível na AFE, mas é possível na AFC. Uma opção é apresentar os resultados da AFE e tentar discutir eventuais diferenças. Mas se você já tem uma teoria, não é muito melhor você avaliar o grau de ajuste dos seus dados à teoria?

Espero ter ajudado.

Abs,

CFC

Ask me anything

terça-feira, 10 de abril de 2012

Índices de bondade de ajuste em análise fatorial confirmatória


A explicação dos principais índices de bondade de ajuste na análise fatorial confirmatória, e também na modelagem de equações estruturais, seguindo o roteiro da parte final do output gerado pelo programa SPSS AMOS (IBM SPSS) está abaixo.

- qui-quadrado (no output está como CMIN): testa a hipótese nula de que a estimativa de covariância residual é igual a uma matriz composta apenas por zeros. Um valor significativo indica inadequação dos dados ao modelo, porém é um índice que sofre impacto negativo quanto maior a amostra. Isoladamente tem pouco valor e é mais utilizado na comparação entre modelos e métodos (Thompson, 2004).

- qui-quadrado sobre graus de liberdade (no output está como CMIN/DF): divide-se o valor do qui-quadrado pelo número de graus de liberdade para obter um valor de ajuste ao modelo menos sensível ao tamanho da amostra. Valores menores que 3 são preferíveis, mas valores abaixo de 5 são toleráveis (Hocevar, 1985; Byrne, 2001).

- GFI (goodness-of-fit index, índice de qualidade de ajuste): é um coeficiente de determinação geral para modelos de equações estruturais. É um valor análogo ao R² em regressão múltipla e indica a proporção de variância-covariância explicada pelo modelo. Valores maiores que 0,9 são considerados como indicativos de elevada adequação ao modelo (Tanaka, 1993).

- AGFI (GFI ajustado para os graus de liberdade): correção "parcial" do valor de GFI para o número de graus de liberdade. Seu valor tende a ser similar ao GFI quanto menor é o número de parâmetros a ser estimado (Tanaka, 1993). Como ainda é afetado com o aumento da amostra, tende ao desuso.

- NFI (índice de ajuste normalizado): compara o qui-quadrado para o modelo testado contra o qui-quadrado para o modelo basal presumindo que as variáveis mensuradas são completamente independentes. Idealmente, valores maiores que 0,95 são desejados (Bentler, 2000; Thompson, 2004).

- CFI (índice de ajuste comparativo): índice similar ao NFI, que faz uso de uma distribuição de qui-quadrado não-central, e que procura levar em consideração a complexidade de um modelo. Idealmente, valores maiores que 0,95 também são desejados (Thompson, 2004). A vantagem do uso do CFI é evitar a subestimação do ajuste observado no NFI quando a amostra é pequena (Bentler, 2000; Thompson, 2004).

- TLI (índice de Tucker Lewis): também conhecido como índice de Bentler-Bonett não-normalizado (NNFI), é similar ao CFI. Idealmente, valores maiores que 0,90 são desejados (Bentler and Bonett, 1980).

- RMR (raiz quadrada média residual): é a raiz quadrada da média dos quadrados dos resíduos e indica o valor absoluto médio dos resíduos das covariâncias. Deve-se preferir o valor padronizado do RMR para a interpretação (SRMR) (Hair Jr. et al., 2006).

- RMSEA (raiz da média dos quadrados dos erros de aproximação): ao contrário do RMR, o RMSEA possui uma distribuição conhecida e, portanto, representa de forma mais adequada quão bem um modelo se ajusta à população, não apenas à amostra utilizada para a estimação (Thompson, 2004). Valores abaixo de 0,08 são considerado desejáveis e valores abaixo de 0,05 são considerados ótimos. Thompson (2004) considera que valores abaixo de 0,06 geralmente indicam um ajuste razoável ao modelo.

Outros índices como AIC (Akaike Information Criterion) e BIC (Bayesian Information Criterion) são mais úteis na comparação entre diferentes hipóteses de modelos teóricos.

Dica: os índices que podem ser considerados mais importantes e que jamais devem faltar no seu artigo: qui-quadrado sobre graus de liberdade, CFI, TLI, NFI e RMSEA.

quarta-feira, 28 de março de 2012

Mando rodar a análise fatorial no SPSS e só dá "matrix is not positive definite" abaixo da matriz de correlação. Como lidar?



Respondo com outra pergunta: por que você não tenta usar a matriz de covariâncias ao invés da matriz de correlações? Se mesmo usando uma matriz de covariância não der certo (o que é batata que VAI acontecer, rsrsrs...), você provavelmente não deveria usar a análise fatorial nesse caso.

Quando o SPSS gera esse comentário de que a matriz "is not positive definite", tem que dar uma olhadinha na matriz.

Pode ser que você tenha variáveis muito correlacionadas com outras.

Ou também pode ter ocorrido pelo fato de você ter muitas variáveis para poucas observações.

Em análise fatorial isso é pessimo, pois o ideal é termos um mínimo de 5 a 10 observações por variável que se pretende analisar. Exemplo: um questionário com 20 itens deveria ter pelo menos de 100 a 200 participantes no estudo para que pudéssemos rodar uma análise fatorial.

Se sua matriz de correlações é não-positiva definida ("not positive definite"), isso acaba gerando eigenvalues negativos para as últimas variáveis. Isso é visível no SPSS se você manda rodar a análise fatorial com um número de fatores igual ao número de variáveis. Como o eigenvalue ("autovalor") é uma medida do "poder explicativo" do fator em comparação com o "poder explicativo" de uma variável, você pode imaginar o quanto sua matriz está ruim.

Matrizes assim acarretam na interrupção da análise em vários programas.

Se a matriz de covariância der "not positive definite" o próximo SPSS nem continua a rodar a análise. Mas como o SPSS roda a análise fatorial com a matriz de correlação, mesmo sendo desse jeito, você pode tentar.

Pode até ser que você consiga obter padrões interessantes que agrupam variáveis em fatores que tenham como sofrer interpretações sobre seus significados, mas você não terá como ver outros outputs típicos de análises fatoriais, como o KMO e a matriz de anti-imagem, só pra ficar em dois exemplos.

E você será inevitavelmente questionado quanto à adequação dos dados para a realização da análise.

quarta-feira, 21 de março de 2012

Professor, estou estudando Teoria de Resposta ao Item (TRI) e gostaria de verificar como poderia utilizar Análise Fatorial com esses dados binários...

A maneira mais comum de se usar a análise fatorial com TRI é na avaliação da unidimensionalidade, pressuposto para a utilização da TRI.

Pode-se usar várias técnicas para isso, incluindo:

- a análise de componentes principais da matriz binária (o básico, tem no SPSS);

- a análise fatorial paralela (os fatores retidos são aqueles com eigenvalues maiores que a de uma matriz de números gerados randomicamente; precisa de scripts de SPSS ou programinhas específicos);

- a análise de componentes principais dos resíduos (usada no software Winsteps) e

- a análise fatorial de informação plena (full-information factor analysis), que usa correlações tetracóricas (própria pra dicotomias) e que "enxerga" o padrão de respostas como a TRI também "enxerga". Para esse tipo de análise utiliza-se o software TESTFACT.

Outra coisa que eu tenho visto é um movimento em prol da sugestão de Lord para deteção de uma tal de "unidimensionalidade essencial": se a diferença entre o primeiro e o segundo eigenvalue for muito maior (quanto?) que a diferença entre o segundo e o terceiro eigenvalue, a "unidimensionalidade essencial" estaria garantida.

O chato é que se você usar os outros métodos, pode haver divergência em prol da determinação da existência de mais do que uma dimensão no seu instrumento de avaliação.

Só fazendo pra saber.

domingo, 18 de março de 2012

Gostaria de saber a diferença das correlações de Spearman e Kandall? Quando posso usar uma ou outra? Além disso, se tenho dados com distribuição normal e dados que não apresentam distribuição normal, posso fazer algum tipo de correlação?

Dentre os tipos de correlações utilizadas destaca-se a clássica correlação de Pearson (entre duas variáveis contínuas), que é um teste paramétrico.

A correlação de Spearman (ou rho) é uma correlação de "rankings" ou "postos", e por isso é um teste não-paramétrico, isto é: não exige nenhum pressuposto de distribuição normal e pode ser utilizado para variáveis ordinais. Quando a relação entre as variáveis não é linear, mas uma função monotônica, Spearman pode resultar num coeficiente maior que a correlação de Pearson. Isto é bom, mas o lado ruim é que o coeficiente de correlação de Spearman é menos sensível a "outliers" (casos distantes da curva).

A correlação de Kendall (ou tau) vai na mesma linha não-paramétrica da correlação de Spearman, ao ser uma correlação de "rankings". A vantagem de usar o Kendall, segundo os estatísticos, é ter uma estrutura algebraica mais simples e uma interpretação mais universalizável. A desvantagem: ser sensível demais ao número de observações pequeno quando usada como medida de associação entre variáveis, resultando em coeficientes menores.

Na prática use Pearson sempre que possível.
Se houver um desvio muito grande da normalidade ou heterocedasticidade, ou ainda se você tiver variáveis ordinais, escolha Kendall ou Spearman. Kendall tem mais sustentação teórica e você deverá preferí-lo se o N for adequado. Spearman costuma resultar em coeficientes maiores, contudo, especialmente se o N for pequeno.

Há ainda a correlação ponto-bisserial (generalização da correlação de Pearson para quando uma das variáveis é dicotômica), a correlação bisserial (estimativa da correlação de Pearson quando uma das variáveis é artificialmente dicotomizada), a correlação phi (quando as duas variáveis são genuinamente dicotômicas) e a correlação tetracórica (duas variáveis contínuas com distribuição normal artificialmente dicotomizadas).

Escolha a sua!

sexta-feira, 9 de março de 2012

Amianto: a polêmica do óbvio


Como membro da Sociedade Brasileira de Toxicologia recebi o documento abaixo e publico no blog para apoiar a divulgação do tema. A denúncia de agressões à saúde humana e ao ambiente tem sido combatida pelas empresas poluidoras com a submissão do denunciante a um calvário judicial para dissuadir o pesquisador e desmotivar o cientista. O amianto é uma vergonha nacional. Leiam este alerta com atenção.

Amplexos,

CFC

      *  *  *

Nas últimas semanas, o tema Amianto voltou a ganhar espaço na mídia nacional e internacional. No Brasil, em consequência à interpelação judicial, promovida pelo Instituto Brasileiro do Crisotila, contra o Dr. Hermano de Castro Albuquerque, pesquisador do Centro de Estudos do Trabalho e Ecologia Humana, FIOCRUZ, relacionada a achados de pesquisa sobre o mesotelioma, publicado em um periódico científico, e por suas declarações na mídia sobre riscos para a saúde associados à exposição ao amianto. Essa repercussão foi potencializada pelo julgamento criminal ocorrido em Turim, Itália, condenando dois ex-proprietários de ramos do Grupo Eternit por omissão de informações sobre os problemas de saúde associados à manipulação do amianto, e quase 3 mil mortes que ocorreram entre ex-trabalhadores e habitantes do entorno de uma de suas empresas em Casale Monferrato.

Há duas décadas, profissionais brasileiros de renome na área do trabalho, médica e ambiental vem, de público, advertindo sobre as desastrosas consequências da manutenção da utilização do amianto no Brasil. Infelizmente, o Estado Brasileiro se esquivou, repetidamente, do problema, não respeitando o valor constitucional de proteger seus cidadãos. Nos últimos anos, perderam-se diversas oportunidades de proibir seu uso no território nacional. Perdeu-se também, a oportunidade de evitar que o risco continue a se estender a populações de outros países importadores do asbesto brasileiro (praticamente, todos com condições sanitárias tão ruins ou piores que a nossa).

Estima-se que mais de sete milhões de pessoas morram de câncer anualmente, em todo o mundo ( Jemal A, et al. CA CANCER J CLIN 2011). Hábitos pessoais e condições de ambiente são responsáveis por 40% dos casos de câncer, o que significa que cerca de 3 milhões de óbitos anuais poderiam ser prevenidos. O ambiente de trabalho é responsável por 4 a 20% de todos os casos de câncer na população. Dentre estes, o amianto, isoladamente, é responsável por 1/3 dos casos e, restringindo-se apenas ao câncer de pulmão de origem ocupacional, a parcela do amianto chega a 50% dos casos. Percentual ainda maior ocorre em relação ao mesotelioma, um câncer raro da membrana que envolve os pulmões, de péssimo prognóstico, no qual o amianto é o agente causal de mais de 80% dos casos,. Dados do Sistema de Informações de Mortalidade do Ministério da Saúde mostram uma curva francamente ascendente de mortes por mesotelioma em São Paulo.

Atualmente, o Brasil é o terceiro maior produtor mundial de amianto. Entre 1975 e 2005, o mercado brasileiro consumiu 5 milhões de toneladas, traduzido em produção, transformação (produtos de cimento amianto e outras centenas), instalação, remoção e descarte. Entre 2008 e 2010 a produção aumentou, assim como a importação e o consumo interno. Em 2010, o consumo estimado foi de 0,9 Kg/brasileiro. Estes produtos estão espalhados pelo ambiente. Não é necessário esforço para entender que o problema extrapola o ambiente de trabalho. A chance de um cidadão se expor ao amianto, assim como a outros cancerígenos reconhecidos, aumenta na proporção do seu uso.

A nocividade do amianto crisotila é inconteste, classificado desde 1987 dentro do Grupo 1 das substâncias carcinogênicas pela Agência Internacional de Pesquisa sobre o Câncer (IARC), organismo da Organização Mundial da Saúde (OMS). Isto significa que há suficientes evidências experimentais e epidemiológicas que permitem classificá-lo como cancerígeno para humanos. A OMS e a Organização Internacional do Trabalho (OIT) entendem que a única forma de se prevenir as doenças associadas ao amianto é através da cessação da sua utilização (http://www.who.int/occupational_health/publications/asbestosrelateddiseases.pdf,
http://www.ilo.org/public/english/standards/relm/ilc/ilc95/pdf/pr-20.pdf). Em adição ao câncer de pulmão e do mesotelioma, o amianto é, também, causalmente associado ao câncer de laringe e câncer de ovário (www.thelancet.com/oncology, Vol 10 Maio 2009).

Sob o conceito de “fato relevante”, a Eternit no Brasil encaminhou matéria paga a veículos de grande circulação, em que tenta se distanciar da gravidade da questão reduzindo um grave problema de Saúde Pública a uma suposta querela comercial e de disputa de mercado. Apega-se, de má-fé, à Lei Federal no. 9.055/95, cuja flagrante inconstitucionalidade já tem parecer favorável do Ministério Público Federal e do Ministro Relator do STF, e ainda, tenta desqualificar a inteligência e a sensibilidade dos legisladores dos estados onde o amianto já foi proibido, reduzindo o clamor de milhares de vítimas das doenças do amianto crisotila, à suposta pressão de concorrentes da Eternit.

A “utilização segura” e o “uso controlado” do amianto, no seu ciclo de vida e ao longo da cadeia produtiva, são conceitos enganosos e inviáveis. Quem controla a sua “utilização segura” na construção civil? Quem controla a sua “utilização segura” em manutenção de máquinas, equipamentos e instalações que o contenham? Quem controla a sua “utilização segura” em reformas e demolições? Quem controla a contaminação de locais previamente utilizados para armazenamento e/ou a produção de produtos contendo amianto? Quem controla o descarte de materiais contendo amianto após o seu uso?

Qual é a necessidade de se manter a sua produção e uso? Há substitutos seguros para todas as utilizações conhecidas do asbesto. Nenhuma fibra substituta faz parte da lista de cancerígenos da IARC. Em adição, há estudos que demonstram a viabilidade técnica e econômica de sua substituição.

Como cidadãos e profissionais ligados à Saúde, registramos a indignação pela manutenção da produção, transporte, consumo, descarte, exportação e importação do amianto, e conclamamos o Poder Legislativo, o Poder Judiciário e o Poder Executivo Federal que se unam para acelerar as iniciativas pelo banimento total do amianto crisotila no Brasil, imediatamente. Que o Brasil não faça vexame na Conferência Rio + 20, de junho, e consiga mostrar -a nós e ao mundo -que suas políticas públicas não são definidas pelos lobbies de uma empresa, e sim, são comprometidas com a defesa da saúde e do ambiente, como reza a Constituição Federal.

Subscrevem o documento as seguintes Instituições/Organizações e Profissionais

INSTITUIÇÔES/ORGANIZAÇÕES

ABRACIT -Associação Brasileira de Centros de Informação Toxicológica

Fábio Bucaretchi, Presidente

Associação Brasileira de Saúde Coletiva -ABRASCO

Luiz Augusto Facchini, Presidente

Associação Brasileira dos Expostos ao Amianto -ABREA

Eliezer João de Souza, Presidente

Associação Nacional de Medicina do Trabalho

Carlos Campos, Presidente

Centro de Estudos de Saúde do Trabalhador e Ecologia Humana, CESTEH/FIOCRUZ

Marco Antonio Carneiro Menezes, Diretor

FIOCRUZ, MS

Valcler Rangel Fernandes, Vice-Presidência de Ambiente, Atenção e Promoção da Saúde

FUNDACENTRO, MTE

Eduardo Azeredo Costa, Presidente

Instituto Nacional do Câncer, INCA, Ministério da Saúde

Luiz Antônio Santini Rodrigues da Silva, Diretor

Sociedade Brasileira de Pneumologia e Tisiologia

Roberto Stirbulov, Presidente

Sociedade Brasileira de Toxicologia

José Luiz da Costa, Diretor Presidente

Sociedade Paulista de Pneumologia e Tisiologia

Mônica Corso Pereira, Presidente

Sociedade de Pneumologia e Tisiologia do Estado do Rio de Janeiro

Luiz Paulo Loivos, Presidente

PROFISSIONAIS (ordem alfabética)

Adriana Skamvetsakis Médica do Trabalho do Centro Regional de Referência em Saúde do Trabalhador da Região dos Vales, Rio Grande do Sul

Álvaro Roberto Crespo Merlo Professor Assistente III, Faculdade de Medicina, Universidade Federal do Rio Grande do Sul, Ambulatório de
Doenças do Trabalho -Hospital de Clínicas de Porto Alegre

Ana Paula Scalia Carneiro Pneumologista Doutora do Serviço Especializado em Saúde do Trabalhador (SEST) do Hospital das Clínicas da UFMG

Andréa Silveira Professora Doutora do Departamento de Medicina Preventiva e Social, Faculdade de Medicina da Universidade Federal de Minas Gerais

Antonieta Handar Médica do Centro Estadual de Saúde do Trabalhador Do Paraná -CEST

Carlos Augusto Vaz de Souza Engenheiro Químico, Mestre em Saúde Pública, Coordenador da Coordenação-Geral de Saúde do Trabalhador/Departamento de Vigilância em Saúde Ambiental e Saúde do Trabalhador – Ministério da Saúde

Eduardo Algranti Chefe do Serviço de Medicina, FUNDACENTRO e Membro do Comitê Assessor em Saúde Ocupacional da Organização Mundial da Saúde

Eduardo Marinho Barbosa Professor do Instituto Federal de Educação Ciência e Tecnologia da Bahia, Núcleo de Tecnologia em Saúde

Eduardo Mello De Capitani Professor Associado do Departamento de Clínica Médica e Coordenador do Centro de Controle de Intoxicações da Faculdade de Ciências Médicas da UNICAMP

Eliezer João de Souza Presidente da Associação Brasileira dos Expostos ao Amianto ABREA

Elizabete Medina Coeli Mendonça Tecnologista do Serviço de Medicina e responsável pelo Laboratório de Função Pulmonar, FUNDACENTRO

Elizabeth Costa Dias Professor-Adjunto do Departamento de Medicina Preventiva e Social, Faculdade de Medicina da Universidade Federal de Minas Gerais (aposentada)

Fátima Sueli Neto Ribeiro Doutora em Epidemiologia, Professora Adjunta da UERJ

Fernanda Giannasi Engenheira Civil e de Segurança do Trabalho, Auditora-Fiscal do Ministério do Trabalho e Emprego e Gerente do Programa Estadual do Amianto. (São Paulo) e Coordenadora da Rede
Virtual-Cidadã pelo Banimento do Amianto na América Latina

Francisco Pedra Mestre em Saude Publica e Doutorando em Saúde Pública e Meio Ambiente, Médico Sanitarista e do Trabalho, CESTEH/FIOCRUZ

Frida Marina Fischer Professora Titular do Departamento de Saúde Ambiental da Faculdade de Saúde Pública – USP

Guilherme Franco Netto Mestre em Saúde Pública, Doutor em Epidemiologia, Pós-Doutor em Saúde Coletiva. Diretor do Departamento de Vigilância em Saúde Ambiental e Saúde do Trabalhador –
Ministério da Saúde

Gustavo Faibischew Prado Doutor em Pneumologia pela Faculdade de Medicina da USP, ex-diretor cientifico da Sociedade Paulista de Pneumologia, Médico da Divisão de Pneumologia do InCor-HCFMUSP e do Instituto do Câncer do Estado de São Paulo "Octávio Frias de Oliveira"

Hermano Albuquerque Castro Médico Doutor do CESTEH, FIOCRUZ/MS, Coordenador da Comissão de Doenças Ambientais e Ocupacionais da Sociedade Brasileira de Pneumologia e Tisiologia

Ildeberto Muniz de Almeida Professor Doutor do Departamento Depto de Saúde Pública da Faculdade de Medicina de Botucatu – UNESP

Jefferson Benedito Pires de Freitas Mestre em Saúde Pública, Médico Pneumologista do Centro de Referência em Saúde do Trabalhador da Freguesia do Ó, Prof. Instrutor do Departamento de Medicina Social da Faculdade de Ciências Médicas da Santa Casa de São Paulo e Médico do Trabalho do Sindicato dos Trabalhadores das Indústrias Químicas, Farmacêuticas, Plásticas e Similares de São Paulo

Jose Augusto Pina Pesquisador do Centro de Estudos da Saúde do trabalhador e Ecologia Humana (CESTEH) da Fundação Oswaldo Cruz/FIOCRUZ

Jussara Maria Rosa Mendes Professora Adjunta do Curso de Serviço Social e do PPG Psicologia Social e Institucional da UFRGS, Coordenadora do NEST (Núcleo de Estudos em Saúde e Trabalho)

Luiz Augusto Facchini Professor Doutor do Departamento de Medicina Social, Universidade Federal de Pelotas – RS

Luiz Carlos Correa Alves Médico do CESTEH/FIOCRUZ

Luiz Paulo Loivos Médico Pneumologista, Presidente da Sociedade de Pneumologia e Tisiologia do Estado do Rio de Janeiro (SOPTERJ)

Márcia Bandini Médica Doutora do Trabalho, Diretora da ANAMT

Maria Cecília Pereira Binder Professora Doutora do Departamento de Saúde Pública da Faculdade de Medicina de Botucatu -UNESP

Maria Dionísia do Amaral Dias Professora Doutora do Departamento Saúde Pública da Faculdade de Medicina de Botucatu -UNESP

Maria Juliana Moura Corrêa Professora da Escola de Saúde Pública do Estado do Rio Grande do Sul. Mestre em Serviço Social, Doutoranda em Epidemiologia na UFBA

Mario Bonciani Médico, Vice Presidente Nacional da ANAMT e Auditor Fiscal do Trabalho aposentado

Patricia Canto Ribeiro Médica Doutora Coordenadora da Comissão de Pneumopatias Ocupacionais e Ambientais da Sociedade de Pneumologia e Tisiologia do Estado do Rio de Janeiro (SOPTERJ)

Paulo Antonio Barros Oliveira Médico do Trabalho, Professor Associado da UFRGS, Auditor Fiscal do Trabalho do MTE, Vice Presidente da ABERGO (Associação Brasileira de Ergonomia) e Diretor Executivo da ULAERGO (União Latino Americana de Ergonomia)

René Mendes Professor Titular do Departamento de Medicina Preventiva e Social da Faculdade de Medicina da Universidade Federal de Minas Gerais, Belo Horizonte -MG (aposentado) e Professor
Associado Sênior, Department of Environmental Health Sciences, School of Hygiene and Public Health, Johns Hopkins University, Baltimore – MD, EUA

Rodolfo Andrade de Gouveia Vilela Professor Doutor Livre Docente do Departamento de Saúde Ambiental da Faculdade de Saúde Pública – USP

Ubirani Barros Otero Doutora, Gerente da Área de Vigilância do Câncer Relacionado ao Trabalho e ao Ambiente, Coordenação de Prevenção e Vigilância – Conprev/INCA

Ubiratan de Paula Santos Coordenador da Comissão de Doenças Ocupacionais e Ambientais da SPPT e Médico Doutor do Grupo de Doenças Respiratórias Ocupacionais, Ambientais e de Cessação de Tabagismo da da Divisão de Pneumologia do Instituto do Coração (InCor) do HCFMUSP

Victor Wunsch Filho Professor Titular do Departamento de Epidemiologia da Faculdade de Saúde Pública da Universidade de São Paulo

Vilma Santana Professora do Instituto de Saúde Coletiva, Universidade Federal da Bahia, Programa Integrado em Saúde Ambiental e do Trabalhador

Vilton Raile Médico do Trabalho da Divisão de Pneumoconioses do CEREST de Osasco, Coordenador do Nucleo em Saúde do Trabalhador de Carapicuiba, Fellow do Irving J. Selikoff Center for Occupational and Environmental Medicine do Mount Sinai School of Medicine, Nova Iorque

Zuher Handar Diretor científico da ANAMT, Médico do Centro Estadual de
Saúde do Trabalhador Do Paraná -CEST

.


quarta-feira, 8 de fevereiro de 2012

Carlos Td bom? Rapaz, to usando Fatorial e to com algumas duvidas...Sei q na teoria o constructo tem 5 fatores, mas qdo rodo so dá 4...e qdo uso eigen só dá 3. Mantenho a primeira decisao de dizer q a prior sao 5? ou jogo os dados no lixo??

Muitas vezes os fatores idealizados para o construto não encontram respaldo nos dados observados. Isso pode ser um problema de tamanho amostral ou de necessidade de alteração do modelo teórico hipotético.

Se você usa o critério de Kaiser (eigenvalue maior que 1) e dá 3 fatores, mesmo assim não fique feliz com o quarto fator. Um quarto fator com eigenvalue menor que 1 mostra que esse fator tem um "poder explicativo" menor que uma variável do instrumento original.

O ideal é até ser mais exigente e usar análise paralela (tem que pegar script para fazer isso no SPSS ou usar algum programinha específico pra isso). Consiste em usar uma matriz de valores randômicos com o mesmo número de "participantes" e "itens" e, em seguida, comparar os eigenvalues que você obteve com os dados do seu estudo com os eigenvalues da matriz randômica.

Você fica com os fatores com eigenvalue maior que os eigenvalues randômicos.

Outra possibilidade é usar a análise fatorial de informação plena (full-information factor analysis), que talvez reduzisse o número de fatores para 2.

Mas ainda assim, penso que o ideal é sempre preferir a análise fatorial confirmatória. Afinal, se você tem uma teoria, não é melhor testá-la?

Mas se tudo isso for muito difícil de você operacionalizar agora, não tenha medo de fundir fatores ou excluir itens.

A análise fatorial exploratória é boa para se fazer justamente isso.

Calcule o alfa de Cronbach dos grupos de itens correspondentes aos fatores encontrados como estão e dos fatores idealizados inicialmente. Depois, faça o mesmo com os "fatores novos" resultantes das possibilidades de fusão de fatores e exclusão de itens.

Itens que tem baixa carga fatorial em quaisquer dos fatores são bons candidatos à exclusão. Itens assim, quando excluídos, invariavelmente aumentarão o alfa de Cronbach de cada fator e, provavelmente, do instrumento como um todo.

Não jogue os dados fora. Use a análise fatorial para melhorar a qualidade psicométrica do seu instrumento de avaliação.

Ask me anything

como interpretar 0,06 correlaçao de pearson no spss

Se o valor do coeficiente de correlação (r) foi 0,06, mesmo que tenha sido significativo (p < 0,05), isso indica um baixo grau de linearidade positiva entre as duas variáveis. Indiretamente, indica também uma baixa covariância. Na prática, correlações abaixo de 0,3 indicam um baixo grau de correlação.

Exponenciando ao quadrado o coeficiente de correlação (r) de 0,3, temos um coeficiente de determinação (r²) de 0,09. Isso indica que apenas 9% de variância de uma variável  é "explicada" pela variância da outra.

No caso de um coeficiente de correlação (r) de 0,06 teremos um coeficiente de determinação (r²) de apenas 0,0036. Isso significa que a proporção de variância de uma variável "explicada" pela variância da outra nesse caso é de apenas 0,36%.

Ou seja, uma correlação de 0,06 beira o irrelevante.

Caro carlos Obgd pela ajuda, estou usando a AF para criar um instrumento com 5 fatores. Só que algumas variaveis carregaram em 2 ou 3 fatores.. Isso é uma justificativa para excluí-las? abs! Carlos

Não necessariamente. Primeiro tente atribuir essa variável ao fator que carrega mais. Mas se a diferença de carga fatorial for pequena entre os fatores que carregam nessa variável, você pode pensar não apenas em excluir essa variável, mas pensar em fundir fatores...

Nessas horas que é bom complementar com a confirmatória. Você pode testar diferentes modelos teóricos e ver o grau de ajuste de cada um deles.

Ask me anything

quinta-feira, 19 de janeiro de 2012

O que eu não consigo entender é como que redações em branco nessa TRI possuem notas diferentes e acima de 0.


Redações em branco com notas diferentes eu não tive notícia, mas é preciso esclarecer que a única parte do ENEM na qual o escore vai de 0 a 1000 é realmente só a redação.

O que acontece com as provas calibradas pela teoria de resposta ao item (TRI), no caso, a parte de múltipla escolha do ENEM, é que o escore correspondente à dificuldade média das questões é ajustada para 500 com um desvio padrão de 100.

Como a distribuição dos escores provavelmente segue mais ou menos a distribuição normal (dado seu tamanho amostral), a nota ZERO raramente será abaixo de 3 desvios padrões da média (ou 200 em termos de escore padronizado) na modelagem de TRI que for utilizada.

Nas modelagens pela TRI é comum termos uma oscilação de escores em torno de 2,5 a 3 desvios padrões acima ou abaixo da dificuldade média das questões. Às vezes a distribuição dos escores vão de -1,5 a +2,0 (que em termos de escore padronizado é 350 a 700) ou então -2,5 a +1,0 (que em escore padronizado é 250 a 600). Enfim, essa distribuição varia conforme o emparelhamento entre dificuldade das questões e habilidade dos testandos.

Se uma prova (ou parte da prova, isto é, um subteste) for mais difícil, poderá haver uma nota ZERO mais alta em termos de escore padronizado (ex. 250) e uma confiabilidade menor.

Se uma prova for muito fácil, a confiabilidade também será menor devido à falta de variância de escores (muita nota alta igual), mas a nota ZERO poderá ser equivalente a um escore padronizado mais baixo (ex. 150).

Como o teste é mais confiável quanto maior for o nível de aptidão do testando, e a idéia é ter confiabilidade maior para testandos mais hábeis, as variações de escores abaixo de 300 são virtualmente irrelevantes. Ou seja, não importa em nada se o ZERO resulta em qualquer número maior que zero.

A lógica da TRI não é a de um escore dado pelo percentual de acertos e sim a de um escore padronizado por média (centrada em habilidade ou dificuldade) e desvio padrão. No software a média do "escore real" ou escore "theta" é calculada em ZERO e o desvio padrão em mais ou menos UM. Depois reajustamos os escores para que o ZERO seja linearmente transformado em QUINHENTOS e o UM seja linearmente transformado em CEM. Assim, o escore -1 vira 400, o escore ZERO vira 500 e o escore +1 vira 600.

Veja esse gráfico da distribuição normal e daí é possível entender o motivo pelo qual o zero é diferente de zero na TRI.



Perceba que escores em torno de 200 equivalem ao ZERO na prática.

Com isso, a nota da redação fica realmente com um peso desproporcionalmente maior. Uma nota 200 na redação fica igual a virtualmente nada.

Talvez isso seja até algo deliberado por parte do INEP, para que a redação elimine os candidatos menos articulados e privilegie os testandos com melhor habilidade na escrita.

Fiz uma simulação pela teoria da generalizabilidade, pensando na confiabilidade da parte relativa à redação do ENEM.

Para resultados altamente generalizáveis, o ideal seria aumentar o número de avaliadores por redação, bem como aumentar o número de redações (exigindo-se menos palavras por redação).

Números interessantes para uma confiabilidade maior: seis redações e dez avaliadores. Uma solução alternativa seria recrutar uma junta de cinco juízes e se houvesse um desvio padrão maior que 30 (ou mais, ou menos) nos escores dados para a redação, faria-se uma nova junta com mais cinco juízes, prevalecendo a média.

E o ideal seria equalizar os escores da redação para a mesma padronização do restante do ENEM. A média geral da redação viraria o escore 500, com o desvio padrão sendo igual a 100.

Embora o restante do ENEM seja centrado na métrica da dificuldade das questões e não na métrica do desempenho discente, isso evitaria um peso maior justamente na parte mais suscetível a subjetividades.

Ainda assim, há que se pensar que aumentar o peso da redação, apesar do risco de subjetividade, poderá talvez ser mais adequada em termos de validade preditiva em relação ao desempenho acadêmico na graduação. Um cuidado psicométrico maior em relação à avaliação da redação é desejável. A correção eletrônica da redação com revisão humana é outra possibilidade bem viável.

Em um horizente próximo, espero que o ENEM utilize testagem computadorizada, a qual, no meu ver, melhoraria muito a eficiência e a segurança do processo, incluindo a questão da redação.

A TRI poderia permitir o uso da testagem adaptativa computadorizada, que traria maior variabilidade de questões entre testandos, e poderia aumentar a segurança contra vazamentos.

terça-feira, 10 de janeiro de 2012

Você concorda com essa frase? “O estudante que tirou abaixo de cinco (5,0) no ENADE ou na prova do Conselho merece ser reprovado mesmo pois ignora da metade do conhecimento médico necessário para ser um bom profissional.”

A priori, não parece haver nada errado com essa afirmação…

Todavia, alguns fatores podem prejudicar conclusões desse tipo. Não só para a educação médica, mas para qualquer teste educacional, do ENEM ao ENADE e etc.

Para ser válida, uma prova precisa ser constituída por questões que representem uma boa amostragem do conteúdo que se pretende medir.

Uma estratégia útil para assegurar a validade de conteúdo de instrumentos de avaliação é o blueprinting de competências.

Além de assegurar a validade de conteúdo, há que se verificar a confiabilidade do instrumento.

Para entender o conceito de confiabilidade, isto é, o quanto o instrumento "mede direito" aquilo que se deseja medir, deve-se assumir que o teste é uma medida indireta do construto que se deseja mensurar.

Partindo desse pressuposto, pode-se dizer que a variância observada das notas é o conjunto formado pela variância de escore "real" com a variância de um certo "erro de medida" (variância = desvio padrão elevado ao quadrado). Esse erro de medida é proporcional à "imperfeição" do instrumento de avaliação. Então:

Variância total = variância do "escore real" + variância do "erro de medida"

Do ponto de vista puramente matemático, a precisão (ou confiabilidade) do teste é igual a variância "verdadeira" sobre a variância total.

confiabilidade (precisão) = variância "verdadeira" / variância total

Desenvolvendo a equação, podemos escrever essa fórmula assim:

erro padrão = desvio padrão x (raiz quadrada de 1 - confiabilidade)

Tome um exemplo de uma prova qualquer cuja nota é dada numa escala de 0 a 100. O desvio padrão encontrado na prova foi 8.

A confiabilidade dessa prova, calculada pelo método da consistência interna, resultou em um alfa de Cronbach de 0,80. Quanto mais próximo de um (1,0) for esse valor, tão melhor.

Para chegar no alfa de Cronbach usa-se a fórmula:

alfa de Cronbach = [K / (K -1)] x [1 - (SVI / VNT)]

K = número de itens da prova
SVI = soma da variância de todos os itens
VNT = variância das notas do teste

De posse do desvio padrão dos escores e agora do coeficiente de confiabilidade, você consegue calcular o erro de medida.

Erro de medida = 8 x (raiz quadrada de 1 - 0,8) =

Erro de medida = 8 x raiz quadrada de 0,2 =

Erro de medida = 8 x 0,4472 = 3,577.

Por isso, alguém que tirasse nota 50 numa escala de 0 a 100, numa outra prova de mesma qualidade, abrangendo o mesmo conteúdo com o mesmo nível de dificuldade, teria seu escore entre 46,423 e 53,577. Pela teoria clássica dos testes, essa faixa representaria o espectro onde se situa o escore "real" da pessoa.

A vantagem da teoria de resposta ao item é poder calcular o erro de medida não para a prova inteira, mas para cada nível de habilidade. Esse é o método da precisão local. Ele pode ser descrito com essa equação:

precisão local = (variância pontuação - variancia de erro) / variância pontuação

Isso é possibilitado pois a variância de erro é calculada para cada nível de habilidade na teoria de resposta ao item, algo que a teoria clássica dos testes não faz. Por isso a teoria de resposta ao item é chamada também de teoria do "escore real".

Geralmente observa-se níveis menores de precisão local quanto menor é o nível de habilidade.

Por isso, quanto maior seu nível de habilidade, melhor será o cálculo do seu "escore real".

Essa constatação oriunda da teoria de resposta ao item permite observarmos graficamente a necessidade de "emparelhamento" entre o nível de habilidade dos testandos e o nível necessário de dificuldade das questões. Essa necessidade "psicométrica" tem a ressalva de que é necessário manter o respeito à validade de conteúdo.

Veja um gráfico de precisão local dessa prova:



E por isso, se você é CDF como eu, muito melhor para você que seja utilizada a teoria de resposta ao item, como no ENEM.

Por exemplo: se você tivesse tirado 90 pontos nessa prova hipotética, a precisão local estaria em torno de 0,9 e o erro de medida estaria em 2,529. Seu escore "real" ficaria assim de acordo com cada teoria:

Teoria clássica dos testes: 90 mais ou menos 3,577
Teoria de resposta ao item: 90 mais ou menos 2,529

Uma redução de quase um terço no erro de medida.

Em provas como o ENEM, com grande população amostral e grande número de itens, a confiabilidade tende a ser ainda maior e a redução do erro de medida certamente é ainda mais eficaz.

Em suma:
- o uso da teoria clássica permite dizer que prova boa é aquela que tem heterogeneidade tanto na dificuldade das questões quanto nas notas dos testandos.
- o uso da teoria de resposta ao item aumenta a confiabilidade do processo para testandos de aptidão mais elevada, ao estimar de forma mais "precisa" seu "escore real".


As aspas são minha recalcitrante ironia. Desculpem a brincadeira. Não resisti. Se você acredita que tudo isso é só teoria, que a dificuldade e o poder informativo de cada questão não devem computar sua nota e que o que deveria contar é apenas o escore bruto, as aspas são pra você.




A questão da redação, que causou polêmica por estar "fora da escala da teoria de resposta ao item" e que talvez o modelo logístico de 1 ou 2 parâmetros seja mais adequado que o modelo logístico de 3 parâmetros usados pelo INEP ficam pra outro post, que espero ter a oportunidade de escrever ainda neste blog.

Queria que todos os testes de progresso, provas de residência e provas de entidades oficiais fizessem esse tipo de análise.

Related Posts Plugin for WordPress, Blogger...