terça-feira, 12 de junho de 2012

Acompanhamento longitudinal de escores latentes em testes de progresso: o uso da modelagem de equações estruturais



     Um dos desafios para a avaliação quantitativa do desempenho discente ao longo do tempo, isto é, avaliações longitudinais, ocorre com os testes de progresso. Sempre me incomodou o uso de escores brutos emparelhados ao longo do tempo para mostrar o tal progresso na aprendizagem. Nunca me conformei com essa estratégia. Sempre achei que esses gráficos não mostram nada, a não ser um "borrão" do real crescimento na aprendizagem. Erros de mensuração e variações na dificuldade das provas não são considerados nesses gráficos de escores brutos ao longo de sucessivos testes de progresso. Por isso, vi com muita felicidade a utilização do método do desvio cumulativo e da análise de tendência para a melhoria do benchmarking interinstitucional e da mensuração do progresso em testes longitudinais (Muijtjens, Schuwirth, Cohen-Schotanus, Thoben & van der Vleuten, 2008a; Muijtjens, Schuwirth, Cohen-Schotanus & van der Vleuten, 2008b; Schauber & Nouns, 2010). Porém, é necessário perceber que quando há diferenças individuais em curvas, há também mudanças nas variâncias e covariâncias ao longo do tempo. Isso significa que esses modelos podem ser analisados não apenas por análise de variância, mas também por modelos de regressão multinível aliados à teoria de resposta ao item, seguidos de análise por modelos de crescimento sob os pressupostos da modelagem de equações estruturais (Cohen, Cohen, West & Aiken, 2003).

     A representação do crescimento longitudinal por meio da modelagem de equações estruturais permite especificar de forma mais explícita as hipóteses a respeito de eventuais estruturas causais nos parâmetros de mudança e o potencial de predizer os escores "reais" da variável latente (theta). Pois é justamente a estimação das relações entre escores "livres de erro" propiciado a partir do uso de variáveis latentes a maior justificativa para o uso de modelagem de equações estruturais. No caso específico dos modelos de crescimento abordam tanto covariância quanto a mudança nas médias ao longo do tempo. Os vetores das médias e as matrizes de covariâncias são ambas utilizadas para fornecer informações  que pode ser utilizada para gerar estimativas de funções de mudança em construtos "livres de erro" (variáveis latentes, como o "theta"). Quem aplica isso atualmente de forma bastante elegante é a autarquia holandesa de avaliação, a CITO (http://www.cito.nl). Para detalhes, veja Verhelst & Verstralen (2002).

     Na minha opinião, e na de Cohen et al. (2003), a variância comumente incluída como "erro", i.e., as fontes residuais de variância ao longo do tempo, não são necessariamente "erro". O ideal seria chamar esse "erro" de variância residual. Por mais benefícios que a teoria de resposta ao item tenha contribuído na estimação mais adequada dos reais níveis de habilidade, quando comparada com a teoria clássica dos testes, os cálculos de precisão local da teoria de resposta ao item nos permitem afirmar com segurança que não existe algo como "escore real" ou "escore livre de erro". O que pode existir são escores com erros de mensuração minimizados.

     A equalização dos testes (test equating) é o ponto nevrálgico para o uso da teoria de resposta ao item (Schuwirth & van der Vleuten, 2012). O uso híbrido da calibração concomitante (concurrent calibration) e da calibração consecutiva em tese permite a comparação direta entre provas de diferentes dificuldades. Todavia, a  memorização de testes àncora usados na equalização pode interferir na mudança dos parâmetros (Langer & Swanson, 2010). Evitar a sueperexposição dos testes âncora é uma estratégia necessária, mas com eficácia aparentemente limitada. Deve-se lembrar que raramente os diversos pressupostos para a realização adequada da equalização são obedecidos.

     Em suma: a estratégia dos modelos de crescimento acoplados à teoria de resposta ao item (multinível ou não), não apenas minimizam os erros de medida, mas também melhoram sobremaneira o acompanhamento do desempenho do estudante. Todavia, não está isento de vieses. Como diz o ditado: não há mundo perfeito...


Referências:

Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Longitudinal regression methods. In: Applied multiple regression / correlation analysis for the behavioral sciences. 3rd ed. Mahwah, New Jersey: Lawrence Erlbaum.

Langer, M. M., & Swanson, D.B. (2010) Practical considerations in equating progress tests. Medical Teacher, 32 (6), 509-12.

Muijtjens, A. M., Schuwirth, L. W. T., Cohen-Schotanus, J., Thoben, A. J. N. M., & van der Vleuten C. P. M. 2008a. Benchmarking by cross-institutional comparison of student achievement in a progress test. Med Educ 41(1):82-88.

Muijtjens A. M., Schuwirth, L. W.T., Cohen-Schotanus, J., & van der Vleuten, C. P. M. 2008b. Differences in knowledge development exposed by multi-curricular progress test data. Adv Health Sci Educ 13:593-605.

Schauber S, & Nouns Z. (2010). Using the cumulative deviation method for cross-institutional benchmarking in the Berlin progress test. Medical Teacher, 32, 471-5.

Schuwirth, L. W. T., & van der Vleuten, C. P. M. (2012). The use of progress testing. Perspectives on Medical Education, 1, 24-30.

Verhelst, N. D., & Verstralen, H. H. F. M. (2002). Structural analysis of a univariate latent variable (SAUL): Theory and a computer program. Arnhem: Cito.














sexta-feira, 1 de junho de 2012

Prova Prática Farmacologia-Toxicologia 2012/1


Guilherme, 8 anos de idade, encefalopata crônico por paralisia cerebral, chegou ao PS, no final do plantão do Dr. Victor, às 02:34, trazido pela mãe e pela avó. Seu quadro clínico era caracterizado por agitação psicomotora, alucinações, midríase fixa isocórica, taquicardia (FC = 108) e ruídos hidroaéreos diminuídos. A mãe refere que o paciente não urina desde ontem e que o paciente faz uso continuado de clonazepam e carbamazepina.
A avó é a cuidadora da criança, mas teve que deixá-la com uma vizinha para visitar sua filha, Joana, mãe de Guilherme. Joana é portadora de esquizofrenia, diabetes, hipertensão, depressão, hipotireoidismo e HIV. Quando ambas foram encontrar Guilherme no final do dia, encontraram-no sozinho, com várias cartelas abertas e comprimidos espalhados no chão, os quais foram trazidos ao PS: Parcel (diidroergotamina, paracetamol e cafeína), metformina, enalapril, claritromicina, fluconazol,  zidovudina, levotiroxina, citalopram, prednisona, diclofenaco, etinilestradiol, ciprofloxacino, escopolamina e quetiapina.

1) Que perguntas devem ser feitas ao paciente e seus familiares para completar a história? (1,0)
2) Quais outros dados você procuraria para completar o exame físico? (1,0)
3) Qual síndrome tóxica você acredita que o paciente esteja apresentando no momento? Justifique. (1,0)
4) Cite cinco exemplos de agentes tóxicos que podem causar essa síndrome. (0,5)
5) Classifique farmacologicamente, incluindo a indicação terapêutica, dos fármacos encontrados próximos a Guilherme. (1,0).
6) Que outra(s) síndrome(s) tóxica(s) este paciente poderá apresentar? Devido a que substância(s)? A que sinais você deverá ficar atento para a identificação dessas síndromes? (2,0)
7) Quais as medidas iniciais que você recomendaria para conduzir o caso de Guilherme? (1,5)
8) Há possibilidade de interações medicamentosas de relevância clínica? Descreva-as se houver. Dica: usar o "interactions checker" do site www.drugs.com (2,0).

sexta-feira, 4 de maio de 2012

No caso de uma regressão logística, não é necessário testar a multicolinearidade?

Precisa testar pra multicolinearidade na regressão logística, sim!
Você pode avaliar os valores de tolerância e VIF.
Valores muito baixos de tolerância e valores muito altos de VIF quase certamente indicam problemas de multicolinearidade.
Valores de tolerância abaixo de 0,1 e valores de VIF acima de 10 devem alertá-lo para isso.

Outra maneira é avaliar a proporção de variância ("variance proportions") das últimas dimensões (as que tem menor eigenvalue). Proporções de variância similares entre variáveis nas dimensões de menor eigenvalue indicam alta colinearidade entre elas.

Claro que se você tiver apenas uma variável independente (preditora), não faz sentido testar multicolinearidade.

(Obrigado ao anônimo que postou a pergunta no Formspring. Agora entendi o que você estava perguntando... Respondido?)

O que quer dizer o F na análise de variância (ANOVA)

Pense em um teste t.
No teste t, testa-se a hipótese de que as duas amostras têm a mesma média.

De forma similar, a análise de variância (ANOVA) nos diz se três ou mais médias são iguais.
A ANOVA produz um valor chamado F (F-statistics ou F-ratio).

Esse valor de F é similar ao valor de t pelo fato de comparar a quantidade de variância sistemática nos dados com a quantidade de variância não-sistemática.

Em outras palavras, o valor de F é a razão entre o modelo e seu erro.

Difícil ainda, né?

Vamos dar um exemplo:

Suponha que você fez um experimento com três grupos.
O valor de F vai nos dizer o quanto as médias desses três grupos não são iguais.

Para entender o valor de F é preciso saber que o F é parecido com o coeficiente de determinação usado em correlações e regressões (R2). A diferença é que o R2 é calculado pela divisão da  soma dos quadrados do modelo (sum of squares of the model, SSm) com a soma total dos quadrados (total sum of squares, SSt).

Procure imaginar um gráfico de dispersão (scatterplot).

A soma total dos quadrados (SSt) usa as diferenças entre os dados observados de x e o valor médio de y (pense numa linha horizontal perpendicular ao eixo y).

A soma dos quadrados residuais (SSr) usa a diferença entre os dados observados de x e a linha de regressão entre x e y (pense numa linha diagonal).

A soma dos quadrados do modelo (SSm) é uma medida da melhora obtida pelo modelo e utiliza as diferenças entre o valor médio de y e a linha de regressão.

Como a soma dos quadrados dependem do número de diferenças, usamos os quadrados médios para calcular o F, isto é: a soma dos quadrados divididos pelo número de graus de liberdade.

Em termos matemáticos o valor de F é calculado pela divisão entre os quadrados médios para o modelo (mean squares for the model, MSm) e os quadrados médios residuais (residual mean squares, MSr).

Ou simplesmente: F = MSm / MSr.

Os graus de liberdade são usados para dividir ambas as somas dos quadrados (sum of quares).
No numerador, o número de graus de liberdade é igual ao número de grupos menos 1. Para uma ANOVA de três grupos, esse valor é 2. No denominador, o número de graus de liberdade é igual ao número de observações menos o número de grupos. Se o número de observações for 24 e o número de grupos for três, esse valor é 21.

Na publicação ficaria assim: F (2,21) = 71.84 (chutei um valor de F qualquer).

Para um modelo de regressão, por exemplo, quanto maior o F, melhor, pois significa que os quadrados médios do modelo são maiores que os quadrados médios residuais. Quanto maior o F, mais significativo o valor de p para a ANOVA.

Para a comparação de médias entre os 3 grupos, um valor de F elevado significa que há alguma diferença entre esses grupos capaz de ser expressa adequadamente por meio de um modelo de regressão.

Agora você sabe o que o F quer dizer.

Só que o valor de F só diz se houve alguma diferença geral entre as médias, mas não nos diz nada sobre quais pares de grupos posuem médias significativamente diferentes.

Para isso você precisa dos testes post hoc. Mas isto é algo para este post.

Um vídeo em inglês que ajuda a entender bem o que quer dizer o F pode ser visto abaixo



quarta-feira, 25 de abril de 2012

Professor, no meu estudo estou rodando uma regressão logística binária com apenas uma variável independente. O modelo apresentou boa aderência e qualidade, isso é possível? É normal trabalhar modelos com apenas uma variável explicativa?

Primeira coisa: regressão logística é classicamente para desfechos binários, OK? Então se sua variável dependente é dicotômica (ex. sim ou não), o modelo de regressão empregado usa necessariamente a função logística.

Ok, vá lá, existe a regressão logística ordinal, mas isso é uma aplicação BEM mais específica.

Por isso, em geral, falar regressão logística binária soa como um "pleonasmo redundante".

E quanto à sua pergunta: não há problema em se ter apenas uma variável independente no modelo, desde que os pressupostos estejam contemplados.

Eu mesmo já fiz isso em relação à preditividade da nota de diversos tipos de prova no curso de graduação em Medicina em relação à aprovação em alguma residência médica, o qual é um exemplo de desfecho dicotômico (sim / não).

Ask me anything

segunda-feira, 23 de abril de 2012

Boa tarde professor! Estou a validar para português de um questionário americano. Fiz uma análise factorial exploratoria e gostava de saber se tenho mesmo de proceder a uma AF confirmatória ou se posso só apresentar as dimensões que encontrei na AFE.Obg

Você pode usar as duas abordagens, mas se for usar as duas, é melhor dividir a amostra em duas partes. Honestamente, prefiro a AFC. Afinal, se sua AFE mostra uma estrutura fatorial diferente daquela encontrada no estudo original, como quantificar o grau de validade do seu instrumento adaptado? Essa quantificação não é possível na AFE, mas é possível na AFC. Uma opção é apresentar os resultados da AFE e tentar discutir eventuais diferenças. Mas se você já tem uma teoria, não é muito melhor você avaliar o grau de ajuste dos seus dados à teoria?

Espero ter ajudado.

Abs,

CFC

Ask me anything

terça-feira, 10 de abril de 2012

Índices de bondade de ajuste em análise fatorial confirmatória


A explicação dos principais índices de bondade de ajuste na análise fatorial confirmatória, e também na modelagem de equações estruturais, seguindo o roteiro da parte final do output gerado pelo programa SPSS AMOS (IBM SPSS) está abaixo.

- qui-quadrado (no output está como CMIN): testa a hipótese nula de que a estimativa de covariância residual é igual a uma matriz composta apenas por zeros. Um valor significativo indica inadequação dos dados ao modelo, porém é um índice que sofre impacto negativo quanto maior a amostra. Isoladamente tem pouco valor e é mais utilizado na comparação entre modelos e métodos (Thompson, 2004).

- qui-quadrado sobre graus de liberdade (no output está como CMIN/DF): divide-se o valor do qui-quadrado pelo número de graus de liberdade para obter um valor de ajuste ao modelo menos sensível ao tamanho da amostra. Valores menores que 3 são preferíveis, mas valores abaixo de 5 são toleráveis (Hocevar, 1985; Byrne, 2001).

- GFI (goodness-of-fit index, índice de qualidade de ajuste): é um coeficiente de determinação geral para modelos de equações estruturais. É um valor análogo ao R² em regressão múltipla e indica a proporção de variância-covariância explicada pelo modelo. Valores maiores que 0,9 são considerados como indicativos de elevada adequação ao modelo (Tanaka, 1993).

- AGFI (GFI ajustado para os graus de liberdade): correção "parcial" do valor de GFI para o número de graus de liberdade. Seu valor tende a ser similar ao GFI quanto menor é o número de parâmetros a ser estimado (Tanaka, 1993). Como ainda é afetado com o aumento da amostra, tende ao desuso.

- NFI (índice de ajuste normalizado): compara o qui-quadrado para o modelo testado contra o qui-quadrado para o modelo basal presumindo que as variáveis mensuradas são completamente independentes. Idealmente, valores maiores que 0,95 são desejados (Bentler, 2000; Thompson, 2004).

- CFI (índice de ajuste comparativo): índice similar ao NFI, que faz uso de uma distribuição de qui-quadrado não-central, e que procura levar em consideração a complexidade de um modelo. Idealmente, valores maiores que 0,95 também são desejados (Thompson, 2004). A vantagem do uso do CFI é evitar a subestimação do ajuste observado no NFI quando a amostra é pequena (Bentler, 2000; Thompson, 2004).

- TLI (índice de Tucker Lewis): também conhecido como índice de Bentler-Bonett não-normalizado (NNFI), é similar ao CFI. Idealmente, valores maiores que 0,90 são desejados (Bentler and Bonett, 1980).

- RMR (raiz quadrada média residual): é a raiz quadrada da média dos quadrados dos resíduos e indica o valor absoluto médio dos resíduos das covariâncias. Deve-se preferir o valor padronizado do RMR para a interpretação (SRMR) (Hair Jr. et al., 2006).

- RMSEA (raiz da média dos quadrados dos erros de aproximação): ao contrário do RMR, o RMSEA possui uma distribuição conhecida e, portanto, representa de forma mais adequada quão bem um modelo se ajusta à população, não apenas à amostra utilizada para a estimação (Thompson, 2004). Valores abaixo de 0,08 são considerado desejáveis e valores abaixo de 0,05 são considerados ótimos. Thompson (2004) considera que valores abaixo de 0,06 geralmente indicam um ajuste razoável ao modelo.

Outros índices como AIC (Akaike Information Criterion) e BIC (Bayesian Information Criterion) são mais úteis na comparação entre diferentes hipóteses de modelos teóricos.

Dica: os índices que podem ser considerados mais importantes e que jamais devem faltar no seu artigo: qui-quadrado sobre graus de liberdade, CFI, TLI, NFI e RMSEA.

quarta-feira, 28 de março de 2012

Mando rodar a análise fatorial no SPSS e só dá "matrix is not positive definite" abaixo da matriz de correlação. Como lidar?



Respondo com outra pergunta: por que você não tenta usar a matriz de covariâncias ao invés da matriz de correlações? Se mesmo usando uma matriz de covariância não der certo (o que é batata que VAI acontecer, rsrsrs...), você provavelmente não deveria usar a análise fatorial nesse caso.

Quando o SPSS gera esse comentário de que a matriz "is not positive definite", tem que dar uma olhadinha na matriz.

Pode ser que você tenha variáveis muito correlacionadas com outras.

Ou também pode ter ocorrido pelo fato de você ter muitas variáveis para poucas observações.

Em análise fatorial isso é pessimo, pois o ideal é termos um mínimo de 5 a 10 observações por variável que se pretende analisar. Exemplo: um questionário com 20 itens deveria ter pelo menos de 100 a 200 participantes no estudo para que pudéssemos rodar uma análise fatorial.

Se sua matriz de correlações é não-positiva definida ("not positive definite"), isso acaba gerando eigenvalues negativos para as últimas variáveis. Isso é visível no SPSS se você manda rodar a análise fatorial com um número de fatores igual ao número de variáveis. Como o eigenvalue ("autovalor") é uma medida do "poder explicativo" do fator em comparação com o "poder explicativo" de uma variável, você pode imaginar o quanto sua matriz está ruim.

Matrizes assim acarretam na interrupção da análise em vários programas.

Se a matriz de covariância der "not positive definite" o próximo SPSS nem continua a rodar a análise. Mas como o SPSS roda a análise fatorial com a matriz de correlação, mesmo sendo desse jeito, você pode tentar.

Pode até ser que você consiga obter padrões interessantes que agrupam variáveis em fatores que tenham como sofrer interpretações sobre seus significados, mas você não terá como ver outros outputs típicos de análises fatoriais, como o KMO e a matriz de anti-imagem, só pra ficar em dois exemplos.

E você será inevitavelmente questionado quanto à adequação dos dados para a realização da análise.

quarta-feira, 21 de março de 2012

Professor, estou estudando Teoria de Resposta ao Item (TRI) e gostaria de verificar como poderia utilizar Análise Fatorial com esses dados binários...

A maneira mais comum de se usar a análise fatorial com TRI é na avaliação da unidimensionalidade, pressuposto para a utilização da TRI.

Pode-se usar várias técnicas para isso, incluindo:

- a análise de componentes principais da matriz binária (o básico, tem no SPSS);

- a análise fatorial paralela (os fatores retidos são aqueles com eigenvalues maiores que a de uma matriz de números gerados randomicamente; precisa de scripts de SPSS ou programinhas específicos);

- a análise de componentes principais dos resíduos (usada no software Winsteps) e

- a análise fatorial de informação plena (full-information factor analysis), que usa correlações tetracóricas (própria pra dicotomias) e que "enxerga" o padrão de respostas como a TRI também "enxerga". Para esse tipo de análise utiliza-se o software TESTFACT.

Outra coisa que eu tenho visto é um movimento em prol da sugestão de Lord para deteção de uma tal de "unidimensionalidade essencial": se a diferença entre o primeiro e o segundo eigenvalue for muito maior (quanto?) que a diferença entre o segundo e o terceiro eigenvalue, a "unidimensionalidade essencial" estaria garantida.

O chato é que se você usar os outros métodos, pode haver divergência em prol da determinação da existência de mais do que uma dimensão no seu instrumento de avaliação.

Só fazendo pra saber.

domingo, 18 de março de 2012

Gostaria de saber a diferença das correlações de Spearman e Kandall? Quando posso usar uma ou outra? Além disso, se tenho dados com distribuição normal e dados que não apresentam distribuição normal, posso fazer algum tipo de correlação?

Dentre os tipos de correlações utilizadas destaca-se a clássica correlação de Pearson (entre duas variáveis contínuas), que é um teste paramétrico.

A correlação de Spearman (ou rho) é uma correlação de "rankings" ou "postos", e por isso é um teste não-paramétrico, isto é: não exige nenhum pressuposto de distribuição normal e pode ser utilizado para variáveis ordinais. Quando a relação entre as variáveis não é linear, mas uma função monotônica, Spearman pode resultar num coeficiente maior que a correlação de Pearson. Isto é bom, mas o lado ruim é que o coeficiente de correlação de Spearman é menos sensível a "outliers" (casos distantes da curva).

A correlação de Kendall (ou tau) vai na mesma linha não-paramétrica da correlação de Spearman, ao ser uma correlação de "rankings". A vantagem de usar o Kendall, segundo os estatísticos, é ter uma estrutura algebraica mais simples e uma interpretação mais universalizável. A desvantagem: ser sensível demais ao número de observações pequeno quando usada como medida de associação entre variáveis, resultando em coeficientes menores.

Na prática use Pearson sempre que possível.
Se houver um desvio muito grande da normalidade ou heterocedasticidade, ou ainda se você tiver variáveis ordinais, escolha Kendall ou Spearman. Kendall tem mais sustentação teórica e você deverá preferí-lo se o N for adequado. Spearman costuma resultar em coeficientes maiores, contudo, especialmente se o N for pequeno.

Há ainda a correlação ponto-bisserial (generalização da correlação de Pearson para quando uma das variáveis é dicotômica), a correlação bisserial (estimativa da correlação de Pearson quando uma das variáveis é artificialmente dicotomizada), a correlação phi (quando as duas variáveis são genuinamente dicotômicas) e a correlação tetracórica (duas variáveis contínuas com distribuição normal artificialmente dicotomizadas).

Escolha a sua!
Related Posts Plugin for WordPress, Blogger...