Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

segunda-feira, 22 de agosto de 2011

O que é e pra que serve a análise multinível?




Da mesma forma que a modelagem de equações estruturais, a análise de regressão multinível tem, na prática, diversos sinônimos na literatura. Entre as denominações também empregadas, pode-se citar "modelo hierárquico linear", "modelo de coeficiente randômico", "modelo de componente da variância", "modelo multinível", "análise contextual" (!?) e "modelo linear misto". O termo mais consagrado é simplesmente análise multinível.

Esses nomes ajudam a entender do que se trata a análise multinível.
Trata-se de uma evolução da utilização das equações de regressão linear, e lá vai o exemplo básico:

y = a + bx + erro (ou resíduo).

Vamos supor que você quer fazer um estudo avaliando a relação entre QI de estudantes do ensino básico e a nota escolar média no ano anterior. Vamos supor que haja uma correlação moderadamente positiva significativa entre essas duas variáveis. Isto quer dizer que há uma relação de linearidade entre essas duas variáveis e que esse elevado grau de correlação permite transformar a relação entre as duas variáveis em uma equação como a exposta acima.

Agora que entra a parte "multinível" da história.

O estudo tinha caráter nacional e você selecionou aleatoriamente dados coletados de 2000 estudantes de 200 classes de 40 escolas, sendo 20 públicas e 20 particulares, em 20 cidades de 5 estados brasileiros.

A visualização desse modelo supracitado pode ser realizada no gráfico abaixo.

Impossível não se questionar se essas variáveis "classe", "escola", "cidade", "estado" e "tipo de escola", não exerceriam alguma influência sobre a relação entre QI e nota média na escola.

Se essas variáveis ficam de fora, os dados ficam "desagregados" de seus vínculos hierárquicos e, com isso, aumenta-se a probabilidade da relação entre QI e nota média ter um nível de significância maior que o real, o que viola o pressuposto da independência.

Outra violação comum dos pressupostos consiste nas amostras não-aleatórias, e sim "de conveniência", no intuito de aproveitar o maior número possível de participantes no estudo. Esse procedimento, que aumenta o número de observações, pode exacerbar de forma indevida a significância de uma correlação, por exemplo, e consequentemente interferir no coeficiente de uma eventual equação de regressão. Por isso muitos tendem a usar estatística bayesiana ao invés do método ainda hegemônico denominado "frequentista" (ou "aquele que testa a hipótese nula"), mas isso já é história pra outro post...

Dentre os pressupostos da regressão linear "normal", estão justamente a independência e a aleatoriedade dos dados. A aleatorização é um procedimento de fácil de realização, mas como controlar a dependência se há a necessidade de grandes amostras justamente para que a aleatorização seja possível? Pois é a análise multinível que permite controlar o grau de dependência a variáveis de diferentes níveis hierárquicos e suas interações.

Além disso, o modelo permite a regressão diferenciada de dados longitudinais, ou seja, coletados ao longo do tempo. Já penso nos trabalhos de validade preditiva por regressão multinível que devo fazer com os escores do teste de progresso (o TPI da Medicina da UNICID, por exemplo) que já são equalizados pela teoria de resposta ao item.

Além disso, é possível fazer a análise longitudinal e multinível ao mesmo tempo (cross-classified data), que permite controlar, por exemplo, as mudanças de turmas dos alunos.

Em termos matemáticos, vou usar um exemplo boboca, mas com apelo para a audiência não desistir.

Um estudo holandês com dados de 2000 estudantes de 100 classes explorou a relação entre a popularidade dos estudantes entre os colegas (pois é, "popularidade", humpf!) , mensurada por meio de um questionário dirigido aos próprios colegas, o sexo, e o tempo em anos de experiência profissional do docente.

O problema é que a variável "tempo de experiência docente" é uma variável hierarquicamente superior ao sexo do estudante, pois está atrelada ao nível das turmas e não ao nível das pessoas.

Como proceder? Análise multinível!

Passo a passo, devemos começar com o nível das pessoas. E nesse nível a variável que temos é o sexo. Em regressão é comum utilizarmos a notação binária de zeros e uns para variáveis dicotômicas (isto é, com apenas duas categorias). Vamos colocar meninos com zero (0) e meninas com um (1). Assim podemos quantificar melhor a influência da variável sexo na análise.

Escrevendo a equação de regressão de primeiro nível entre popularidade e sexo:

popularidade = constante + (coeficiente x sexo) + erro

É comum o uso de uma profusão de letras gregas, começando pelo beta, mas nem vou começar a colocá-las aqui pra não assustar vocês... O importante agora é visualizar a equação de primeiro nível e gravá-la bem na cabeça.

A constante é o valor médio da popularidade quando o sexo for igual a "zero" (isto é, menino).

O coeficiente de regressão é quanto aumenta na variável predita (ou dependente), com a mudança de uma unidade da variável preditora (ou independente). Pode-se padronizar o coeficiente de regressão para que ele perca sua unidade de medida.

O erro, ou resíduo, é a diferença entre o valor predito pela equação e o observado.

Pois bem. Agora vamos analisar o segundo nível.
E para isso, o próximo passo é adicionar a variável de segundo nível "tempo de experiência do docente".

Os softwares fazem a equação de regressão para cada classe (exemplo de segundo nível) e analisam a introdução desse segundo nível (que pode ter mais de uma variável) em termos de variância dos valores encontrados para as N constantes e para os N coeficientes das N equações das N turmas estudadas. Isto é, o software descreve quanto de dispersão houve nos valores de constantes (interceptos) e coeficientes de regressão.

Em termos matemáticos, pode-se dizer que na fórmula abaixo

popularidade = constante + (coeficiente x sexo) + erro

ou

y = a + bx + erro

tanto a constante quanto o coeficiente podem ser "modulados" por outra(s) variável(is) de outro(s) nível(is).

Supondo apenas uma variável de um segundo nível, o "tempo de experiência":

constante da popularidade = constante de segundo nível + (coeficiente do segundo nível x tempo de experiência) + erro do segundo nível

ou a = y00 + y01Z + e0

coeficiente de regressão da popularidade = outra constante de segundo nível + (outro coeficiente do segundo nível x tempo de experiência) + outro erro de segundo nível

ou b = y10 + y11Z + e1

Transpondo tudo para uma só equação fica assim:

popularidade = y00 + y01 x (tempo de experiência) + (y10 x sexo) + (y11 x tempo de experiência x sexo) + e0 + e1 + erro de primeiro nível

Claro que parece difícil numa primeira leitura, mas quando você se dá conta, tudo consiste nas boas operações básicas de soma e multiplicação.

Imagine o poder computacional atual, que consegue estimar os parâmetros de equações como essa, mas com números praticamente infinitos de variáveis e níveis...

Os softwares que mais facilitam essas tarefas são o HLM e o MLWin. Dá pra fazer com o MPlus também.

Um UPDATE importante: como a análise multinível é literalmente uma regressão dentro da outra, é necessário um N de pelo menos 70 a 80 no segundo nível para que possa se fazer uma regressão. Afinal, esse já é o N mínimo de uma regressão de nível único. Isto quer dizer que se eu tiver 640 salas de aula no segundo nível e 80 escolas no terceiro nível, DEVE-SE usar a análise de regressão multinível. Se os níveis superiores tiverem N menor que 70 a 80, você poderia até ignorar os níveis superiores, embora alguns modelos de mistura (mixture models) aceitem bem um número pequeno de grupos. Isto quer dizer que os exemplos que eu dei acima tem um N insuficiente. Sim. Teríamos que ignorar o nível "tipo da escola" e o nível "estado". Continuaríamos apenas com o nível "cidades" e ter pelo menos 80 cidades. Poderíamos acrescentar níveis inferiores à cidade, como "sala de aula" no segundo nível  e "escola" no terceiro nível. No quarto nível ficariam "cidades", mas nesse caso precisaria ter ainda mais pessoas no primeiro nível.

Obviamente que este texto é só uma introdução ao tema... Não falamos de coisas importantes como centrar os dados em torno do zero ou a verificação da significância da diferença dos parâmetros que justifique o uso de uma análise multinível.

Mas nem pretendo usar o blog pra entrar nesses detalhes. Esse post foi só pra desmistificar um pouco o método, que parece obscurantíssimo à primeira audição de seu nome, mas é bem sussa, como vocês puderam ler aqui...

Em suma: a ideia é usar as análises multinível para minimizar a inapropriada inflação de significâncias e mensurar o grau das relações entre variáveis de vários níveis, especialmente em estudos com N elevado, onde as pessoas são recrutadas de muitos lugares diferentes. No caso da relação entre QI e notas, mediríamos o quanto a sala de aula, a escola e a cidade são capazes de interferir nessa relação.

Honestamente, para o que eu preciso, sou muito mais usar a modelagem de equações estruturais multinível. Daí sim, hein! Mas isso é assunto pra outro post.

Abs,

CFC









Related Posts Plugin for WordPress, Blogger...