Postagem em destaque

Autoeficácia nas palavras do próprio Albert Bandura

Este artigo traduzido faz parte dos meus estudos de doutorado. Ele fornece um referencial teórico importante para estudantes e professores...

quarta-feira, 2 de fevereiro de 2011

Sobre o valor de p... Significa? Significa...

O Ronnie Von tem uma longa história artística no Brasil. Contudo, boa parte de sua fama contemporânea se deve a este vídeo no Youtube:




O telespectador está se sentindo "confuso", ou como também poderíamos dizer, "diferente".
Ele quer saber se esses sentimentos "diferentes" podem "significar" algo.

A significância de uma diferença em uma resposta à carta de um telespectador foi só um exemplo lúdico para começarmos nosso post.

Vamos aprender que a significância, ao contrário do que pode parecer pelas palavras do Ronnie Von, pode ser algo não-dicotômico (não-binário, mais complexo que simplesmente sim x não), em um espectro de graus quantificáveis de probabilidade.

Para a Medicina, bem como para as demais ciências, é fundamental o estudo estatístico das diferenças entre grupos para uma mesma variável, assim como o quanto essas diferenças encontradas na amostra estudada são generalizáveis para a população em geral.

Em Estatística, o nível de significância é definido geralmente quando o erro do tipo I (ou alfa - a chance de que a diferença tenha ocorrido devido ao acaso) é menor que 5%, ou 0,05.

Calma!

Melhor dizendo, em "estatiquês", o p é a probabilidade de se rejeitar a hipótese nula quando ela for verdadeira (ou seja, considerar diferentes dois grupos que não sejam).

Em "mediquês", seria a probabilidade de falso positivo. Daí o p menor que 0,05 ter adquirido tamanha importância.

Neste post quero explicar, contextualizar e relativizar a importância do p de forma bem-humorada, mas não sem deixar de compartilhar com você, amigo leitor, muitas das críticas correntes àquilo que eu chamo de "Cultura do p baixo" e com as quais concordo.

Valores de p menores que 0,01 significam menos de 1% de chance de que a diferença tenha ocorrido por acaso. Podemos arbitrar nosso nível de significância para esse valor ou para valores ainda menores.

Quando o valor de p é menor que 0,001 sabemos que há menos de 0,1% de chance de que a diferença tenha ocorrido ao acaso. Valores menores que 0,0001 nem precisam ser detalhados: denotam mais de 99,99% de certeza de que a diferença encontrada não foi devido ao acaso.

Considerando que os valores de significância tenham se revestido de tamanha autoridade científica, temos presenciado um viés que privilegia a publicação de artigos que encontrem diferenças significativas. Como se os estudos que não encontrassem tais diferenças não tivessem aplicabilidade ou pudessem despertar interesse.

Alguns críticos chegam a afirmar que esta busca pelo p menor que 0,05 é insana e que contribui para a falência do modelo de ciência biomédica atual. Ioannidis (2005) culmina a crítica metodológica afirmando que a maioria dos resultados das pesquisas seria simplesmente falsa.

Eu creio que Ioannidis apontou diversos problemas sérios neste artigo, porém o título soou sensacionalista. Seu trabalho mereceu, contudo, algumas citações em uma matéria da revista New Yorker, com boa repercussão nos EUA, intitulada "The truth wears off: is there something wrong with the scientific method?", onde argumentam, entre outras coisas, que o aumento da amostra ao longo do tempo acaba revelando que diferenças previamente detectadas não existiam ou existiam no sentido oposto. A matéria exemplifica tais fenômenos com os recentes fracassos da indústria farmacêutica em demonstrar por longo prazo a eficácia e a segurança de seus novos produtos.

Algo que eu gosto de criticar de forma aberta é o uso abusivo do p sem a caracterização devida do teste usado.

Resumos (abstracts) e artigos são pródigos em frases como: "A diferença dos valores de X entre os grupos A e B foi estatisticamente significante (p=0,001)."

Vamos estabelecer algumas regras práticas e básicas para descrição de seus resultados antes de prosseguirmos, OK?

Primeira coisa: traduzir "significant" como significante em português evidencia um anglicismo inadequado comumente empregado entre nós. "Significant" quer dizer significativo, considerável. Em português, a palavra significante é melhor empregada em linguística, para designar a palavra escrita ou falada, a forma linguística, que é atribuída a um significado, que pode ser um "objeto" qualquer. Por isso, dói meus ouvidos ouvir alguém falar que a "diferença encontrada foi 'significante'".

Segunda coisa: sempre que mencionar o p, espera-se que o autor-pesquisador mencione ANTES o teste empregado, o valor obtido no teste e os graus de liberdade. Por isso sempre me pergunto o que se passa na cabeça dos autores dos trabalhos que vejo com valores de p órfãos, sem as informações que deveriam precedê-los.

Era o p do quê? O p do teste t? O p do qui-quadrado? O p do Mann-Whitney? O p da ANOVA? O p do Kruskal-Wallis? O p de uma correlação? Ou o p do Jonckheere-Tersptra? Alguns artigos nem se dão ao trabalho de nos informar se as variáveis tinham o mínimo de condições para a realização de testes paramétricos (normalidade e homocedasticidade/homogeneidade de variâncias).


Abro aqui um parêntese para criticar o uso abusivo de testes paramétricos. Muitos trabalhos estudam variáveis ordinais em amostras menores que 12 para cada grupo utilizam teste t (se houver 2 grupos) ou ANOVA (se houver 3 ou mais grupos). Embora muitos colegas achem que não há nada de errado nisso, suspeito que essa seja uma liberdade metodológica grande demais para mim.

Por definição, variáveis que não sejam contínuas ou intervalares, e que tenham distribuição normal e homogeneidade de variâncias, não deveriam utilizar testes paramétricos. Tratar uma variável ordinal como intervalar ou contínua é sempre algo que suscita questionamentos: para variáveis ordinais a distância entre o 1 e o 2 pode não ser a mesma que entre o 2 e o 3, que pode não ser a mesma entre o 3 e o 4, e assim sucessivamente. O "pulo do gato" é que testes paramétricos mostram mais facilmente diferenças estatisticamente significativas.


Isso sem falar na violação do pressuposto da aleatoriedade da amostra, comumente empregado ao se usar toda uma amostra de conveniência para aumentar o N dos estudos e facilitar a obtenção do famigerado p < 0,05.

Para não me alongar muito confessarei o que mais me incomoda a respeito da valorização excessiva do p: as pessoas subestimam a possibilidade de erros do tipo II (ou erros beta, a chance de que uma diferença real exista e não seja identificada, ou dizendo em "estatiquês", a chance de não rejeitar uma hipótese nula quando ela é falsa, ou ainda em "mediquês", os "falsos negativos").

Conciliar matematicamente o binômio representado pelos erros dos tipos I e II (ou alfa e beta) não foi e não é uma tarefa fácil. Com o tempo, convencionou-se como padrão o erro tipo I admissível era 0,05 ou 5% e o erro tipo II admissível era 0,2 ou 20%. O erro tipo II define o grau de poder do teste, dado pela fórmula

Poder = 1 - erro beta (ou tipo II).

Isso quer dizer que os trabalhos científicos admitem como padrão aceitável uma probabilidade de 20% de "falsos negativos" contra uma probabilidade de 5% "de falsos positivos".

Isso pode ser bom para diversos aspectos científicos - afinal, o conceito estatístico é de que um p de 0,05 significa que, em infinitas repetições do experimento, em apenas uma a cada vinte vezes seria observada uma diferença tão grande quanto a encontrada se a hipótese nula fosse verdadeira (ou seja, se não houvesse diferença "real" entre os grupos).

O mesmo conceito se aplica para coeficientes de correlações, valores de qui-quadrado, testes t, F e etc...

Humpf, mas peraí! E essa história de hipótese nula?

Pois é. Apesar de todos os cientistas jurarem de pé junto que seus trabalhos buscam responder sua hipótese original, a estatística dita "frequentista" está, de fato, buscando aceitar ou rejeitar a hipótese contrária aquela buscada pelo investigador.

A hipótese buscada pelo cientista é também chamada de hipótese alternativa ou H1 (com o 1 em subscrito). Um exemplo de H1 típico: sal causa hipertensão. A hipótese nula ou H0 (com o zero em subscrito) seria "sal não causa hipertensão".

O valor de p menor que 0,05 rejeita a hipótese nula: a hipótese nula é falsa.

Você deve estar pensando: "tsá, mas esse negózdi hipótese nula falsa não é a mesma coisa que dizer que a hipótese do pesquisador é verdadeira?"

Para os estatísticos bayesianos, opostos aos frequentistas, não é a mesma coisa nemquiavacatussa. Mas isso é assunto pra outro post...

Na prática, a teoria é a seguinte: considera-se mais elegante dizer que "foi significativa a diferença de níveis pressóricos em relação ao consumo diário de sódio" do que dizer "sal causa hipertensão".

Todavia, como a estatística frequentista ainda possui caráter hegemônico nos trabalhos científicos, não posso deixar de considerar todos os fatores que citei acima na minha prática médica.

Avalio pessoas expostas a agentes químicos que muitas vezes não tem sua toxicidade caracterizada e reconhecida em sua totalidade mesmo após sua introdução no mercado. Nesses casos, a abordagem padrão do p menor que 0,05 tem, na minha humilde opinião, consequências catastróficas.

Inexorável e involuntariamente, os artigos que usamos para embasar nossas condutas diagnósticas e terapêuticas utilizam a metodologia estatística padrão de 80% de poder com 5% como nível de p para significância. Isso resulta numa situaçao que pode "esconder" mais do que "revelar" diferenças.

De maneira grosseira, poderíamos dizer que podem estar errados 1 em cada 5 trabalhos (20%) que não encontraram quaisquer evidências de nexo causal entre determinada substância química e determinado efeito clínico? Não sei. Talvez... Muitos discordariam, mas é possível que esta seja uma estimativa mais razoável que a de Ioannidis.

Você, assim como eu, pensa na segurança advinda da limitação da exposição a certos riscos ainda não totalmente descritos e conhecidos.

Ao mesmo tempo não querermos ser alarmados de forma desnecessária por conta de um estudo "falso positivo".

Certamente preferiríamos que a chance de erro beta aceitável como padrão também fosse de 5%, como ocorre com o erro alfa, não é mesmo?

Pois é, o problema é que isso inviabilizaria a maior parte das pesquisas, pois demandaria um aumento fabuloso no tamanho das amostras. Por isso poder estatístico e erro alfa são um binômio tão difícil de conciliar, o que ocorre também nos testes post hoc para ANOVA.

Perceba que esse conhecimento sobre Estatística permite que você seja capaz de evitar a "demonização" de valores de p maiores que 0,05 bem como lhe torna capaz de evitar o "endeusamento" dos valores de p menores que 0,05.

Afinal, como pudemos entender, o 0,06 também tem seu valor e merece muito o nosso amor! Até rimou :-)

Muitas vezes a evidência trazida pela ciência é vista como um dado inquestionável, um fato cristalizado.

Cuidado: há que se tomar cautela.

A interpretação e o uso indevidos dos dados originados a partir de estudos científicos pode prejudicar a saúde das pessoas e a preservação do ambiente.

Para saber mais sobre a relação da sociedade com os riscos representados pela tecnologia química e a função surpreendentemente paradoxal da ciência nesse processo, sugiro fortemente a leitura do meu post com trechos do livro Sociedade de Risco, do filósofo alemão Ulrich Beck, um dos primeiros posts deste blog, aliás.

E pra você que conseguiu chegar até aqui, vai aí um bônus surpresa!


Se você é um geek em estatística vai curtir, tenho certeza.


Abs,


CFC


Related Posts Plugin for WordPress, Blogger...