Correlação não é causalidade. Mas por quê?

Provavelmente você já deve ter visto a frase “correlação não implica causalidade”. É um mantra que qualquer estudante de estatística, em qualquer nível (ensino médio, graduação ou pós), teve de repetir em algum momento, até ficar cristalizado mesmo que sem um entendimento claro dos dois termos.

Então, vamos decompor os termos:

Uma correlação mostra o grau de associação linear entre duas, e apenas duas, variáveis e tem o seu valor variando entre -1 a 1, onde -1 é uma relação inversa perfeitamente linear, 0 um relação linear inexistente, e 1 uma relação perfeitamente linear e positiva entre as variáveis.

Ou seja, essencialmente estamos analisando o grau de associação entre duas variáveis. Então a correlação é, apenas, olhar como os dados andam juntos, sem questionar a razão. O objetivo final é a identificação, ou não, de uma “causa comum” que acarrete em associação estatística.

*Fórmula de Correlação (de Pearson) entre as variáveis X e Y.*

Sumário

Recordando alguns conceitos

Tendo em vista a fórmula de Correlação de Pearson, vamos lembrar dos termos a ela associados. Seja μ o valor esperado (a média) da variável aleatória X com densidade f(x), i.e, é o primeiro momento da distribuição de X, considerando uma variável contínua, definido como:

Seja σ o desvio padrão de X definido como (novamente, considerando uma variável contínua):

Causalidade é um termo complicado de se definir, pois, durante muitos anos, foi uma mera questão metafísica e qualquer definição mais científica implicava em adotar um paradigma específico. A literatura filosófica adotou provisoriamente a definição do filósofo escocês David Hume como guia para dar sentido a causalidade:

“Podemos definir uma causa como sendo um objeto seguido por outro, e onde todos os objetos, semelhantes ao primeiro, são seguidos por objetos semelhantes ao segundo. Ou, em outras palavras, onde, se o primeiro objeto não tivesse sido, o segundo nunca existiria.”

Em outro texto, discutimos como dessa definição podemos achar, na verdade, duas definições. Por ora, só o que nos importa é que a literatura de inferência causal tem privilegiado a teoria contrafactual de causalidade. Antes de uma definição um pouco formal é preciso de uma intuição sobre contrafactuais.

Imagine o contrafactual como um mundo paralelo onde tudo está constante menos a nossa variável de interesse. Por exemplo, na hipótese do uso de aspirina para curar uma dor de cabeça, o contrafactual seria a abstinência. O famoso “efeito causal” de que falam é medido pela diferença entre o resultado observado contra seu contrafactual. Isso é a causalidade por inferência causal.

Sendo um pouco mais formal, se adotarmos o modelo Neyman-Rubin (ou modelo de Resultados Potenciais), admitimos que, antes do tratamento – por exemplo tomar aspirina, ou não -, o agente tem dois resultados potenciais.

Pensamos em apenas dois resultados potenciais não só por uma questão de praticidade, mas porque o tratamento é binário. Ou seja, você recebe aspirina (A = 1) ou não recebe aspirina (A = 0).

Resultado observado ( $Y$ ) e os resultados potenciais ( $Y^1$ e $Y^0$ ).

Assim, podemos ir para uma definição. Lembrando que Y é o resultado observado após a atribuição do tratamento, que se iguala ao seu resultado potencial. De uma maneira resumida, um resultado potencial somente se realiza quando o outro vira um resultado contrafactual. E vice-versa.

Definição: O efeito causal ou efeito de tratamento (TE) para o indivíduo i é:

Note que causalidade é definida (neste modelo) em termos dos resultados potenciais.

Mas para termos de pesquisa, simplesmente não é possível achar o TE para indivíduo i, mas o efeito causal médio de uma população ou subpopulação de interesse, por isso:

Definição: O efeito causal médio ou efeito de tratamento médio (ATE) é:

Esta fórmula, com algumas hipóteses, pode ser derivada a partir dos dados observados. Para saber mais como, recomendo esse texto.

Agora, se escolhemos uma outra modelagem para inferência causal, como por exemplo os Modelos Causais Estruturais (SCM), definimos causalidade da seguinte maneira:

Definição: variável X é uma causa direta da variável Y se X aparece na função que atribui valor a Y. Assim, X é a causa de Y se é uma causa direta de Y, ou qualquer causa de Y.

Agora, tendo visto as definições, podemos seguir adiante com a nossa intuição. De forma sumarizada, a correlação não capta mais do que a oscilação das chamadas ‘variáveis de interesse’, ao passo que a causalidade, por sua vez, nos fala sobre as mais profundas estruturas da realidade, que liga as variáveis e explicam porque variam na sequência temporal que achamos nos dados.

Correlação é um fato objetivo do mundo, enquanto Causalidade é uma história que contamos para explicar esse fato. A primeira é foto, a segunda, filme. O processo científico consiste, em última análise, no instrumento pelo qual os pesquisadores buscam entender o porquê das coisas, e não apenas uma ferramenta por intermédio da qual tateamos algumas facetas da realidade.

Dito isso, nos deparamos com três situações essenciais ao estudo e tratamento dos dados. Podemos ter diante de nós não apenas situações onde a correlação está acompanhada de nexo causal, mas, também, de correlações sem causalidade e, até mesmo, causalidade sem correlação. Vamos aprofundar a discussão.

Correlação sem causalidade

Esse é um fenômeno mais simples de se achar. Podemos representá-lo pelo seguinte DAG (para saber mais sobre DAGs, recomendo esse texto):

Um exemplo seria o seguinte: um pesquisador encontrou uma forte correlação entre uso de shorts e consumo de sorvetes. Estaria o consumo de sorvetes causando o uso de shorts, ou o contrário? É evidente que nenhuma das duas coisas. Pelo nosso conhecimento provisório de como o mundo funciona, temos ciência de que há uma terceira variável que estamos ignorando. Em outras palavras, tem uma terceira variável que está causando essas duas outras. Essa variável ignorada provavelmente associa-se à chegada do verão, pois com o calor as pessoas usam shorts e tomam sorvetes.

Outro exemplo é a seguinte imagem:

O gráfico associa os gastos do governo em ciência, espaço e tecnologia a suicídios por enforcamento, estrangulamento e sufocamento. Perceba que o grau de associação entre uma coisa e outra é extremamente forte. Mas, novamente, achar que uma coisa causa a outra é um absurdo condicionado pelo nosso conhecimento provisório e prévio do mundo.

Para saber mais sobre porque correlação não implica causalidade recomendo o esse texto.

Correlação e causalidade

Essa relação é razoavelmente trivial, pois na maioria dos casos nos quais estabelecemos uma relação causal entre a variável de tratamento (A) e a variável resposta (Y), espera-se que exista uma associação entre ambas. Seria um exemplo do simples DAG a seguir:

Como assumimos esse ser o nosso modelo do mundo entre as duas variáveis, presumimos a inexistência de efeito que distorça nossa associação. É somente nesse caso que correlação implica causalidade. Portanto, nesse caso, o “mantra” está errado. Mas temos ótimos motivos para acreditar que esse modelo não representa muitos eventos no mundo. Quase sempre há uma covariada, um confundimento atrapalhando nossa pesquisa empírica. Todavia, com inferência causal, temos técnicas para bloquear esse viés e descobrir o efeito puro entre tratamento e resposta.

Causalidade sem correlação

Segue a tradução de um trecho de Cunningham (2020, p. 7–8): “Quando o galo canta, o sol logo depois nasce, mas sabemos que o galo não fez o sol nascer. Se o galo tivesse sido comido pelo gato do fazendeiro, o sol ainda teria nascido. No entanto, muitas vezes as pessoas cometem esse tipo de erro ao interpretar ingenuamente correlações simples”.

Mas, estranhamente, às vezes há relações causais onde não há nenhuma correlação observável. Como isso é possível? Considere este exemplo, que é ilustrado na figura acima. Um marinheiro que, em mar aberto, gira o leme do barco pelo qual navega com vistas a compensar o vento que o empurra não mantém a embarcação em linha reta a despeito de sua intervenção, mas por causa dela.

É curioso, mas a incapacidade de um observador externo identificar a relação entre uma coisa e outra não implica em sua ausência. Como ensina Carl Sagan, a ausência de evidência não implica evidência de ausência. Por hipótese, suponhamos que, em vez de contrariar o vento, o marinheiro definisse as suas ações sobre o leme a partir do lançamento de uma moeda. O que nosso observador externo enxergaria se o curso do navio fosse determinado pela sorte? É provável que visse a barca ziguezagueando pelo mar, não? A questão é: como ele percebe a relação entre leme e navio quando este é guiado pela aleatoriedade de uma moeda, mas não constata quaisquer relações de causa e efeito no outro caso?

Tem muitos jeitos de se responder a essa pergunta, mas, em resumo, tudo está relacionado à endogeneidade do movimento do marinheiro. Ao mover o leme de maneira endógena, a resposta àquele vento impassível de observação externa anula, do ângulo do espectador, a relação causal entre o barco e seu leme – mesmo que, entre eles, haja evidente relação sobre o curso dos acontecimentos.

Parece um exemplo bobo, mas o conceito empregado tem aplicação a diversos casos cotidianos. Considere, por exemplo, um banco central lendo folhas de chá para discernir quando uma onda recessiva está se formando. Vendo evidências de que uma recessão está surgindo, a autoridade monetária entra em operações de mercado aberto, comprando títulos e injetando liquidez na economia. Na medida em que essas ações são feitas, essas operações de mercado aberto não mostrarão qualquer relação com a produção real. Na verdade, os bancos podem se envolver em negociações agressivas para impedir uma recessão, e nós não poderíamos ver qualquer evidência de que estava funcionando, mesmo que estivesse!

Seres humanos engajados em comportamento ótimo são a principal razão pela qual as correlações quase nunca revelam relações causais. O motivo? Raramente, os seres humanos agem de modo aleatório. E é a presença de aleatoriedade que é crucial para identificar o efeito causal.

Conclusão

Espero ter mostrado que a causalidade, embora não seja tão simples quanto alguns sugerem, também não é tão difícil quanto outros a fazem parecer. É um fenômeno complicado, que demanda informação, conhecimento e técnica. Com isso em mente, espero, também, ter instigado a curiosidade dos leitores a se aprofundarem cada vez mais nesse fascinante mundo das relações estatísticas. Até a próxima.

Publicado originalmente aqui.