O que é causalidade?
Todos que tiveram algum contato com estatística já escutaram o mantra “correlação não implica causalidade”. E, de fato, não implica. Mas um aluno mais curioso, quando abre seu livro-texto de estatística, se vê órfão quando busca entender o que diabos é essa tal de causalidade. Por exemplo, no famoso livro introdutório “Estatística Básica” de Bussab & Morettin (2010), a palavra “causalidade” sequer aparece. O que é esse conceito a respeito do qual um dos desenvolvedores da estatística (o grande Karl Pearson) se debruçou ao sustentar que: “Além de fundamentos descartados como ‘matéria’ e ‘força’ existe ainda outro fetiche entre os inescrutáveis arcanos da ciência moderna, a saber, a categoria de ‘causa e efeito‘” (Pearson, 1911)?
Então, o que é causalidade? Essa é uma pergunta que, por anos, atormentou cientistas e filósofos. Por muitos séculos, esse conceito foi considerado apenas uma questão metafísica, na medida em que versa sobre um aspecto último da realidade. Consequentemente, um cientista ainda influenciado pelo anti-metafisicismo herdado dos empiristas lógicos (para quem quiser saber mais sobre esse movimento filosófico, recomendo esse texto aqui), pode ser levado apressadamente a descartar esse conceito sumariamente das ciências. Alguém poderia dizer que vivemos muito bem até agora apenas com associações, sem nenhuma necessidade do conceito de causalidade nas nossas explicações, então para que reviver essa ideia arcana e abstrata?
Ocorre que, principalmente com o trabalho de Rubin (1974), com seu modelo Neyman-Rubin, e o trabalho de Pearl (2000), com seu modelo de Structural Causal Models (SCM), a causalidade ganhou uma gramática para a qual os cientistas pudessem vencer os dogmas que, por anos, atrapalharam o progresso.
Antes de adentrarmos nos modelos, vamos prover a intuição por trás deles. Tais modelagens adotam a teoria contrafactual da causalidade, uma posição metafísica primeiramente elaborada na literatura filosófica por David Lewis em seu clássico paper “Causation” (Lewis, 1974). Antes de Lewis, a definição padrão de causalidade foi aquela provida por Hume (1748): “Podemos definir uma causa como sendo um objeto seguido por outro, e onde todos os objetos semelhantes ao primeiro são seguidos por objetos semelhantes ao segundo. Ou, em outras palavras, onde, se o primeiro objeto não tivesse existido, o segundo nunca existiria“.
Um leitor astuto perceberia que existem duas definições dentro da formulação de Hume. A primeira é a parte que diz “uma causa como sendo um objeto seguido por outro, e onde todos os objetos semelhantes ao primeiro, são seguidos por objetos semelhantes ao segundo”. Essa parte define causalidade como uma análise de regularidade, na qual existe uma lei causal em que, dadas certas condições, um objeto, ao ser instanciado por essas leis, produz um certo efeito. Durante séculos foi esta a definição que preocupou a literatura filosófica. No entanto, Lewis, em 1974, finalmente alertou a comunidade filosófica que se todas as tentativas de produzir uma filosofia da causalidade consistente foram falhas, seria melhor tentar explorar a segunda definição de Hume, que é “se o primeiro objeto não tivesse existido, o segundo nunca existiria”. É essa a teoria contrafactual da causalidade.
Para entender o que é um contrafactual, convém sua tradução para a semântica modal de mundos possíveis. Um mundo possível é uma descrição completa e consistente de como as coisas poderiam ter sido ou de como as coisas são. Uma estória é consistente se seus enunciados não implicam contradições; ou seja, se ela descreve um conjunto de situações factíveis e possivelmente concomitantes. Uma estória pode ser ou não ser verdadeira. O mundo atual é a estória que é verdadeira. Portanto, digamos que você está entre tomar a decisão A ou não-A. Digamos, ainda, que no mundo atual você tomou a decisão A. Logo, existe um mundo possível no qual você tomou não-A. O contrafactual de tomar a decisão A é decidir não-A. Para saber mais sobre essa literatura, recomendo Mortari (2001), que é uma introdução geral da lógica proposicional clássica e suas extensões, enquanto para uma introdução “mais matemática” à lógica modal recomendo Coscarelli (2008). Para uma leitura mais filosófica, recomendo Williamson (2013).
Qual é a gramática da causalidade?
Vou usar bastante a partir de agora o modelo de Resultados Potenciais sintetizado nos livros Imbens & Rubin (2015) e Angrist & Pischke (2008). Para um tratamento da abordagem SCM, recomendo Pearl (2000), Pearl et al. (2016) e Pearl & Mackenzie (2018) para uma introdução mais leve. Para uma abordagem mais geral e introdutória de ambas as abordagens, recomendo Cunningham (2020), Huntington-Klein (2021) e Morgan & Winship (2015).
Retornando ao que importa: antes de qualquer tratamento (por exemplo, tomar uma aspirina) você tem dois resultados potenciais: o resultado Y1, no qual vc tomou aspirina, e o Y0, no qual você não tomou aspirina.
Num mundo ideal, os pesquisadores pegariam uma população e clonariam todos os seus membros. Então eles fariam com que todo mundo (menos os clones) tomassem aspirina. Enquanto isso, os clones que não tomaram serviriam como grupo controle. Depois disso, faríasse a média e a diferença dos efeitos seria ser justamente o efeito causal médio. Todavia, ao tomar ou não a aspirina, um dos seus resultados potenciais se realiza. Logo, o seu resultado atual é Y = Y1 ou Y = Y0.
Num mundo ideal, na verdade, o cientista quer pegar apenas o segmento da população de interesse. Afinal, só parte dela vai tomar – a outra servirá de grupo controle. Em linha com o exemplo que demos há pouco, clonaríasse toda a população. Em benefício do expediente científico, trataríasse os originais, enquanto que os seus clones ficariam privados do medicamento. Então, tiraríasse a média dos grupos e daí se obteria o efeito causal médio de tratamento nos tratados.
Até aí, tudo certo. Porém, infelizmente nos resta um obstáculo que, embora conhecido, é muito comumente ignorado. Refiro-me ao problema fundamental da inferência causal. Resumidamente, trata-se de um desafio atinente à escassez de dados. Em outras palavras, somente um dos resultados potenciais, qualquer que seja, vai efetivamente ser realizado. Mas, quase magicamente, se consultarmos a matemática, chegamos à seguinte fórmula:
E[Y|A = 1] - E[Y|A = 0] = E[Y^{1} - Y^{0}|A = 1] + {E[Y^{0}|A = 1] - E[Y^{0}|A = 0]}
Em que Ya é o resultado que seria observado caso o tratamento seja estabelecido para A = a. Cada indivíduo tem dois resultados potenciais: Y0 e Y1. Se o tratamento foi A = 1, então o resultado contrafactual será Y0. Já se o tratamento foi A = 0, então o resultado contrafactual será Y1.
Recapitulando:
Antes do tratamento, os resultados potenciais eram Y0, Y1. Depois do tratamento, o resultado observado é Y = Ya, e o resultado contrafactual é Y1-a. Em princípio, A tem um efeito causal em Y se Y^0 \neq Y^1.
Da nossa equação, temos que:
E[Y | A=a] é a média do resultado observado condicionado ao fato de que o tratamento foi estabelecido em A = a.
E[Y^1 - Y^0| A=1] é o efeito causal médio do tratamento nos tratados.
E[Y^0 | A=1] - E[Y^0 | A=0] é o viés de seleção.
Viés de seleção: segundo Delgado-Rodriguez & Llorca (2004, p. 631) “[o] conceito de viés é a falta de validade interna ou avaliação incorreta da associação entre uma exposição e um efeito na população-alvo em que a estatística estimada tem uma expectativa que não é igual ao valor verdadeiro.”
Tendo isso em mente, viés de seleção é “[o] erro introduzido quando a população do estudo não representa a população alvo.” (Delgado-Rodriguez & Llorca, 2004, p. 631).
Segundo Heckman (1990, p. 201): “O problema do viés de seleção nas estatísticas econômicas e sociais surge quando uma regra diferente da amostragem aleatória simples é usada para amostrar a população subjacente que é o objeto de interesse. A representação distorcida de uma população verdadeira como consequência de uma regra de amostragem é a essência do problema de seleção. As regras de seleção distorcidas podem ser o resultado de decisões de estatísticos de pesquisa por amostragem, decisões de auto-seleção dos agentes estudados ou ambos.”
Então para que a diferença dos valores que os pesquisadores efetivamente têm (entre a média do grupo de tratamento e a média do grupo de controle) seja o efeito causal médio, basta eliminar o viés de seleção. Consequentemente, a causalidade é dar o tratamento para um grupo enquanto outro serve de controle e ver a diferença do efeito médio.
O problema disso tudo é que, por faltar dados, o pesquisador precisa usar técnicas com vistas não apenas a eliminar o viés de seleção, como, também, a aproximar os dois grupos de tal sorte que eles sejam, na média, iguais. Se conseguirmos fazer experimentos, então a randomização (física) é nossa amiga. Se não conseguirmos, temos problemas.
Mas não há por que entrar em pânico. Antes de entrarmos em possíveis soluções ao problema da inferência causal em cenários não experimentais, precisamos discorrer um pouco mais profundamente sobre o modelo Neyman-Rubin. Quando trabalhamos com o modelo dos resultados potenciais, para que a matemática funcione, desejamos enxergar a viabilidade de algumas hipóteses. Infelizmente, entretanto, essas hipóteses não são testáveis. Não nos importa, neste momento, explicar todas as hipóteses causais, mas vale, é certo, destacar a hipótese da ignorabilidade.
Tal hipótese nos diz que, dadas as covariáveis X pré-tratamento, a atribuição de tratamento é independente dos resultados potenciais. Ou seja, entre as pessoas com o mesmo valor de X, podemos pensar o tratamento A como sendo atribuído aleatoriamente.
Isto é relevante pois num cenário não-experimental (ou seja, no qual o pesquisador não pode aleatorizar a atribuição do tratamento) é necessário controlar por variáveis de confusão (confounding) nas variáveis de interesse. Informalmente, um confounding é uma variável que afeta tanto o tratamento quanto o controle. Nesse caso, controlamos por confoundings justamente para preservar a hipótese da ignorabilidade. Entender esse conceito fica mais fácil por intermédio de um “DAG”.
“DAGs”, ou grafos direcionadas acíclicos, são representações de um modelo causal, ou seja, são gráficos causais. Um exemplo seria o seguinte:
Esse gráfico nos diz que A afeta (causalmente) Y.
Um confounding pode ser representado por esse simples DAG:
A variável X é um confundidor na medida que afeta a variável de interesse A e seu efeito correspondente, Y. Para tornar o gráfico ainda mais intuitivo, podemos pensar A como sendo fumar cigarro, Y como sendo câncer e X como um gene específico. Ou seja, nessa interpretação, A está gerando o efeito que é ter câncer, mas existe um gene que afeta a pessoa tanto a fumar quanto a ter câncer. Tendo isso em vista, o que de fato está causando o câncer é o gene ou o cigarro? (Para quem não sabe, esse DAG representa o clássico debate sobre se o cigarro causa câncer, no qual o estatístico Ronald Fisher defendeu a hipótese da genética como variável de confusão. A quem interessar, leia esse texto aqui).
A modelagem SCM coloca a teoria na frente da tola busca de dados [“data are profoundly dumb” – Pearl & Mackenzie (2018, p. 13)]. Devemos controlar pela variável de confusão X para achar o efeito causal médio entre fumar e câncer. Um jeito bem simplista de fazer isso é fazendo um pareamento entre os segmentos da população de interesse, ou seja, fazer um matching, que nada mais é que um método que busca aproximar estudos observacionais de um experimento aleatorizado. [Para quem tiver interesse em saber mais como isso é possível, recomenda-se Stuart (2010)].
No nosso exemplo, um jeito de controlar pela variável de confusão gene é eliminar da nossa amostra os tratados e não tratados que não possuem o gene em questão. Assim, ficamos com o “efeito puro” do cigarro sobre o câncer. Desta maneira, efetivamente bloqueamos o backdoor path, que são os caminhos de A até Y que viajam pelas setas até A. No presente exemplo, A ← X → Y é um backdoor path. Ou seja, esse caminho confunde a relação entre A e Y. Por isso, precisa ser bloqueado. Graficamente, ao fazer o procedimento descrito, eliminamos a transmissão de informação de X até A, isto é, do gene até o fumo.
Lembre-se: para controlar suficientemente os confoundings é preciso identificar um conjunto de variáveis que bloqueiam todos os backdoor paths de tratamento até o resultado.
Técnicas como o propensity score matching [para quem tiver interesse em estudar sobre PSM, recomenda-se Heinrich et al. (2010)] nos aproximam o máximo possível de um RCT (“Randomized Control Trial” ou “Estudo Randomizado Controlado” em português). Sendo assim, transforma-se o estudo observacional em aleatorizado. Randomizá-se sem randomizar.
Finalizamos, assim, a primeira parte desta série que faremos a respeito do tema espinhoso de causalidade aplicada às ciências sociais. Acompanhe o nosso site para ficar por dentro dos próximos textos da série.
Referências
Bussab, Wilton de O., and Pedro A. Morettin. “Estatística básica.” Estatística básica. 2010. xvi-540.
Pearson, Karl. “The Grammar of Science, 3rd.” London, England: A. and C. Black 153 (1911).
Rubin, Donald B. “Estimating causal effects of treatments in randomized and nonrandomized studies.” Journal of educational Psychology 66.5 (1974): 688.
Pearl, Judea. “Causality: Models, reasoning, and inference.” (2000).
Lewis, David. “Causation.” The journal of philosophy 70.17 (1974): 556-567.
Hume, David. “An enquiry concerning human understanding.” (1748).
Mortari, Cezar A. Introdução à lógica. Unesp, 2001.
Coscarelli, Bruno Costa. Introdução à Lógica Modal. Diss. Universidade de São Paulo, 2008.
Williamson, Timothy. Modal logic as metaphysics. Oxford University Press, 2013.
Imbens, Guido W., and Donald B. Rubin. Causal inference in statistics, social, and biomedical sciences. Cambridge University Press, 2015.
Angrist, Joshua D., and Jörn-Steffen Pischke. Mostly harmless econometrics. Princeton university press, 2008.
Glymour, Madelyn, Judea Pearl, and Nicholas P. Jewell. Causal inference in statistics: A primer. John Wiley & Sons, 2016.
Pearl, Judea, and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018.
Cunningham, Scott. “Causal Inference.” The Mixtape 1 (2020).
Huntington-Klein, Nick. “The effect: An introduction to research design and causality.” (2021).
Morgan, Stephen L., and Christopher Winship. Counterfactuals and causal inference. Cambridge University Press, 2015.
Delgado-Rodriguez, Miguel, and Javier Llorca. “Bias.” Journal of Epidemiology & Community Health 58.8 (2004): 635-641.
Heckman, James J. “Selection bias and self-selection.” Econometrics. Palgrave Macmillan, London, 1990. 201-224.
Stuart, Elizabeth A. “Matching methods for causal inference: A review and a look forward.” Statistical science: a review journal of the Institute of Mathematical Statistics 25.1 (2010): 1.
Heinrich, Carolyn, Alessandro Maffioli, and Gonzalo Vazquez. “A primer for applying propensity-score matching.” Inter-American Development Bank (2010).
.
Leia também:
Por que a análise empírica é importante na ciência econômica?
O Paradoxo de Braess e a vacinação: quando o autointeresse torna a sociedade pior
A Revolução Marginalista – O paradoxo do diamante e da água
A filosofia da economia
Deixe um comentário