Causalidade nas ciências sociais (Parte 2)

No primeiro texto dessa série, falamos sobre o conceito de causalidade e a sua “gramática”. Neste, iremos falar sobre algumas técnicas existentes na literatura para fazer inferência causal.

Dentre as várias técnicas de inferência causal, temos as seguintes:

Difference in differences

O design de difference-in-differences é uma estratégia de identificação quase experimental, da qual derivam delineamentos de pesquisa que não têm distribuição aleatória dos sujeitos pelos tratamentos, nem grupos de controle. A lógica dessa técnica é razoavelmente simples, e podemos entendê-la a partir do clássico paper de Card & Krueger (1994).

Em 1989, o Capitólio passou uma lei que aumentava o salário mínimo. Mas em decorrência do modelo federalista do país, alguns estados resolveram implementar a lei e outros não. Se quisermos conhecer os efeitos do salário mínimo sobre o emprego, o que poderíamos fazer? Poderíamos, antes de mais nada, observar a série histórica de qualquer um dos estados que aplicou tal política. Por outro lado, isso seria insuficiente, visto que não temos nada a comparar com o efeito visto, isto é, nos falta um contrafactual. A estratégia adotada por Card e Krueger foi ver as séries históricas paralelas de emprego nas redes de fast-food entre dois estados razoavelmente parecidos (Nova Jersey e Pensilvânia) e que adotaram políticas diferentes sobre salário mínimo.

Enquanto o estado da Pensilvânia manteve o salário mínimo constante, Nova Jersey o aumentou. A partir do momento que a lei é aplicada, podemos extrapolar as diferenças nas séries paralelas como a causa da política, ceteris paribus. Então, num cenário contrafactual, a diferença entre as linhas paralelas se preservaria. Todavia, qualquer desvio, tendo em vista a diferença original, representa o efeito médio estimado dos tratados. É justamente por isso que essa técnica se chama difference-in-differences (“diferença em diferenças”, também escrito como DiD). O gráfico a seguir esboça essa técnica.

Ou seja, o efeito médio estimado do tratamento é igual à diferença do resultado da série histórica do grupo de tratamento após intervenção menos a diferença das séries históricas (paralelas) entre o grupo de tratamento e o grupo de controle extrapolado para após a intervenção. Isto é,  C = B – A.

É bom ter uma noção dessa técnica para não cair na tentação de simplesmente avaliar os efeitos de uma política vendo a série histórica do sujeito que efetivamente recebeu o tratamento. Para fazer uma inferência causal robusta, precisamos comparar essa série com sua série contrafactual que não recebeu o tratamento.

Para saber mais sobre DiD e seus avanços na literatura aplicada, recomendo Roth et al. (2022).

Controle sintético

Segundo Athey & Imbens (2017, p. 9): “[a] abordagem de controle sintético […] é sem dúvida a inovação mais importante na literatura de avaliação de políticas nos últimos 15 anos.” Tais modelos foram desenvolvidos para abordar questões contrafactuais envolvendo apenas uma unidade tratada e algumas unidades de controle. Ela se tornou uma abordagem que fez uma contribuição fundamental para estudos comparativos quantitativos, sendo uma generalização simples, porém poderosa, dos métodos de difference-in-differences.

Segundo Cunningham (2020, p. 512): “Modelos de controle sintético escolhem de forma otimizada um conjunto de pesos que, quando aplicados a um grupo de unidades correspondentes, produzem um contrafactual estimado de forma otimizada para a unidade que recebeu o tratamento. Esse contrafactual, chamado de “unidade sintética”, serve para delinear o que teria acontecido com a unidade tratada agregada se o tratamento nunca tivesse ocorrido.

Além disso, de acordo com Cunningham (2020, p. 513): “O método de Abadie e Gardeazabal (2003) usa uma média ponderada de unidades no pool de doadores para modelar o contrafactual. O método baseia-se na observação de que, quando as unidades de análise são algumas unidades agregadas, uma combinação de unidades de comparação (o “controle sintético”) geralmente reproduz melhor as características de uma unidade tratada do que usar uma única unidade de comparação sozinha. A unidade de comparação, portanto, neste método, é selecionada para ser a média ponderada de todas as unidades de comparação que melhor se assemelham às características da(s) unidade(s) tratada(s) no período de pré-tratamento.

Para ser mais exato, segundo o próprio artigo de Abadie & Gardeazabal (2003, p. 116-117): “Na década de 1960, em relação a toda a Espanha, o País Basco tinha maior renda per capita, maior razão de investimento (investimento/produção), era mais densamente povoada, com maior percentual de produção industrial e mão de obra mais instruída. Como resultado, uma simples comparação do desempenho econômico do País Basco com o resto da Espanha durante os anos do terrorismo pode refletir não apenas o impacto do terrorismo, mas também outras diferenças pré-terrorismo que afetaram o crescimento econômico subsequente.”

Ou seja, para medir o efeito do terrirismo sobre o País Basco, deveria-se, segundo essa técnica, fazer o seguinte:

(i) Comparar a evolução econômica do País Basco durante a era do terrorismo com a de uma combinação ponderada de outras regiões espanholas escolhidas para se assemelhar às características do País Basco antes do terrorismo.

(ii) Conceituar essa média ponderada de outras regiões espanholas como um País Basco “sintético” sem terrorismo com o qual seria possível comparar o atual País Basco com terrorismo.

Como dito acima, os pesos são escolhidos para que o País Basco sintético se assemelhe mais ao real antes do terrorismo. Ou seja, tendo nosso grupo sintético representando nosso grupo de controle e um grupo de tratamento, segue-se o mesmo raciocínio do método diff-in-diff. Para saber mais dessa literatura e de seus avanços, recomendo Abadie (2021).

Variáveis instrumentais

IV (“Instrumental Variables“) é provavelmente a técnica mais antiga de inferência causal. Tal técnica foi desenvolvida pela primeira vez por Phillip G. Wright em seu livro “The Tariff on Animal and Vegetable Oils” (1928) em um contexto de equações simultâneas. Curiosamente, neste livro aparecem as primeiras DAGs na economia, ou path diagrams, como eram chamados os modelos gráficos desenvolvidos pelo seu filho no paper de 1921 (Wright, 1921) [Para saber mais sobre path diagrams e sua história, recomendo ler o já citado Pearl & Mackenzie (2018)].

DAG desenvolvido por Wright pai para representar as famosas curvas de oferta e demanda. Fonte: Wright, 1928, p. 315.

IV é geralmente usado quando não podemos fazer um experimento controlado, ou seja, não conseguimos atribuir aleatoriamente o tratamento às unidades, assim como quando não é possível mensurar todo confundidor. Consequentemente, é uma técnica para aprender sobre causalidade usando dados observacionais (i.e, dados não experimentais).

Para realizar a análise de variáveis instrumentais, temos que implementar 6 etapas:

  1. Observamos uma variável chamada instrumento, que é correlacionada ao resultado.
  2. Assumimos que o instrumento não possui efeito causal no resultado. A correlação está capturando o efeito de uma variável de confusão.
  3. Assumimos que o instrumento tem um efeito causal sobre o tratamento.
  4. Assumimos que o instrumento é aleatoriamente atribuído às unidades.
  5. Pela etapa 4, o efeito causal do instrumento tratado é a correlação nos dados.
  6. Como o instrumento é atribuído aleatoriamente, ele não é correlacionado com qualquer confundidor possível exceto o tratamento.

Então temos que essa variável, chamada de instrumento, é correlacionada com o resultado, mas essa correlação não é causal. Assim, ela “captura” um efeito causal de um confundidor. Todavia, o instrumento tem um efeito causal no tratamento. Talvez estejamos pegando o efeito causal do tratamento no resultado na correlação da etapa 1. Como o instrumento é atribuído aleatoriamente (etapa 4), não pode ser correlacionado com qualquer outro confundidor a não ser o tratamento. Portanto, a relação da etapa 1 só pode ser consequência do efeito causal do tratamento no resultado.

Em outras palavras, buscamos uma fonte de variação exógena no tratamento. Depois disso, isolamos apenas a parte do tratamento causada pela variação exógena. Olhamos a relação entre essa parte do tratamento e o resultado, e assim identificamos o efeito (causal) que queríamos. Para tornar mais fácil de ver, temos o seguinte DAG chamado de “o DAG canônico de IV” por Cunningham (2020):

Onde Z é o instrumento, A é a variável de tratamento, U é uma variável de confusão não observada e Y é o resultado. 

Um exemplo de uso de IV é o paper de Leigh & Schembri (2004). Os autores buscam identificar o efeito causal do consumo de cigarro sobre as habilidades físicas dos fumantes. Assim, nossa variável de tratamento é o consumo de cigarro e a variável de resultado adota o resumo do componente físico (PCS) do formulário SF-12. Para achar o efeito causal médio, foi adotado o instrumento preço dos cigarros, uma vez que ele é altamente correlacionado com o tratamento e não há razão lógica para que o instrumento esteja diretamente relacionado ao resultado além do efeito do instrumento no tratamento. Assim, utilizando as técnicas econométricas apropriadas, foi possível encontrar o efeito de fumar sobre a saúde física.

Para saber mais da literatura sobre IV, recomendo Angrist & Krueger (2001).

Regressão descontínua

Um RDD (“Regression-Discontinuity Design“) é a técnica mais robusta de inferência causal logo atrás de um experimento controlado. Seu apelo vem em grande parte na sua habilidade de convincentemente de eliminar o viés de seleção. Consequentemente, com esse procedimento somos capazes de estimar o efeito causal médio do tratamento a partir da estimação da diferença simples das médias dos resultados observados condicionado ao tratamento.

Para tornar o RDD intuitivo, faz sentido mostrar sua representação gráfica. Tal DAG foi inspirado no gráfico feito por Steiner et al. (2017):

A figura (A) representa o modelo de geração de dados para um design RD perfeitamente implementado, onde X é uma variável de atribuição contínua que determina diretamente o status do tratamento A (X → A). A atribuição é baseada em uma pontuação de corte c0, de modo que os indivíduos com pontuação abaixo do limite, X < c0, são atribuídos à condição de controle e os indivíduos com pontuação acima ou igual ao limite, X ≥ c0, são atribuídos à condição de tratamento (ou vice-versa).

Para evitar o risco de falar bobagens, eis aqui uma tradução livre de Cunningham (2020, p.242-245): “A própria variável de atribuição pode afetar independentemente o resultado através do caminho X → Y e pode até estar relacionada a um conjunto de variáveis ​​U que determinam independentemente Y. Observe no momento que o status de tratamento de uma unidade é determinado exclusivamente pela regra de atribuição. O tratamento não é determinado por U.”

Este DAG mostra claramente que a variável de atribuição X – ou o que é frequentemente chamado de “variável em execução” (“running variable”) – é um confundidor observável, pois causa A e Y. Além disso, como a variável de atribuição atribui tratamento com base em um ponto de corte, nunca somos capazes de observar unidades tanto no tratamento quanto no controle para o mesmo valor de X.

No entanto, podemos identificar efeitos causais usando RDD, que é ilustrado no gráfico limitante (B). Podemos identificar efeitos causais para aqueles sujeitos cuja pontuação está em uma vizinhança próxima em torno de algum ponto de corte c0. Especificamente, como mostraremos, o efeito causal médio para esta subpopulação é identificado como X→c0 no limite. Isso é possível porque o ponto de corte é o único ponto em que os sujeitos de tratamento e controle se sobrepõem no limite.

O corte em si não pode ser endógeno a alguma intervenção concorrente, ocorrendo exatamente no mesmo momento em que o corte está atingindo unidades na categoria de tratamento A. Essa suposição é chamada de continuidade e, formalmente, significa que os resultados potenciais esperados são contínuos no ponto de corte. Se os resultados potenciais esperados são contínuos no ponto de corte, então necessariamente exclui intervenções concorrentes ocorrendo ao mesmo tempo.

A suposição de continuidade é refletida graficamente pela ausência de uma seta de X→Y no segundo gráfico porque o corte c0 o cortou. Em c0, a variável de atribuição X não tem mais efeito direto sobre Y.”

A imagem acima representa um RDD genérico, no qual o ponto 0 do eixo X representa o ponto de corte do tratamento. A série anterior à intervenção representa o grupo controle; já a posterior, o de tratamento.

Um exemplo de RDD na prática é o paper de Brollo & Troiano (2016). No artigo, os pesquisadores são confrontados com a seguinte problemática: seriam as prefeitas menos corruptas que os prefeitos? Para responder isso, ao invés de depender de medidas de pesquisa de corrupção, foi usada uma medida objetiva de irregularidades em contratos e compras governamentais com base em auditorias aleatórias das administrações locais.

Uma comparação entre municípios com uma prefeita e aqueles com um prefeito provavelmente gerará estimativas enviesadas devido a questões de endogeneidade. Por exemplo, as decisões políticas podem ser correlacionadas com características específicas do município, como atitudes em relação às mulheres, ou características demográficas, que também podem influenciar o gênero do prefeito local. Porém, os pesquisadores estavam interessados ​​em estimar a diferença no resultado potencial em corridas de gêneros mistos. Mas é impossível conhecer as políticas cujas cidades com prefeita mulher teria adotado com um prefeito homem. A intuição da estratégia de identificação é que cidades em que uma mulher venceu um homem por uma margem estreita pode ser um bom contrafactual para aqueles lugares em que ocorreu o oposto. Nesse cenário, a identificação parte do pressuposto de que, em disputas acirradas, fatores aleatórios são cruciais para decidir as eleições. Portanto, a probabilidade de ganhar é a mesma para candidatos do sexo feminino e masculino. Para ler mais sobre RDD, recomendo Lee & Lemieux (2010).

Conclusão

Após essa breve introdução às diversas técnicas de inferência causal, conclui-se que mesmo tendo em vista diversas maneiras de abordar o problema da causa e efeito, no fundo, tudo o que queremos resolver é o problema fundamental da inferência causal. Espero que, com esse texto, eu tenha causado curiosidade nos leitores para que eles se aprofundem cada vez mais nesse fascinante mundo da causalidade. Até a próxima.

Referências

Card, David, and Alan B. Krueger. “Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania.” American Economic Review 84.4 (1994): 772-93.

Roth, Jonathan, et al. “What’s Trending in Difference-in-Differences? A Synthesis of the Recent Econometrics Literature.” arXiv preprint arXiv:2201.01194 (2022).

Abadie, Alberto, and Javier Gardeazabal. “The economic costs of conflict: A case study of the Basque Country.” American economic review 93.1 (2003): 113-132.

Abadie, Alberto. “Using synthetic controls: Feasibility, data requirements, and methodological aspects.” Journal of Economic Literature 59.2 (2021): 391-425.

Wright, Philip G. Tariff on animal and vegetable oils. Macmillan Company, New York, 1928.

Wright, Sewall. “Systems of mating. I. The biometric relations between parent and offspring.” Genetics 6.2 (1921): 111.

Pearl, Judea, and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018.

Cunningham, Scott. “Causal Inference.” The Mixtape 1 (2020).

Leigh, J. Paul, and Michael Schembri. “Instrumental variables technique: cigarette price provided better estimate of effects  of smoking on SF-12.” Journal of clinical epidemiology 57.3 (2004): 284-293.

Angrist, Joshua D., and Alan B. Krueger. “Instrumental variables and the search for identification: From supply and demand to natural experiments.” Journal of Economic perspectives 15.4 (2001): 69-85.

Steiner, Peter M., et al. “Graphical models for quasi-experimental designs.” Sociological methods & research 46.2 (2017): 155-188.

Brollo, Fernanda, and Ugo Troiano. “What happens when a woman wins an election? Evidence from close races in Brazil.” Journal of Development Economics 122 (2016): 28-45.

Lee, David S., and Thomas Lemieux. “Regression discontinuity designs in economics.” Journal of economic literature 48.2 (2010): 281-355.

Collischon, Matthias. “Methods to Estimate Causal Effects-An Overview on IV, DiD and RDD and a Guide on How to Apply them in Practice.” (2021).

Abadie, Alberto, and Matias D. Cattaneo. “Econometric methods for program evaluation.” Annual Review of Economics 10 (2018): 465-503.

Athey, Susan, and Guido W. Imbens. “The state of applied econometrics: Causality and policy evaluation.” Journal of Economic Perspectives 31.2 (2017): 3-32.

.

Leia também:
Causalidade nas ciências sociais (Parte 1)
O cientista e o apologeta
Por que a análise empírica é importante na ciência econômica?
Desmistificando falácias: sobre homo economicus, racionalidade e egoísmo

Deixe um comentário

Seu endereço de e-mail não ficará público