[MÚSICA] Na aula passada, falamos da abordagem estrutural. Nesta aula, discutiremos outro tipo de abordagem, sem necessariamente impor um modelo teórico. Na abordagem reduzida, o nosso interesse é responder uma pergunta específica sobre a relação entre duas variáveis aleatórias. Por exemplo, suponha que estejamos interessados em avaliar o efeito do uso de fertilizantes sobre a produtividade agrícola. Vamos identificar fertilizantes por "x" e a produtividade agrícola por "y". Essa é uma pergunta que interessa aos agricultores, que querem entender se o uso de uma técnica compensa os seus custos. Então, na abordagem reduzida não necessariamente temos um modelo teórico por trás dessa decisão dos agricultores. Idealmente, o efeito do uso de fertilizantes seria calculado pela diferença entre a produtividade agrícola da área com a adoção do fertilizante, a qual estamos identificando na figura por "y1", e aquela da área sem a adoção, a qual identificamos por "y0". Então o efeito exato seria "y1" menos "y0". O grande problema disso é que não conseguimos observar uma mesma área na situação de receber e de não receber os fertilizantes. Esse problema é conhecido por problema fundamental da inferência causal, ou problema de dados faltantes, porque sempre observaremos apenas uma das situações. Então, para fazermos essa comparação, temos que controlar pelos outros fatores que afetam a produtividade da terra, como, por exemplo, o uso de outros insumos, mão de obra, qualidade da terra, condições climáticas e várias outras variáveis. O intuito é comparar pedaços de terras que sejam similares e que difiram apenas no uso de fertilizantes. Isso é o que chamamos, em economia, de uma análise "ceteris paribus", ou seja: mantendo todos os demais fatores constantes, qual é o efeito do uso de fertilizantes? No nosso exemplo, para aplicar uma intervenção (que seria a aplicação do fertilizante), teríamos que escolher unidades que receberiam fertilizante e lotes e áreas que não receberiam fertilizante. Idealmente, a escolha dessas áreas se faria por sorteio ou por um método aleatório. Isso é conhecido como aleatorização, ou randomização, das unidades que recebem ou não a intervenção. Ao aleatorizar as unidades dos grupos que receberão ou não a intervenção em questão, é possível comparar o resultado médio desses grupos e concluir sobre o efeito da intervenção. Assim, a gente utiliza o operador esperança matemática. Matematicamente, o efeito seria esse que aparece aqui na tela. A esperança de "y1", que é a área que recebeu o uso de fertilizantes, condicional ao fato de que ela tenha recebido que é identificado por "x" igual a 1, menos a esperança de "y0", que é o resultado da área que não recebeu a adoção de fertilizantes, condicional ao fato de ela não ter recebido, o que é identificado por "x" igual a 0. Como temos aleatoriedade, um sorteio na escolha do "x", ele será independente do "y". Veremos que essa independência entre as variáveis será fundamental para conseguirmos ter o nosso tão desejado efeito causal. Como essas variáveis serão independentes, podemos escrever a esperança condicional em "x" como a esperança não condicional -- chamamos essa ideia de independência na média condicional. Então o nosso efeito médio será simplesmente a comparação de médias entre as duas áreas. Esse método permite que estimemos o impacto da adoção de fertilizantes sobre a produtividade agrícola independentemente dos outros fatores e insumos que, como vimos, também eram importantes para explicar a produção agrícola. Veremos agora outro exemplo, relacionado ao Programa Saúde da Família. A saúde da família é um dos principais focos do Sistema Único de Saúde, o SUS. As unidades básicas de saúde oferecem serviços com médicos, enfermeiros e agentes comunitários de saúde, além de dentistas e outros profissionais, para todas as famílias cadastradas na unidade de Saúde da Família. Utilizaremos dados da Pesquisa Nacional de Saúde, que foi feita em 2013 pelo IBGE, e compararemos as resposta dos entrevistados sobre a avaliação da própria saúde. As pessoas atribuíram notas de 1 a 5, em que 1 reflete uma saúde muito boa, e 5, uma saúde muito ruim. Podemos ver aqui na tabela que as pessoas cadastradas no Programa Saúde da Família apresentam um estado de saúde, em média, pior do que as pessoas não cadastradas. Note que a gente estamos usando dados observados e não dados experimentais para fazer essa comparação. Quando fazemos um teste de diferença de médias, percebemos que essa diferença é significante estatisticamente. E a diferença é da ordem de 0,18 unidade. O grande problema, aqui, é que há correlação positiva entre um estado de saúde pior e a participação no programa, mas isso não faz muito sentido. Se interpretássemos esse efeito como causal, diríamos, então, que o programa está causando uma piora na saúde das pessoas. Mas não podemos inferir causalidade sobre essas diferenças, porque não estamos considerando todos os outros fatores que influenciam a saúde das pessoas; então essa relação positiva é considerada uma correlação e não uma causalidade entre as variáveis. Um dos argumentos principais é de que as pessoas que fazem parte do programa da saúde já têm, em média, uma saúde pior do que as pessoas que não fazem parte dele. Isso porque elas podem procurar as unidades de saúde quando estão num estado de saúde mais vulnerável. Esse problema é conhecido por problema de viés de seleção. Isso porque as pessoas que vão até a unidade de saúde já estão mais propensas a necessitar de atendimento de saúde do que as pessoas que não procuram. Bom, se fosse possível desenhar um experimento para analisar esse problema, os cadastrados no programa seriam escolhidos com base em um sorteio, sem que a necessidade do cadastro no programa, por conta das condições de saúde das pessoas, influenciasse na participação. Em termos de avaliação desse programa e de obtenção de efeito causal, vimos que essa análise seria a mais desejável. Mas existem algumas dificuldades em implementar uma aleatorização de um programa para fazer a sua avaliação, principalmente quando envolve questões relacionadas à saúde ou a questões sociais dos indivíduos. Voltando, então, à análise econométrica usando experimentos. O uso de experimentos em economia ganhou destaque maior no final dos anos 1990 e o começo dos 2000, apesar de os primeiros experimentos terem sido realizados em 1919 por Ronald Fisher justamente para avaliar a eficácia de técnicas agrícolas sobre a produção agrícola. O uso de experimentos em economia é conhecido por "Regra de Ouro" entre os métodos de avaliação de impacto de uma política, ou de uma variável "x", numa variável "y". Isso porque ele soluciona vários problemas econométricos que influenciam na obtenção de efeito causal, como vimos no exemplo do Programa Saúde da Família. Mas, mesmo assim, muitos autores criticam o uso de experimentos, devido às dificuldades em sua implementação. Um dos problemas de implementação dos experimentos é o que chamamos de cumprimento parcial, ou, em inglês, "partial compliance". Isso porque muito dos indivíduos sorteados não comparecem para receber aquela intervenção, ou muitos dos indivíduos que não foram sorteados acabam recebendo a intervenção por conta de uma série de motivos. Outro problema é o que a gente chama de contágio, ou "spillover". Imagine um experimento em que se distribuam, por exemplo, vermífugos para crianças em determinadas escolas. Como o vermífugo combate doenças infecciosas, o fato de algumas crianças estarem imunizadas faz com que as crianças que não tenham sido imunizadas tenham uma MENOR probabilidade de contágio. Um terceiro problema comum na análise experimental é o que chamamos de atrito nas observações, quando perdemos determinadas informações de alguns indivíduos por diversos motivos. As etapas de uma análise empírica usando a abordagem reduzida e dados experimentais podem ser resumidas da seguinte forma: Primeiro passo: a formulação da nossa questão de interesse. Qual é o efeito da variável "x" sobre a variável "y"? Segundo passo: o desenho do experimento a partir de dados da população de interesse do estudo. O terceiro passo seria a seleção dos indivíduos dos grupos que receberão "x" e que não receberão "x". Lembre-se que essa seleção deve ser sempre aleatória. O quarto passo, então, seria a coleta de dados após a aplicação do experimento. O quinto passo é a estimação do parâmetro de impacto da intervenção no estudo, que, como vimos, pode ser simplesmente refletido por uma diferença de médias. E, por fim, fazemos testes de hipóteses sobre os parâmetros estimados no passo anterior. [MÚSICA] [MÚSICA]