O que é uma regressão linear?

Sumário

Introdução

*Figura 1: Um exemplo de regressão linear de exemplo. Fonte.*

Com certeza você já viu um gráfico semelhante ao mostrado acima. Seja no noticiário, em discussão sobre política econômica ou em artigo acadêmico, deparou-se com gráfico parecido. Em que pese a frequência com que o vemos, muitos são incapazes de explicar o que está acontecendo nesta figura. O objetivo deste pequeno texto é fazer com que você entenda o que a figura 1 representa.

A regressão linear

A figura 1 mostra um gráfico de dispersão. Isto é, um conjunto de dados representados como uma série de pontos distribuídos por um sistema de coordenadas cartesianas cortadas por uma reta. Na mesma figura, é possível notar que a reta aproxima-se dos dados dispersos de modo a “se ajustar” ao seu conjunto. Ok, entendemos o que está acontecendo no gráfico. Agora, imagine que queremos prever o valor de y quando x = 20, mas esse valor não existe na nossa base de dados. O que faríamos?

Utilizaríamos a reta que corta esse conjunto de dados! Como ela é uma função linear ajustada à nossa base de dados, é só utilizarmos seus coeficientes angular e linear com x = 20 para que consigamos prever, com algum grau de certeza, o valor de y. Essa função resulta de uma regressão linear. Agora que você entendeu o processo, podemos partir para a definição formal de regressão:

“A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis, as variáveis explanatórias, visando estimar e/ou prever o valor médio (da população) da primeira em termos dos valores conhecidos ou fixados (em amostragens repetidas) das segundas.” (Econometria Básica; Gujarati, D. e Porter, D.; p. 39).

Mas por que linear? Como já vimos, regressão é meramente o processo do estudo da relação de uma variável independente (X, na figura 1) e de uma variável dependente (Y, na mesma figura). No entanto, é possível utilizar diversos tipos de funções para fins de modelagem. Uma regressão só é linear porque utiliza uma função afim para modelar essa relação. Mas há outras possibilidades.

Mas como se calcula isso?

Já entendemos o conceito de regressão linear. Agora, como a calculamos? Existem diversas maneiras de calcular quanto valem os coeficientes. Um dos métodos mais frequentes é o dos mínimos quadrados ordinários. O nome é ligeiramente assustador, mas é bem mais simples do que parece.

Primeiro, vamos entender que tipo de problema estamos encarando. Queremos uma função que se encaixe com o maior nível de precisão possível aos dados que já temos. Ou seja, queremos minimizar a diferença entre o valor calculado pela função e o valor na nossa base de dados.

*Figura 2: Representação dos erros. Fonte: Econometria Básica; Gujarati D. e Porter, D.*

Na figura 2, podemos representar a função erro como uma soma de $û_1, û_2, û_3, û_4$ , ou seja: $\sum û_i = \sum(y_i - \bar y)$ , com $\bar y$ representando o valor estimado e $y_i$ representando o valor presente na base de dados. Agora, a regressão se torna um problema relativamente simples de otimização, basta minimizar a função descrita acima.

Entretanto, há um problema nessa função: todos os erros amostrais têm o mesmo peso, sendo assim possível que, a despeito da grande dispersão, o cálculo nos retorne um valor indesejavelmente pequeno ou, até mesmo, zero. Para resolver esse problema, elevamos o erro ao quadrado. Assim, erros maiores ganham pesos maiores e os erros menores, pesos menores. Assim, a função final que desejamos minimizar é:

$\sum û_i^2 = \sum(y_i - \bar y)^2$

Conclusão

O que vimos aqui é aplicado às mais diversas áreas do conhecimento. Por exemplo, economistas utilizam a regressão linear como um método para prever gastos dos consumidores e biólogos a utilizam para relacionar o uso de tabaco à mortalidade. Além disso, a regressão linear é um dos principais algoritmos presentes no campo do machine learning, tendo um papel extremamente relevante no aprendizado supervisionado.

Em resumo, a regressão linear é um processo estatístico utilizado pelas mais diversas áreas do conhecimento pelo qual se estima a relação linear entre uma variável dependente e independente – e o principal método para o cálculo dos coeficientes da regressão é o método dos mínimos quadrados ordinários.

Referências

Visualizing regression models.

Gujarati D. e Porter, D. Econometria Básica. 2011.

“Linear Regression (Machine Learning)” (PDF). University of Pittsburgh.

Deaton, Angus (1992). Understanding Consumption. Oxford University Press.

Correlation and Simple Linear Regression.