Módulo 18: Correlação e Regressão

Analisando relações entre variáveis e fazendo previsões.

📈 Entendendo Relações e Padrões

Bem-vindo ao Módulo 18! Em Inteligência Artificial e análise de dados, frequentemente queremos entender como diferentes variáveis se relacionam. Por exemplo, a experiência de um programador está relacionada ao seu salário? O tamanho de uma casa influencia seu preço?

A correlação nos ajuda a medir a força e a direção dessa relação. A regressão vai um passo além, permitindo-nos construir um modelo para prever o valor de uma variável com base em outra.

Neste módulo, exploraremos a visualização de dados com gráficos de dispersão, calcularemos o famoso Coeficiente de Correlação de Pearson (r) e introduziremos a ideia de regressão linear simples. Essas são ferramentas fundamentais para análise exploratória e modelagem preditiva em IA.

🔗 O que é Correlação?

Medindo a associação entre duas variáveis quantitativas.

Correlação Positiva

Quando uma variável aumenta, a outra tende a aumentar também. Exemplo: Horas de estudo e nota na prova.

Correlação Negativa

Quando uma variável aumenta, a outra tende a diminuir. Exemplo: Temperatura externa e venda de casacos.

Correlação Próxima de Zero

Não há uma tendência linear clara entre as variáveis. Exemplo: Número do sapato e QI.

A melhor forma de visualizar a relação entre duas variáveis quantitativas é através de um gráfico de dispersão (scatter plot).

Gráfico de Dispersão (Scatter Plot) Mostrando Pontos Aqui

Cada ponto no gráfico representa um par de valores (um para cada variável). O padrão formado pelos pontos nos dá uma ideia visual da correlação.

Importante: Correlação NÃO implica causalidade! Só porque duas variáveis estão correlacionadas, não significa que uma causa a outra. Pode haver outros fatores envolvidos.

🔢 Coeficiente de Correlação de Pearson (r)

Quantificando a força e a direção da relação linear.

O Coeficiente de Correlação de Pearson, denotado por r, é um valor numérico que varia entre -1 e +1.

Ele mede especificamente a força da relação linear entre duas variáveis quantitativas contínuas.

Interpretando o Valor de r:

  • r = +1: Correlação linear positiva perfeita. Todos os pontos caem exatamente em uma linha reta ascendente.
  • r = -1: Correlação linear negativa perfeita. Todos os pontos caem exatamente em uma linha reta descendente.
  • r = 0: Nenhuma correlação linear. Não há tendência linear nos dados (mas pode haver outros tipos de relação!).
  • Valores próximos de +1 (e.g., 0.7 a 0.9): Correlação linear positiva forte.
  • Valores próximos de -1 (e.g., -0.7 a -0.9): Correlação linear negativa forte.
  • Valores intermediários (e.g., ±0.4 a ±0.6): Correlação linear moderada.
  • Valores próximos de 0 (e.g., ±0.1 a ±0.3): Correlação linear fraca ou inexistente.

O cálculo de r envolve as médias e desvios padrão das duas variáveis, mas geralmente usamos software (como Python com bibliotecas como `scipy` ou `pandas`) para calculá-lo.

Suposições: O Coeficiente de Pearson funciona melhor quando a relação entre as variáveis é aproximadamente linear e os dados não possuem outliers extremos.

📊 Regressão Linear Simples

Modelando a relação linear para fazer previsões.

Se encontrarmos uma correlação linear (forte ou moderada) entre duas variáveis, podemos usar a regressão linear simples para criar um modelo matemático dessa relação.

O objetivo é encontrar a linha reta que melhor se ajusta aos pontos no gráfico de dispersão.

Essa linha, chamada linha de regressão, nos permite prever o valor de uma variável (dependente, Y) com base no valor da outra variável (independente, X).

A equação da linha de regressão simples é:

Y = β₀ + β₁X + ε
  • β₀ (Beta zero): O intercepto - valor previsto de Y quando X é 0.
  • β₁ (Beta um): O coeficiente angular (inclinação) - quanto Y muda, em média, para cada unidade de aumento em X.
  • ε (Épsilon): O termo de erro (resíduo) - a diferença entre o valor real de Y e o valor previsto pela linha.
Gráfico de Dispersão com Linha de Regressão Ajustada Aqui

A linha representa o modelo que tenta capturar a tendência geral dos dados.

Assim como a correlação, a determinação dos coeficientes da regressão (β₀ e β₁) é feita computacionalmente, usando métodos como o de Mínimos Quadrados Ordinários (MQO).

💡 Aplicações em IA e Computação

Onde correlação e regressão são úteis.

Análise de Features em Machine Learning

Antes de treinar um modelo de IA, analisamos a correlação entre as variáveis de entrada (features) e a variável de saída (target).

Features altamente correlacionadas com o target são geralmente mais importantes. Também verificamos a correlação entre features (multicolinearidade), que pode afetar alguns modelos.

Modelagem Preditiva

A regressão é a base de muitos modelos preditivos.

  • Prever o preço de um imóvel com base em sua área, número de quartos, etc.
  • Estimar o tempo de entrega de um pedido com base na distância e hora do dia.
  • Prever a receita de vendas com base no investimento em marketing.

Análise de Dados Exploratória (EDA)

Gráficos de dispersão e coeficientes de correlação são ferramentas essenciais na EDA para descobrir padrões e relações ocultas nos dados.

Isso ajuda a formular hipóteses e a guiar os próximos passos da análise ou modelagem.

🧠 Teste Rápido!

Carregando quiz...

Teoria do Módulo 18 Completa!

Excelente! Você agora compreende os conceitos fundamentais de correlação e regressão linear simples. Aprendeu a interpretar gráficos de dispersão, o significado do coeficiente de Pearson (r) e o propósito da regressão para modelagem e previsão. Lembre-se sempre da diferença crucial entre correlação e causalidade.
Pronto para aplicar esses conhecimentos?