📈 Entendendo Relações e Padrões
Bem-vindo ao Módulo 18! Em Inteligência Artificial e análise de dados, frequentemente queremos entender como diferentes variáveis se relacionam. Por exemplo, a experiência de um programador está relacionada ao seu salário? O tamanho de uma casa influencia seu preço?
A correlação nos ajuda a medir a força e a direção dessa relação. A regressão vai um passo além, permitindo-nos construir um modelo para prever o valor de uma variável com base em outra.
Neste módulo, exploraremos a visualização de dados com gráficos de dispersão, calcularemos o famoso Coeficiente de Correlação de Pearson (r) e introduziremos a ideia de regressão linear simples. Essas são ferramentas fundamentais para análise exploratória e modelagem preditiva em IA.
🔗 O que é Correlação?
Medindo a associação entre duas variáveis quantitativas.
Correlação Positiva
Quando uma variável aumenta, a outra tende a aumentar também. Exemplo: Horas de estudo e nota na prova.
Correlação Negativa
Quando uma variável aumenta, a outra tende a diminuir. Exemplo: Temperatura externa e venda de casacos.
Correlação Próxima de Zero
Não há uma tendência linear clara entre as variáveis. Exemplo: Número do sapato e QI.
A melhor forma de visualizar a relação entre duas variáveis quantitativas é através de um gráfico de dispersão (scatter plot).
Cada ponto no gráfico representa um par de valores (um para cada variável). O padrão formado pelos pontos nos dá uma ideia visual da correlação.
Importante: Correlação NÃO implica causalidade! Só porque duas variáveis estão correlacionadas, não significa que uma causa a outra. Pode haver outros fatores envolvidos.
🔢 Coeficiente de Correlação de Pearson (r)
Quantificando a força e a direção da relação linear.
O Coeficiente de Correlação de Pearson, denotado por r
, é um valor numérico que varia entre -1 e +1.
Ele mede especificamente a força da relação linear entre duas variáveis quantitativas contínuas.
Interpretando o Valor de r
:
r = +1
: Correlação linear positiva perfeita. Todos os pontos caem exatamente em uma linha reta ascendente.r = -1
: Correlação linear negativa perfeita. Todos os pontos caem exatamente em uma linha reta descendente.r = 0
: Nenhuma correlação linear. Não há tendência linear nos dados (mas pode haver outros tipos de relação!).- Valores próximos de +1 (e.g., 0.7 a 0.9): Correlação linear positiva forte.
- Valores próximos de -1 (e.g., -0.7 a -0.9): Correlação linear negativa forte.
- Valores intermediários (e.g., ±0.4 a ±0.6): Correlação linear moderada.
- Valores próximos de 0 (e.g., ±0.1 a ±0.3): Correlação linear fraca ou inexistente.
O cálculo de r
envolve as médias e desvios padrão das duas variáveis, mas geralmente usamos software (como Python com bibliotecas como `scipy` ou `pandas`) para calculá-lo.
Suposições: O Coeficiente de Pearson funciona melhor quando a relação entre as variáveis é aproximadamente linear e os dados não possuem outliers extremos.
📊 Regressão Linear Simples
Modelando a relação linear para fazer previsões.
Se encontrarmos uma correlação linear (forte ou moderada) entre duas variáveis, podemos usar a regressão linear simples para criar um modelo matemático dessa relação.
O objetivo é encontrar a linha reta que melhor se ajusta aos pontos no gráfico de dispersão.
Essa linha, chamada linha de regressão, nos permite prever o valor de uma variável (dependente, Y) com base no valor da outra variável (independente, X).
A equação da linha de regressão simples é:
Y = β₀ + β₁X + ε
β₀
(Beta zero): O intercepto - valor previsto de Y quando X é 0.β₁
(Beta um): O coeficiente angular (inclinação) - quanto Y muda, em média, para cada unidade de aumento em X.ε
(Épsilon): O termo de erro (resíduo) - a diferença entre o valor real de Y e o valor previsto pela linha.
A linha representa o modelo que tenta capturar a tendência geral dos dados.
Assim como a correlação, a determinação dos coeficientes da regressão (β₀ e β₁) é feita computacionalmente, usando métodos como o de Mínimos Quadrados Ordinários (MQO).
💡 Aplicações em IA e Computação
Onde correlação e regressão são úteis.
Análise de Features em Machine Learning
Antes de treinar um modelo de IA, analisamos a correlação entre as variáveis de entrada (features) e a variável de saída (target).
Features altamente correlacionadas com o target são geralmente mais importantes. Também verificamos a correlação entre features (multicolinearidade), que pode afetar alguns modelos.
Modelagem Preditiva
A regressão é a base de muitos modelos preditivos.
- Prever o preço de um imóvel com base em sua área, número de quartos, etc.
- Estimar o tempo de entrega de um pedido com base na distância e hora do dia.
- Prever a receita de vendas com base no investimento em marketing.
Análise de Dados Exploratória (EDA)
Gráficos de dispersão e coeficientes de correlação são ferramentas essenciais na EDA para descobrir padrões e relações ocultas nos dados.
Isso ajuda a formular hipóteses e a guiar os próximos passos da análise ou modelagem.
🧠 Teste Rápido!
Carregando quiz...
Teoria do Módulo 18 Completa!
Excelente! Você agora compreende os conceitos fundamentais de correlação e regressão linear simples. Aprendeu a interpretar gráficos de dispersão, o significado do coeficiente de Pearson (r) e o propósito da regressão para modelagem e previsão. Lembre-se sempre da diferença crucial entre correlação e causalidade.
Pronto para aplicar esses conhecimentos?