📊 Colocando Ordem no Caos dos Dados
Bem-vindo ao Módulo 4! No mundo da IA e da ciência de dados, raramente recebemos informações perfeitamente organizadas. Dados brutos podem ser confusos e difíceis de interpretar. A primeira etapa crucial na análise é organizar esses dados.
Neste módulo, aprenderemos técnicas fundamentais para resumir e estruturar conjuntos de dados: as tabelas de frequência e as distribuições de frequência. Elas nos ajudam a visualizar padrões e a preparar os dados para análises mais complexas.
🔢 Tabelas de Frequência: Quantificando Ocorrências
Contando quantas vezes cada valor ou categoria aparece.
Frequência Absoluta (f ou fi)
É a contagem direta de quantas vezes um determinado valor ou categoria ocorre no conjunto de dados.
f(A) = 2
f(B) = 3
f(C) = 1
Frequência Relativa (fr ou fri)
Representa a proporção (ou porcentagem) de cada valor em relação ao total de observações. Calculada como f / n
(onde n é o total de dados).
fr(A) = 2/6 ≈ 0.33 (33%)
fr(B) = 3/6 = 0.50 (50%)
fr(C) = 1/6 ≈ 0.17 (17%)
Frequência Acumulada (F ou Fac)
Soma das frequências (absolutas ou relativas) de um valor/categoria com as frequências de todos os valores/categorias anteriores (requer ordenação).
Fac(A) = 2
Fac(B) = 2 + 3 = 5
Fac(C) = 5 + 1 = 6
Tabelas de frequência oferecem um resumo rápido e claro da distribuição dos seus dados.
📊 Distribuições de Frequência: Agrupando Dados
Organizando dados, especialmente os contínuos ou com muitos valores distintos, em classes ou intervalos.
Dados Não Agrupados
Quando há poucos valores distintos, a tabela de frequência simples (vista anteriormente) já funciona como uma distribuição. Listamos cada valor e sua frequência.
Dados Agrupados em Classes
Para dados contínuos ou com muitos valores, agrupamos em classes (intervalos). Ex: Idades [0-10), [10-20), [20-30).
Limite Inferior (Li)
: Menor valor da classe.Limite Superior (Ls)
: Maior valor da classe.Amplitude (h)
: Diferença entre Ls e Li.Ponto Médio (xi)
: (Li + Ls) / 2. Representa a classe.
Por que Agrupar?
Agrupar simplifica a visualização de grandes conjuntos de dados, revela a forma da distribuição e facilita o cálculo de outras estatísticas. É essencial no pré-processamento para muitos algoritmos de IA.
A escolha de como agrupar (número de classes, amplitude) pode influenciar a interpretação dos dados.
⚙️ Organizando Dados na Prática
Vamos criar uma tabela de frequência para um pequeno conjunto de dados de avaliações de usuários (1 a 5 estrelas).
Dados Brutos (Avaliações):
Contamos quantas vezes cada avaliação aparece.
- 1 estrela: 1 vez
- 2 estrelas: 1 vez
- 3 estrelas: 3 vezes
- 4 estrelas: 6 vezes
- 5 estrelas: 4 vezes
Organizamos as contagens e calculamos as outras frequências.
Avaliação | f (Abs) | fr (Rel) | fr (%) | Fac (Abs Ac.) |
---|---|---|---|---|
1 | 1 | 1/15 ≈ 0.07 | 7% | 1 |
2 | 1 | 1/15 ≈ 0.07 | 7% | 1+1 = 2 |
3 | 3 | 3/15 = 0.20 | 20% | 2+3 = 5 |
4 | 6 | 6/15 = 0.40 | 40% | 5+6 = 11 |
5 | 4 | 4/15 ≈ 0.27 | 27% | 11+4 = 15 |
Total | 15 | 1.00 | 100% | - |
Começamos com uma lista desorganizada de avaliações.
O primeiro passo é contar a Frequência AbsolutaNúmero de vezes que cada valor único (1, 2, 3, 4, 5 estrelas) aparece nos dados. para cada valor possível (1 a 5 estrelas).
Com as contagens, montamos a tabela. Calculamos a Frequência RelativaProporção de cada valor. Frequência Absoluta / Total de Dados (n=15). Útil para comparar distribuições com totais diferentes. dividindo cada frequência absoluta pelo total (n=15). A porcentagem é apenas a frequência relativa x 100.
A Frequência AcumuladaSoma da frequência de uma classe com as frequências das classes anteriores. Mostra quantos dados estão abaixo de um certo valor. é calculada somando a frequência absoluta da linha atual com a acumulada da linha anterior.
Esta tabela organizada nos mostra rapidamente que a avaliação mais comum foi '4 estrelas' (40% das vezes) e que poucas pessoas deram avaliações muito baixas (1 ou 2 estrelas).
🧠 Teste Rápido!
Carregando quiz...
Teoria do Módulo 4 Completa!
Excelente! Você aprendeu a organizar dados usando tabelas e distribuições de frequência. Esta é uma habilidade essencial para entender conjuntos de dados antes de aplicar técnicas de IA mais avançadas.
Pronto para praticar? Siga para a Zona de Prática ou a Prática Avançada do Módulo 4.