Módulo 4: Organização de Dados

Estruturando informações com tabelas e distribuições de frequência.

📊 Colocando Ordem no Caos dos Dados

Bem-vindo ao Módulo 4! No mundo da IA e da ciência de dados, raramente recebemos informações perfeitamente organizadas. Dados brutos podem ser confusos e difíceis de interpretar. A primeira etapa crucial na análise é organizar esses dados.

Neste módulo, aprenderemos técnicas fundamentais para resumir e estruturar conjuntos de dados: as tabelas de frequência e as distribuições de frequência. Elas nos ajudam a visualizar padrões e a preparar os dados para análises mais complexas.

🔢 Tabelas de Frequência: Quantificando Ocorrências

Contando quantas vezes cada valor ou categoria aparece.

Frequência Absoluta (f ou fi)

É a contagem direta de quantas vezes um determinado valor ou categoria ocorre no conjunto de dados.

Ex: Notas [A, B, C, B, A, B]
f(A) = 2
f(B) = 3
f(C) = 1

Frequência Relativa (fr ou fri)

Representa a proporção (ou porcentagem) de cada valor em relação ao total de observações. Calculada como f / n (onde n é o total de dados).

Total (n) = 6
fr(A) = 2/6 ≈ 0.33 (33%)
fr(B) = 3/6 = 0.50 (50%)
fr(C) = 1/6 ≈ 0.17 (17%)

Frequência Acumulada (F ou Fac)

Soma das frequências (absolutas ou relativas) de um valor/categoria com as frequências de todos os valores/categorias anteriores (requer ordenação).

Usando F Absoluta:
Fac(A) = 2
Fac(B) = 2 + 3 = 5
Fac(C) = 5 + 1 = 6

Tabelas de frequência oferecem um resumo rápido e claro da distribuição dos seus dados.

📊 Distribuições de Frequência: Agrupando Dados

Organizando dados, especialmente os contínuos ou com muitos valores distintos, em classes ou intervalos.

Dados Não Agrupados

Quando há poucos valores distintos, a tabela de frequência simples (vista anteriormente) já funciona como uma distribuição. Listamos cada valor e sua frequência.

Dados Agrupados em Classes

Para dados contínuos ou com muitos valores, agrupamos em classes (intervalos). Ex: Idades [0-10), [10-20), [20-30).

  • Limite Inferior (Li): Menor valor da classe.
  • Limite Superior (Ls): Maior valor da classe.
  • Amplitude (h): Diferença entre Ls e Li.
  • Ponto Médio (xi): (Li + Ls) / 2. Representa a classe.

Por que Agrupar?

Agrupar simplifica a visualização de grandes conjuntos de dados, revela a forma da distribuição e facilita o cálculo de outras estatísticas. É essencial no pré-processamento para muitos algoritmos de IA.

A escolha de como agrupar (número de classes, amplitude) pode influenciar a interpretação dos dados.

⚙️ Organizando Dados na Prática

Vamos criar uma tabela de frequência para um pequeno conjunto de dados de avaliações de usuários (1 a 5 estrelas).

Dados Brutos (Avaliações):

[4, 5, 4, 3, 5, 4, 4, 2, 3, 5, 4, 1, 5, 4, 3]
1. Contagem (Frequência Absoluta):

Contamos quantas vezes cada avaliação aparece.

  • 1 estrela: 1 vez
  • 2 estrelas: 1 vez
  • 3 estrelas: 3 vezes
  • 4 estrelas: 6 vezes
  • 5 estrelas: 4 vezes
Total (n) = 15 avaliações.
2. Tabela de Frequência:

Organizamos as contagens e calculamos as outras frequências.

Avaliação f (Abs) fr (Rel) fr (%) Fac (Abs Ac.)
111/15 ≈ 0.077%1
211/15 ≈ 0.077%1+1 = 2
333/15 = 0.2020%2+3 = 5
466/15 = 0.4040%5+6 = 11
544/15 ≈ 0.2727%11+4 = 15
Total 15 1.00 100% -

Começamos com uma lista desorganizada de avaliações.

O primeiro passo é contar a Frequência AbsolutaNúmero de vezes que cada valor único (1, 2, 3, 4, 5 estrelas) aparece nos dados. para cada valor possível (1 a 5 estrelas).

Com as contagens, montamos a tabela. Calculamos a Frequência RelativaProporção de cada valor. Frequência Absoluta / Total de Dados (n=15). Útil para comparar distribuições com totais diferentes. dividindo cada frequência absoluta pelo total (n=15). A porcentagem é apenas a frequência relativa x 100.

A Frequência AcumuladaSoma da frequência de uma classe com as frequências das classes anteriores. Mostra quantos dados estão abaixo de um certo valor. é calculada somando a frequência absoluta da linha atual com a acumulada da linha anterior.

Esta tabela organizada nos mostra rapidamente que a avaliação mais comum foi '4 estrelas' (40% das vezes) e que poucas pessoas deram avaliações muito baixas (1 ou 2 estrelas).

🧠 Teste Rápido!

Carregando quiz...

Teoria do Módulo 4 Completa!

Excelente! Você aprendeu a organizar dados usando tabelas e distribuições de frequência. Esta é uma habilidade essencial para entender conjuntos de dados antes de aplicar técnicas de IA mais avançadas.
Pronto para praticar? Siga para a Zona de Prática ou a Prática Avançada do Módulo 4.