Dataframes e Tabelas

Definição de Dataframe

Um dataframe é a principal estrutura de dados utilizada no R para operar e trabalhar com dados.

Podemos entender uma dataframe como uma tabela instanciada no R.

Definição de Tabela

Uma tabela, segundo o dicionário Priberam de Língua Portuguesa , define tabela como:

  1. Suporte onde se faz um registro de informações, organizado em linhas e colunas.
  2. Registro de cálculos e resultados.
  3. Horário ou escala.
  4. Quadro em que se afixam anúncios, avisos, editais, etc.
  5. Suporte vertical retangular de cesto de basquetebol
  6. Jogadada em qua há uma troca rápida e curta de bola entre jogadores
  7. Cada uma das quatros peças ou lados que formam o caixilho das mesas de bilhar
  8. Quadro em que se marcam as carambolas feitas no jogo de bilhar

Importação de Dados

A biblioteca readr faz a importação de dados para o ambiente do R nos seguintes formatos com as respectivas funções:

  • read_csv() para arquivos CSV com separação por vírgula
  • read_csv2() para arquivos CSV com separação por ponto e vírgula
  • read_tsv() para arquivos com separação por tabulação, formato TSV
  • read_delim() para arquivos delimitados por um caractere específico
  • read_fwf() para arquivos em posição fixa
  • read_table() para arquivos com separação por espaços
o processo de importação de dados sempre vem acompanhado de alguns parâmetros, como o caminho do arquivo, o tipo de separação, a codificação, entre outros. em todos eles temos o parâmetro file, que é o caminho do arquivo a ser importado, e o parâmetro col_types, que é utilizado para especificar os tipos de colunas do dataframe resultante. Parâmetros adicionais podem ser utilizados para lidar com casos específicos, como arquivos com cabeçalho, arquivos sem separação clara, entre outros.

Abaixo temos um exemplo de importação de dados com a função read_csv(), foi utilizada a Tabela 6975 do SIDRA-IBGE


## Se for caso de não ter a biblioteca instalada, utilize o comando abaixo para instalar a biblioteca readr
# install.packages("readr")
library(readr)
tabela6975 <- readr::read_csv(
  file = "C:/Users/orafa/OneDrive/Documents/Monitoria/tabela6975.csv",
  skip = 4,
  n_max = 408,
  col_names = c("UF","Origem dos rendimentos","Classes de rendimento total e variação patrimonial mensal familiar",
                "Situação do domicílio","ANO")
)

            

O código acima importa os dados da Tabela 6975 do SIDRA-IBGE para um dataframe no R.O parâmetro file especifica o caminho do arquivo a ser importado, e o parâmetro col_names define os nomes das colunas do dataframe resultante. Skip e n_max são parâmetros que controlam o número de linhas a serem ignoradas e o número máximo de linhas a serem lidas, respectivamente. Uma vez que nem todas linhas de uma tabela são de interesse no processo de importação