Dataframes e Tabelas
Definição de Dataframe
Um dataframe é a principal estrutura de dados utilizada no R para operar e trabalhar com dados.
Podemos entender uma dataframe como uma tabela instanciada no R.
Definição de Tabela
Uma tabela, segundo o dicionário Priberam de Língua Portuguesa , define tabela como:
- Suporte onde se faz um registro de informações, organizado em linhas e colunas.
- Registro de cálculos e resultados.
- Horário ou escala.
- Quadro em que se afixam anúncios, avisos, editais, etc.
- Suporte vertical retangular de cesto de basquetebol
- Jogadada em qua há uma troca rápida e curta de bola entre jogadores
- Cada uma das quatros peças ou lados que formam o caixilho das mesas de bilhar
- Quadro em que se marcam as carambolas feitas no jogo de bilhar
Importação de Dados
A biblioteca readr faz a importação de dados para o ambiente do R nos seguintes formatos com as respectivas funções:
read_csv()para arquivos CSV com separação por vírgularead_csv2()para arquivos CSV com separação por ponto e vírgularead_tsv()para arquivos com separação por tabulação, formato TSVread_delim()para arquivos delimitados por um caractere específicoread_fwf()para arquivos em posição fixaread_table()para arquivos com separação por espaços
file, que é o caminho do arquivo a ser importado,
e o parâmetro col_types, que é utilizado para especificar os tipos de colunas do dataframe resultante. Parâmetros
adicionais podem ser utilizados para lidar com casos específicos, como arquivos com cabeçalho, arquivos sem separação clara, entre outros.
Abaixo temos um exemplo de importação de dados com a função read_csv(), foi utilizada a
Tabela 6975 do SIDRA-IBGE
## Se for caso de não ter a biblioteca instalada, utilize o comando abaixo para instalar a biblioteca readr
# install.packages("readr")
library(readr)
tabela6975 <- readr::read_csv(
file = "C:/Users/orafa/OneDrive/Documents/Monitoria/tabela6975.csv",
skip = 4,
n_max = 408,
col_names = c("UF","Origem dos rendimentos","Classes de rendimento total e variação patrimonial mensal familiar",
"Situação do domicílio","ANO")
)
O código acima importa os dados da Tabela 6975 do SIDRA-IBGE para um dataframe no R.O parâmetro file especifica o caminho do arquivo
a ser importado, e o parâmetro col_names define os nomes das colunas do dataframe resultante. Skip e n_max são parâmetros que controlam
o número de linhas a serem ignoradas e o número máximo de linhas a serem lidas, respectivamente. Uma vez que nem todas linhas de uma tabela são
de interesse no processo de importação