cebrap.lab online - Visualização de dados no R

Introdução ao curso

Beatriz Milz

2023-01-01

Ministrante

  • Beatriz Milz

  • Doutoranda em Ciência Ambiental (PROCAM/IEE/USP) na Universidade de São Paulo.

  • Professora de programação em R:

  • Co-organizadora da R-Ladies São Paulo, uma comunidade que tem como objetivo promover a diversidade de gênero na comunidade da linguagem R.

  • Instrutora de tidyverse certificada pela RStudio/Posit.

Informações gerais

  • Data/horário: 28 de agosto a 1 de setembro/2023;
    • Segunda, Quarta e Sexta: aula ao vivo, online, das 19h00 às 22h00.
    • Terça e quinta: haverão tarefas para casa, para praticar os conceitos.

Pré-requisitos

  • R e RStudio instalados no seu computador:

  • Links para instalação:

  • Instalar pacotes:

install.packages(c(
   "tidyverse",
   "sf",
   "geobr"
))

Plano das aulas

  • Temas:

    • Conceitos importantes

    • Introdução à criação de gráficos com ggplot2

    • Exportando os gráficos para publicação

    • Introdução à criação de mapas com ggplot2, sf e geobr

Quais dados vamos usar?

Dados disponibilizados no pacote abjData.

  • pnud_min: Um conjunto de dados, que contém informações disponibilizadas pelo Programa das Nações Unidas para o Desenvolvimento (PNUD). Os indicadores foram extraídos dos Censos Demográficos de 1991, 2000 e 2010. As informações estão organizadas a nível de municípios. Fonte: Site do PNUD.

Quais dados vamos usar?

Rows: 16,686
Columns: 15
$ ano       <dbl> 1991, 1991, 1991, 1991, 1991, 1991, 1991, 1991, 1991, 1991, …
$ muni_id   <dbl> 1100015, 1100023, 1100031, 1100049, 1100056, 1100064, 110007…
$ muni_nm   <chr> "ALTA FLORESTA D'OESTE", "ARIQUEMES", "CABIXI", "CACOAL", "C…
$ uf_sigla  <chr> "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", …
$ regiao_nm <chr> "Norte", "Norte", "Norte", "Norte", "Norte", "Norte", "Norte…
$ idhm      <dbl> 0.329, 0.432, 0.309, 0.407, 0.386, 0.376, 0.203, 0.425, 0.38…
$ idhm_e    <dbl> 0.112, 0.199, 0.108, 0.171, 0.167, 0.151, 0.039, 0.220, 0.15…
$ idhm_l    <dbl> 0.617, 0.684, 0.636, 0.667, 0.629, 0.658, 0.572, 0.629, 0.65…
$ idhm_r    <dbl> 0.516, 0.593, 0.430, 0.593, 0.547, 0.536, 0.373, 0.553, 0.56…
$ espvida   <dbl> 62.01, 66.02, 63.16, 65.03, 62.73, 64.46, 59.32, 62.76, 64.1…
$ rdpc      <dbl> 198.46, 319.47, 116.38, 320.24, 240.10, 224.82, 81.38, 250.0…
$ gini      <dbl> 0.63, 0.57, 0.70, 0.66, 0.60, 0.62, 0.59, 0.65, 0.63, 0.60, …
$ pop       <dbl> 22835, 55018, 5846, 66534, 19030, 25070, 10737, 6902, 22505,…
$ lat       <dbl> -11.929, -9.913, -13.492, -11.438, -13.189, -13.117, -12.962…
$ lon       <dbl> -61.996, -63.041, -60.545, -61.448, -60.812, -60.542, -60.88…

Para que servem as visualizações?

  • Uma base de dados contém toda a informação que precisamos.

  • No entanto, não somos capazes de tirar conclusões apenas olhando essas bases.

  • Por isso, é necessário resumir esses dados em estatísticas.

  • Nem sempre as estatísticas (os números) são úteis para uma comunicação efetiva… Por isso, faz sentido mostrá-las usando formas, cores e outros elementos que facilitam a absorção da informação pelas pessoas.

  • Para o Hadley Wickham, visualizar dados serve para surpreender.

Ciclo da Ciência de Dados

Visualização no ciclo da Ciência de Dados

Análise exploratória x Análise Descritiva

Análise exploratória

  • É um trabalho de investigação de dados
  • A ferramenta: precisa ser rápida de programar
  • O objetivo é aprender com os dados

Análise descritiva (ou explicativa)

  • É um trabalho de otimização visual
  • A ferramenta: precisa ser customizável
  • O objetivo é comunicar

Vamos começar?