cebrap.lab online Introdução ao R

Introdução ao curso

Beatriz Milz

Maio de 2022

Ministrante

  • Beatriz Milz

  • Doutoranda em Ciência Ambiental (PROCAM/IEE/USP) na Universidade de São Paulo.

  • Professora na Curso-R.

  • Co-organizadora da R-Ladies São Paulo, uma comunidade que tem como objetivo promover a diversidade de gênero na comunidade da linguagem R.

  • Instrutora de tidyverse (asssunto que veremos nesse curso) certificada pela RStudio.

Informações gerais

  • Data/horário: 9 a 13 de maio/2022;
    • Segunda, Quarta e Sexta: aula ao vivo, online, das 18h30 às 21h30.
    • Terça e quinta: haverão tarefas para casa, para praticar os conceitos.
  • Material do curso de 2019 (ministrado por Leonardo Barone): https://github.com/leobarone/cebrap_lab_programacao_r

O que é o …

R?

R é um ambiente de software livre para computação estatística e gráficos. (https://www.r-project.org/)

RStudio?

RStudio é uma IDE (integrated development environment) da Linguagem R, ou seja, um ambiente de desenvolvimento que utilizamos para editar e executar os códigos em R.

RStudio Cloud?

É a IDE RStudio que podemos utilizar diretamente do navegador (sem que seja necessário instalar nada).

Pré-requisitos

Neste curso:

Para usar no dia-a-dia:

  • R e RStudio instalados no seu computador:

  • Links para instalação:

Por quê usar linguagens de programação para analisar dados?

As vantagens de analisar dados usando linguagens de programação

  • O código é uma linguagem, então podemos documentar a nossa análise

  • O código é texto, então podemos copiar e colar

  • As principais linguagens de programação para ciência de dados são de código aberto

O que significa ser código aberto?

  1. Acesso gratuito.

  2. Todas as pessoas podem usar as melhores ferramentas independentemente do poder financeiro.

  3. Estudantes podem usar as mesmas ferramentas que profissionais.

  4. Você pode corrigir problemas e aprimorar a linguagem.

  5. Você pode desenvolver suas próprias ferramentas.

  6. Possibilita a existência de uma comunidade ativa.

Por quê o R?

O ciclo da ciência de dados

O ciclo da ciência de dados com o R

Por quê usar o R?

  • É uma linguagem de programação que possui muitas ferramentas para análise de dados

  • É código aberto (open source)

  • Possui uma comunidade ativa de pessoas desenvolvedoras

  • É flexível, permite desenvolver funções e pacotes para facilitar o trabalho

  • Está disponível, gratuitamente, em diferentes plataformas: Windows, Linux e Mac

  • Mantido pela R Development Core Team

Plano das aulas

  • Temas:

    • R base

    • Importação de tabelas

    • Manipulação de dados

    • Introdução a criação de gráficos

Quais dados vamos usar?

Dados disponibilizados no pacote abjData.

  • pnud_min: Um conjunto de dados, que contém informações disponibilizadas pelo Programa das Nações Unidas para o Desenvolvimento (PNUD). Os indicadores foram extraídos dos Censos Demográficos de 1991, 2000 e 2010. As informações estão organizadas a nível de municípios. Fonte: Site do PNUD.

Quais dados vamos usar?

Rows: 16,686
Columns: 15
$ ano       <dbl> 1991, 1991, 1991, 1991, 1991, 1991, 1991, 1991, 1991, 1991, …
$ muni_id   <dbl> 1100015, 1100023, 1100031, 1100049, 1100056, 1100064, 110007…
$ muni_nm   <chr> "ALTA FLORESTA D'OESTE", "ARIQUEMES", "CABIXI", "CACOAL", "C…
$ uf_sigla  <chr> "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", …
$ regiao_nm <chr> "Norte", "Norte", "Norte", "Norte", "Norte", "Norte", "Norte…
$ idhm      <dbl> 0.329, 0.432, 0.309, 0.407, 0.386, 0.376, 0.203, 0.425, 0.38…
$ idhm_e    <dbl> 0.112, 0.199, 0.108, 0.171, 0.167, 0.151, 0.039, 0.220, 0.15…
$ idhm_l    <dbl> 0.617, 0.684, 0.636, 0.667, 0.629, 0.658, 0.572, 0.629, 0.65…
$ idhm_r    <dbl> 0.516, 0.593, 0.430, 0.593, 0.547, 0.536, 0.373, 0.553, 0.56…
$ espvida   <dbl> 62.01, 66.02, 63.16, 65.03, 62.73, 64.46, 59.32, 62.76, 64.1…
$ rdpc      <dbl> 198.46, 319.47, 116.38, 320.24, 240.10, 224.82, 81.38, 250.0…
$ gini      <dbl> 0.63, 0.57, 0.70, 0.66, 0.60, 0.62, 0.59, 0.65, 0.63, 0.60, …
$ pop       <dbl> 22835, 55018, 5846, 66534, 19030, 25070, 10737, 6902, 22505,…
$ lat       <dbl> -11.929, -9.913, -13.492, -11.438, -13.189, -13.117, -12.962…
$ lon       <dbl> -61.996, -63.041, -60.545, -61.448, -60.812, -60.542, -60.88…

Vamos começar?