Função para raspar páginas do SigRH
Usage
raspar_pagina_sigrh(
sigla_do_comite = NULL,
conteudo_pagina = NULL,
orgao = NULL,
online = TRUE,
path_arquivo = NULL
)
Arguments
- sigla_do_comite
Texto referente à sigla do comitê. É possível # verificar na base:
comites_sp
.- conteudo_pagina
Qual é o tipo de página que deve ser raspada. Atualmente aceita: atas, representantes, agenda, deliberacoes, documentos.
- orgao
Qual é o órgão da página que deve ser raspada. Atualmente aceita: cbh, agencia.
- online
Caso seja TRUE, a tabela será obtida consultando a página web. Caso seja FALSE, a tabela será obtida usando um caminho, que deve ser informado no argumento
path_arquivo
. O valor padrão é TRUE.- path_arquivo
Caminho para o arquivo .html que será lido. Isso só deve ser usado com o argumento online sendo FALSE. O caminho para o arquivo deve ser o gerado pela função
download_pagina_sigrh
.
Examples
raspar_pagina_sigrh("at", conteudo_pagina = "atas", orgao = "cbh")
#> ✔ Raspagem realizada: Página referente à atas, cbh - at referente ao dia 2022-01-19.
#> # A tibble: 157 × 10
#> data_coleta_dados site_coleta orgao comite n_ugrhi nome_reuniao data_reuniao
#> <date> <glue> <chr> <chr> <dbl> <chr> <date>
#> 1 2022-01-19 https://sig… cbh Alto … 6 4ª Reunião … 2021-10-28
#> 2 2022-01-19 https://sig… cbh Alto … 6 3ª Reunião … 2021-08-13
#> 3 2022-01-19 https://sig… cbh Alto … 6 2ª Reunião … 2021-04-04
#> 4 2022-01-19 https://sig… cbh Alto … 6 1ª Reunião … 2021-02-10
#> 5 2022-01-19 https://sig… cbh Alto … 6 Resumo Exec… 2020-12-14
#> 6 2022-01-19 https://sig… cbh Alto … 6 Resumo Exec… 2020-11-27
#> 7 2022-01-19 https://sig… cbh Alto … 6 Plenária CB… 2020-10-29
#> 8 2022-01-19 https://sig… cbh Alto … 6 Plenária CB… 2020-10-29
#> 9 2022-01-19 https://sig… cbh Alto … 6 Plenária CB… 2020-07-28
#> 10 2022-01-19 https://sig… cbh Alto … 6 Plenária CB… 2020-07-28
#> # … with 147 more rows, and 3 more variables: data_postagem <date>,
#> # numero_link <chr>, url_link <chr>