1º Seminário Interdisciplinar em Ciência de Dados LInDA (I SINCID LINDA)
Universidade Estadual Paulista (UNESP) - Campus Bauru
O que é a R-Ladies SP?
Quem sou eu?
Compartilhando resultados
Quarto: o que é, quais as vantagens e desvantagens, como dar os primeiros passos.
Exemplos de uso do Quarto
Links para saber mais
R-Ladies é uma organização mundial cuja missão é promover a diversidade de gênero na comunidade da linguagem R.
R-Ladies São Paulo faz parte da R-Ladies Global.
Nosso principal objetivo é promover a linguagem R, com foco na participação pessoas que se identificam com gêneros sub-representados na comunidade R, portanto: mulheres cis, mulheres trans, homens trans, pessoas não-binárias e queer.
É apoiada financeiramente pela R Consortium (em parceria com a Linux Foundation).
Co-organizadora R-Ladies São Paulo
Consultora em projetos de Ciência de Dados na Curso-R
Formação acadêmica:
Instrutora de Tidyverse certificada pela Posit (antiga RStudio)
Organização do projeto de tradução voluntária pela comunidade, da segunda edição do livro “R for Data Science”: https://cienciadedatos.github.io/pt-r4ds/
Se tiver interesse em colaborar com a tradução e/ou revisão dos capítulos, entre em contato comigo! (milz.bea@gmail.com)
Compartilhar os resultados é uma etapa importante na pesquisa!
Existem vários formatos de comunicação, pois depende do público que queremos atingir.
A comunicação pode ser feita de diferentes formas: TCCs, dissertações, teses, artigos científicos, relatórios, apresentações, vídeos, textos para a internet, etc.
Fazer as análises, tabelas, gráficos, mapas em algum software específico (ex. Excel, Google Sheets, SPSS, R, Python, QGIS, etc.).
Copiar e colar os resultados em um documento de texto (ex. Word, Google Docs, etc.), em uma apresentação (ex. Power Point, Google Slides, etc.).
Salvar o arquivo e enviar para a pessoa que te orienta, colegas, etc.
Isso é uma generalização, baseado em como eu fazia antes de começar a usar R :)
Recebemos feedback e precisamos incorporar as sugestões
A base de dados é atualizada
Precisamos fazer alterações nas análises
Precisamos refazer os passos do slide anterior! :(
Não conseguimos reproduzir os resultados sem refazer tudo manualmente.
Gastamos muito tempo refazendo tudo manualmente.
Maior chance de erros!
O R Markdown é um pacote em R para criação de relatórios automatizados utilizando as linguagens de programação R e de marcação Markdown, criado em 2014.
O Quarto é a nova geração do RMarkdown! Não é mais apenas um pacote em R, e sim um software que pode ser usado com outras linguagens de programação, como Python e Julia. Foi lançado em 2022.
O arquivo gerado é estático, não depende de uma sessão de R para ser aberto.
Podemos gerar arquivos word, powerpoint, pdf, html (páginas da internet), etc.
Fonte: Allison Horst (@allison_horst).
Reprodutibilidade
Facilidade de atualização do arquivo final
Menor chance de erros
Facilidade de aproveitar o código e gerar diferentes tipos de arquivos finais.
Facilidade de compartilhar o código e os resultados com outras pessoas.
Possibilita a revisão por pares (peer review) do código.
Incentiva uso de boas práticas de programação.
Focamos mais no conteúdo, e não na formatação.
Curva de aprendizado
Dificuldade de colaboração com pessoas que não programam
Formatação mais limitada
Expert blind spot… Fui perguntar a opinião de outras pessoas :)
Dificuldade em formatar os conteúdos de forma mais personalizada
É preciso entender pelo menos um pouco de campos diferentes (Markdown, HTML, CSS)
Não conseguir fazer animações como no Powerpoint
Obrigada: Haydee Svab, Fernanda Peres, Bianca Muniz
Entender a vantagem da reprodutibilidade
Vencer a curva de aprendizado inicial: o benefício é mais claro ao longo prazo
Acreditar que na imensa maioria das vezes terão um resultado final melhor do que fazer ajustes na mão
Obrigada: Haydee Svab, Fernanda Peres, Bianca Muniz
“Eu sou MUITO fã do RMarkdown para relatórios, realmente agilizou meu trabalho, minha entrega de relatórios. Não migrei para o Quarto ainda porque senti que há funções que eu uso que ainda não foram implementadas em Quarto.”
.qmd
O arquivo .qmd
é um arquivo de texto, que pode ser aberto em qualquer editor de texto (ex. RStudio, VS Code, bloco de notas, etc.).
Nesse arquivo, temos a seção de metadados, onde definimos o título, autoria, data, tipo de arquivo gerado, etc.
Depois, adicionamos o conteúdo, onde escrevemos o texto, inserimos os códigos, tabelas, gráficos, etc.
Podemos configurar como queremos que os resultados apareçam no arquivo final: se queremos o código e o resultado, apenas o resultado, etc.
```{r}
# Link da Base de dados
url <- "https://benubah.github.io/r-community-explorer/data/rladies.csv"
# Criar pasta data
dir_create("data")
# Fazer o download do arquivo e salvar na pasta data
download.file(url, "data/rladies.csv", method = "curl")
# importar a base de dados baixada
rladies <- read_csv("data/rladies.csv")
```
```{r}
rladies |>
group_by(region) |>
summarise(
soma_membros = sum(members),
quantidade_capitulos = n()
) |>
arrange(desc(soma_membros)) |>
flextable()
```
region |
soma_membros |
quantidade_capitulos |
---|---|---|
US/Canada |
30,112 |
59 |
Latin America |
27,774 |
58 |
Europe |
25,056 |
57 |
Asia |
5,806 |
19 |
Africa |
5,688 |
12 |
Australia |
5,371 |
10 |
Pacific/Galapagos |
460 |
1 |
```{r}
grafico_latin_rladies <- rladies |>
filter(region == "Latin America") |>
group_by(country) |>
summarise(
soma_membros = sum(members),
quantidade_capitulos = n()
) |>
mutate(country = fct_reorder(country, soma_membros)) |>
ggplot() +
geom_col(
aes(y = country, x = soma_membros)
) +
theme_light() +
labs(
x = "Quantidade de membros",
y = "País",
title = "R-Ladies na América Latina",
subtitle = "Membros na plataforma Meetup [desatualizado]"
) +
gghighlight::gghighlight(
country == "Brazil"
)
```
A base de dados pinguins apresenta dados referente à 344 pinguins, das seguintes espécies: Pinguim-de-adélia, Pinguim-gentoo, e Pinguim-de-barbicha. Os dados foram coletados entre os anos 2007 e 2009, nas seguintes ilhas: Torgersen, Biscoe, e Dream. O peso médio dos pinguins amostrados foi de 42 kg. Os dados foram obtidos através do pacote dados.
A base de dados pinguins apresenta dados referente à 344 pinguins, das seguintes espécies: Pinguim-de-adélia, Pinguim-gentoo, e Pinguim-de-barbicha. Os dados foram coletados entre os anos 2007 e 2009, nas seguintes ilhas: Torgersen, Biscoe, e Dream. O peso médio dos pinguins amostrados foi de 42 kg. Os dados foram obtidos através do pacote dados.
Adicionar equações com LaTeX
Adicionar referências bibliográficas com Zotero (ou outro gerenciador de referências que gere um arquivo .bib
)
Gerar a lista de referências ao final do documento (a partir de um arquivo .csl
Facilidade para citar pacotes em R
Referências cruzadas (capítulos, figuras, tabelas)
O que podemos fazer? | Exemplos |
---|---|
Blogs e sites | - RStudio AI Blog - Blog da R-Ladies São Paulo |
Livros | - R for Data Science |
Apresentações | - Essa apresentação (e a maioria das apresentadas por mim) - Apresentação da tese de doutorado do Julio Trecenti |
O que podemos fazer? | Exemplos |
---|---|
Relatórios | - Relatório do Observatório da Insolvência |
Trabalhos acadêmicos | - Tese de doutorado Julio Trecenti |
Artigos científicos | - Artigo da minha pesquisa de mestrado |
Outros exemplos | Newsletter Garimpo |
Post sobre o Quarto no blog da R-Ladies São Paulo, por Ariane Hayana: https://rladies-sp.org/posts/2023-02-tutorial-quarto/
Documentação do Quarto: https://quarto.org/docs/get-started/
Material do curso de verão IME USP: https://beatrizmilz.github.io/2023-curso-de-verao-ime-usp-relatorios/slides.html
Textos:
Meu blog: https://beamilz.com
Blog da Curso-R: https://blog.curso-r.com/
Blog da R-Ladies São Paulo: https://rladies-sp.org/
Slides por Beatriz Milz (@BeaMilz), feito com Quarto e Quarto R-Ladies Theme.
Acesse a apresentação em:
bit.ly/bia-linda