cebrap.lab online - Análise quantitativa de texto

Introdução

Beatriz Milz

2023-11-01

Conceitos

Processamento de Linguagem Natural (NLP)

  • A sigla NLP significa Natural Language Processing.

  • É uma área de estudo que combina conhecimentos de linguística, ciência da computação e inteligência artificial para entender como computadores podem ser usados para processar e analisar grandes quantidades de dados textuais.

NLP

  • É uma área de estudo muito ampla.

  • Neste curso, vamos focar em técnicas de análise de texto quantitativo

Text mining

  • Text mining, ou mineração de texto, é um subcampo do NLP que se concentra na extração de informações úteis ou insights de grandes volumes de texto.

  • Utiliza diversas técnicas de NLP para transformar texto não estruturado em dados estruturados.

Referência principal

O livro “Text Mining with R” especificamente aborda como realizar mineração de texto utilizando a linguagem de programação R e o pacote tidytext.

Benefícios de usar o pacote tidytext

  • Usa diversas ferramentas do pacote tidyverse

  • Usamos o mesmo formato de dados: tibble!

Outros pacotes importantes

Conceito importante: tidy data

Conceito importante: tidy data

Conceito importante: tidy data

Conteúdo para assistir amanhã

E para análise de texto?

  • Em análise de textos, os autores chamaram esse formato de dados de “tidy text”.

  • Uma tabela com UM TOKEN por linha.

  • Um token é uma unidade significativa de texto que temos interesse em usar para análise.

  • O tipo de token mais comum é a palavra, mas pode ser também uma frase, um parágrafo, um n-gram (conjunto de n palavras), etc.

  • Tokenização é o processo de dividir o texto em tokens.

Exemplo de tokenização

Considere a frase:

O amor é uma ação, nunca simplesmente um sentimento. (bell hooks)

library(tidyverse)
library(tidytext)
tibble(frase = "O amor é uma ação, nunca simplesmente um sentimento") |>
  unnest_tokens(output = word, input = frase)
# A tibble: 9 × 1
  word        
  <chr>       
1 o           
2 amor        
3 é           
4 uma         
5 ação        
6 nunca       
7 simplesmente
8 um          
9 sentimento  

Referências