normalização de texto: stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex...

62
1 Normalização de texto: Stemming MCZA017-13 Processamento de Linguagem Natural Prof. Jesús P. Mena-Chalco [email protected] 2Q-2019

Upload: others

Post on 16-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

1

Normalização de texto: Stemming

MCZA017-13Processamento de Linguagem Natural

Prof. Jesús P. Mena-Chalco

[email protected]

2Q-2019

Page 2: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

2

Bibliografia

Daniel Jurafsky & James H. Martin.Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall.

University of Colorado, Boulder

Stanford University

2000 2009

2019?

Page 3: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

3

Da aula anterior... Normalização de palavras

Page 4: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

4

Um sistema de busca deve permitir que documentos indexados com diferentes nomes sejam recuperados usando quaisquer das suas formas de escrita.

Page 5: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

5

Normalizando as palavras

Em textos da língua portuguesa temos diferentes palavras flexionadas em gênero, número ou grau, além de inúmeros tempos verbais distintos.

Trabalhor TrabalhadoraDegrau DegrausAmigo Amigão

A “normalização de palavras” pode ser entendida como a redução ou a simplificação ou a radicalização de palavras.

Duas técnicas mais imporantes

StemmingLemmatization

Page 6: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

6

Stemming

O processo de stemming consiste em reduzir a palavra à sua raiz (sem levar em conta a classe gramatical)

amig : amigo, amiga, amigão gat : gato, gata, gatos, gatas

Stemming geralmente refere-se a um processo de heurística que corta as extremidades das palavras inclui frequentemente a remoção de afixos derivacionais.

→ Pode ser representado por um conjunto de regras que dependem da linguagem.

Page 7: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

7

Exemplo

Computationally

Computational

Computation

Computa

Comput ← Não confunda, não é a raiz da palavra (da forma linguistica)

← A palavra pode não ter significado (alguns autores denominam isto de radical da palavra)

Page 8: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

8

Stemming x Lemmatization

Stemming (a ação de reduzir em stems)

Stem: Parte de uma palavraStemmer: O artefato (programa)Algorithm for stemming

Lemmatization (a ação de reduzir em Lemmas)Lemma: Forma básica da palavraLemmatizer: O artefato (programa)Algorithm for lemmatization

Produc

Produce

Produced

Page 9: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

9

Algoritmos de Stemming

Existem diferentes algoritmos: Principalmente para o inglês!

Page 10: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

10

Algoritmo de Lovins

Composto por 294 sufixos, 29 condições e 34 regras de transformação.

O processamento é rápido:

apenas 2 etapas.

O algoritmo pioneiro e influenciador de muitos stemmers:

Lovins, Julie Beth. (1968). Development of a stemming algorithm. Mech. Translat. & Comp. Linguistics, 11(1-2), 22-31.

Page 11: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

11

Algoritmo de Lovins

294 sufixos

...

Condição Comprimento

(1) Procurar pelo sufixo de maior tamanho na palavra e que satisfaz a(s) condições → remover

Page 12: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

12

Algoritmo de Lovins

29 condições

Implícito:O comprimento mínimo deve ser igual a 2

Page 13: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

13

Algoritmo de Lovins

34 regras

(2) As regras são aplicadas para transformar o final. Aplicadas se um sufixo é removido ou não na primeira etapa.

Page 14: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

14

Atividade prática

Page 15: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

15

Atividade prática

National Após remoção do sufixo “ional”: Nat

Nenhuma regra de transformação identificada

Resultado: Nat

Nationally Após remoção do sufixo “tionally”: Nat

Nenhuma regra de transformação identificada

Resultado: Nat

Sitting Após remoção do sufixo “ing”: Sitt

Regra de transformação 1 (eliminar uma t)

Resultado: Sit

Matrix Nenhuma remoção de sufixo

Regra de transformação 16 (ix → ic)

Resultado: Matric

Matrices Após remoção do sufixo “es”: Matric

Nenhuma regra de transformação identificada

Resultado: Matric

Magnesium Após remoção do sufixo “ium”: Magnes

Nenhuma regra de transformação identificada

Resultado: Magnes

Rubbing Após remoção do sufixo “ing”: Rubb

Regra de transformação 1 (eliminar uma b)

Resultado: Rub

Page 16: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

16

Algoritmo de Lovins

Page 17: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

17

Algoritmos de Stemming para inglês

1968: Lovins

1980: Porter

Os dois algoritmos eliminam/removem consecutivamente os finais das palavras.

Para cada palavra não é requerido conhecimento à priori para a sua redução.

Lovins, Julie Beth. (1968). Development of a stemming algorithm. Mech. Translat. & Comp. Linguistics, 11(1-2), 22-31.

Porter, Martin. F. (1980). An algorithm for suffix stripping. Program, 14(3), 130-137.

Page 18: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

18

Algoritmo de Martin F. Porter

Porter, Martin. F. (1980). An algorithm for suffix stripping. Program, 14(3), 130-137.

Inicialmente publicado em um relatório de projeto final de Recuperação de Informação

C.J. van Rijsbergen, S.E. Robertson and M.F. Porter, 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587).

O algoritmo é mais completo e mais “simples” do que Julie Lovins

O stemmer mais utilizado atualmente.

1944-Cambridge

Page 19: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

19

Algoritmo de Martin F. Porter

Todos os 5 passos foram bem definidos:

Usa-se regras e operação de validação

Similar ao de Lovins: Cada palavra é comparada sequencialmente com o maior sufixo possível.

Casou o sufixo → Remove-lo da palavra.

Exemplo:

106, "ed", LAMBDA, 1, -1, -1, ContainsVowel

Id. de regra

Sufixo

Substituição |substituição|-1 Função de validação: A raiz deve ter uma vogal

|sufixo|-1

Tamanho minimo da raiz (quando eliminado o sufixo) deve ser igual a 3 caracteres

Page 20: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

20

Algoritmo de Martin F. Porter

106, "ed", LAMBDA, 1, -1, -1, ContainsVowel

Shared → Shar

Shed → Shed (não “Sh” – tamanho 2 sem vogal

Id. de regra

Sufixo

Substituição |substituição|-1 Função de validação: A raiz deve ter uma vogal

|sufixo|-1

Tamanho minimo da raiz (quando eliminado o sufixo) deve ser igual a 3 caracteres

Page 21: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

21

Algoritmo de Martin F. Porter

Passo 1a

sses → ss (caresses → caress)

ies → i (ponies → poni)

s → “” (cats → cat)

Passo 1b

(m>1) eed → ee (agreed → agree)

(*v*) ed → “” (plastered → plaster)

Pelo menos 1 consoante

A raiz deve conter vogal

Page 22: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

22

Porter

Page 23: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

23

Porter

Page 24: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

24

Porter

Page 25: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

25

Algoritmo de Porter

https://tartarus.org/martin/PorterStemmer/

Page 26: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

26

Algoritmos de Stemming para Português

2001: Orengo

Primeira versão amplamente divulgada de um algoritmo de radicalização para a língua portuguesa:

Constituído por 199 regras distribuídas por 8 passos.Considera uma lista de excepções:

Orengo, Viviane Moreira, & Huyck, Christian. (2001). A stemming algorithm for the portuguese language. In String Processing and Information Retrieval, 2001. SPIRE 2001. Proceedings. Eighth International Symposium on (pp. 186-193). IEEE.

Middlesex UniversityUFRGS

Page 27: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

27

Algoritmo de Orengo

Page 28: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

28

Algoritmo de Orengo

Page 29: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

29

Outras propostas

Page 30: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

30

Recursos: Python - NLTK

http://text-processing.com/demo/stem/

Page 31: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

31

Comparação entre palavras únicas:- Sem radicalização- Com radicalização

Page 32: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

32

Comparando resultados

não é ist umasátir em pros.

esboç liter apanh na projeç sutil do caract , dou aqu apen uma reproduç do tip a que ch em meufal sec depros novat — fanc liter .

não é isto uma sátira em prosa.

esboço literárioapanhado nasprojeções sutisdos caracteres, dou aqui apenas uma reprodução do tipo a que chamo em meu falar seco de prosador novato — fanqueiro literário.

Page 33: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

33

Comparando resultados

Page 34: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

34

Algumas considerações não discutidas sobre os stemmers!

Page 35: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

35

1) Uso de uma base de dados?

Poderia se utilizado uma se dados (dicionário) para comparar as palavras reduzidas.

Entretanto, esse procedimento requerirá maior tempo de processamento computacional.

Mesmo consumindo maior tempo, o esforço investido poderia não valer a pena.

Harman, D., & Candela, G. (1990). Retrieving records from a gigabyte of text on a minicomputer using statistical ranking. Journal of the American Society for Information Science, 41(8), 581.

Page 36: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

36

2) Por que não eliminar prefixos?

Não ha nenhum motivo teórico para não considerar a eliminação de prefixos nos stemmers:

ArquiduqueProtótipoContradizerUltraleve

Page 37: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

37

3) stemming na literatura

Page 38: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

38

4) Perda de detalhe ou informação?

O algoritmo de stemming não deveria permitir a perda de muita informação:

Poder → PoVer → VeChamo → Ch

National → Na

Versão original do algoritmo de PorterAs → AIs → I

Page 39: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

39

4) Perda de detalhe ou informação?

Medidas de desempenho

Overstemming

Quando é removido não só o sufixo, mas também uma parte do radical

Understemming

Quando o sufixo não é removido, ou é apenas removido parcialmente

Page 40: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

40

5) Stemmer para nomes?

Ideia para um projeto final?

Pedrão → PedroGuilherme → GuiRoberto → Rob

Page 41: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

41

Stemmer - prática

Page 42: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

42

fool-stemmer.py

Page 43: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

43

fool-stemmer

a capivara (nome científico: hydrochoerus hydrochaeris) é uma espécie demamífero roedor da família caviidae e subfamília hydrochoerinae. alguns autoresconsideram que deva ser classificada em uma família própria. está incluída nomesmo grupo de roedores ao qual se classificam as pacas, cutias, os preás e oporquinho-da-índia. ocorre por toda a américa do sul ao leste dos andes emhabitats associados a rios, lagos e pântanos, do nível do mar até 1 300 m dealtitude. extremamente adaptável, pode ocorrer em ambientes altamente alteradospelo ser humano.

é o maior roedor do mundo, pesando até 91 kg e medindo até 1,2 m de comprimentoe 60 cm de altura. a pelagem é densa, de cor avermelhada a marrom escuro. épossível distinguir os machos por conta da presença de uma glândula proeminenteno focinho apesar do dimorfismo sexual não ser aparente. existe uma série deadaptações no sistema digestório à herbivoria, principalmente no ceco. alcançaa maturidade sexual com cerca de 1,5 ano de idade, e as fêmeas dão à luzgeralmente a quatro filhotes por vez, pesando até 1,5 kg e já nascem com pelose dentição permanente. em cativeiro, pode viver até 12 anos de idade.

python3 fool-stemmer.py capivara-pt.txt

Page 44: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

44

fool-stemmer

a cap (nom cie: hyd hyd) é uma esp demam roe da fam cav e sub hyd. alg autcon que dev ser cla em uma fam pró. est inc nomes gru de roe ao qua se cla as pac, cut, os pre e opor-da-índ. oco por tod a amé do sul ao les dos and emhab ass a rio, lag e pân, do nív do mar até 1 300 m dealt. ext ada, pod oco em amb alt altpel ser hum.

é o mai roe do mun, pes até 91 kg e med até 1,2 m de come 60 cm de alt. a pel é den, de cor ave a mar esc. épos dis os mac por con da pre de uma glâ prono foc ape do dim sex não ser apa. exi uma sér deada no sis dig à her, pri no cec. alca mat sex com cer de 1,5 ano de ida, e as fêm dão à luzger a qua fil por vez, pes até 1,5 kg e já nas com pele den per. em cat, pod viv até 12 ano de ida.

Page 45: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

45

fool-stemmer

https://text-compare.com/

Over-stemming

Quando é removido não só o sufixo, mas também uma parte do radical (2 palavras são reduzidas a um mesmo radical).

Page 46: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

46

Algoritmo de Martin F. Porter

Porter, Martin. F. (1980). An algorithm for suffix stripping. Program, 14(3), 130-137.

Inicialmente publicado em um relatório de projeto final de Recuperação de Informação

C.J. van Rijsbergen, S.E. Robertson and M.F. Porter, 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587).

O algoritmo é mais completo e mais “simples” do que Julie Lovins

O stemmer mais utilizado atualmente.

1944-Cambridge

Page 47: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

47

Algoritmo de Porter

https://tartarus.org/martin/PorterStemmer/

Page 48: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

48

porter-stemmer.py

Page 49: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

49

porter-stemmer.py

Page 50: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

50

Prática

python3 porter-stemmer.py The-Iliad-of-Homer.txt > \The-Iliad-of-Homer.txt.porter.txt

python3 fool-stemmer.py The-Iliad-of-Homer.txt > \The-Iliad-of-Homer.txt.fool.txt

Para o resumo: Por favor, responda brevemente. No contexto de algoritmos de stemming, o que é Snowball?

Page 51: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

51

Outras abordagens para stemming?

Page 52: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

52

Uma aplicação: Rede (grafo) de palavras

Page 53: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

53

Rede (grafo) de palavras: graph1.py

Page 54: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

54

Prática 1

python3 graph1.py capivara-pt.txt 2

https://dreampuf.github.io/GraphvizOnline/

Duas palavras estão ligadas se ambas estão adjacentes em uma frase.

Page 55: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

55

Prática 2

python3 graph1.py capivara-pt.txt 1

Page 56: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

56

Prática 3

python3 graph1.py The-Iliad-of-Homer.txt 200

Page 57: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

57

Prática 4

python3 graph1.py The-Iliad-of-Homer.txt 100

Page 58: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

58

Prática 5

Modifique o programa anterior (graph1.py) para criação de um grafo de palavras sem as stopwords.

Use o arquivo stopwords.txt

python3 graph2.py The-Iliad-of-Homer.txt 20

Page 59: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

59

Prática 5

Page 60: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

60

Prática 6

python3 graph2.py resumos-aula-04.txt 5

Page 61: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

61

Mais sobre visualização (graphviz)

http://graphs.grevian.org/example

Page 62: Normalização de texto: Stemmingprofessor.ufabc.edu.br/~jesus.mena/courses/pln-2q... · a mat sex com cer de 1,5 ano de ida, e as fêm dão à luz ger a qua fil por vez, pes até

62

Redes (Grafos) de co-ocorrencia de palavras

Permitem identificar, de forma visual, relações potenciais entre elementos (palavras)?

Podemos considerar propriedades topológicas nos grafos para descoberta de conhecimento a partir de textos?

Podemos estudar a organização das palavras?