Utilização do Pointwise Mutual Information na Identificação de Expressões Multipalavras

William Christhie Christhie, W

Parcilene Fernandes Brito Brito, P. F.

Resumo

Este trabalho apresenta o processo de extração de candidatas a Expressões Multipalavras em Português. Para isso, foi utilizado um corpus com mais de um milhão de comentários sobre turismo, etiquetados morfossintaticamente. Foi desenvolvido um algoritmo para pesquisar sequências de palavras que respeitem os padrões morfológicos de compostos nominais. Para as candidatas selecionadas, o algoritmo calculou o valor de Pointwise Mutual Information (PMI). Analisou-se a distribuição de frequência para os valores encontrados. Resultados preliminares sugerem que uma faixa intermediária de PMI contém as expressões mais significativas.

19 de Outubro de 2015

25-34

Palmas-TO

e-ISSN:2447-0767

Como referenciar

Christhie, W; Brito, P. F.. Utilização do Pointwise Mutual Information na Identificação de Expressões Multipalavras. In: ENCOINFO - Congresso de Computação e Tecnologias da Informação, 17., 2015, Palmas - TO. Anais [...]. Palmas - TO: CEULP/ULBRA, 2015. p. 25 - 34. ISSN e-ISSN: 2447-0767 versão online. Disponível em: https://ulbra-to.br/encoinfo/edicoes/2015/artigos/utilizacao-do-pointwise-mutual-information-na-identificacao-de-expressoes-multipalavras/. Acesso em: 03 jul. 2024