Um método para extração de palavras-chave de documentos representados em grafos

Thumbnail Image
item.page.type
Dissertação
Date
2014-02-05
item.page.ispartof
item.page.citationsscopus
Authors
Abilhoa, Willyan Daniel
publication.page.advisor
Silva, Leandro Nunes de Castro
Journal Title
Journal ISSN
Volume Title
publication.page.board
Oliveira, Pedro Paulo Balbi de
Omar, Nizam
Carvalho, Marco Antônio Garcia de
França, Fabricio Olivetti de
publication.page.program
Engenharia Elétrica
Abstract
O Twitter é um serviço de microblog que gera um grande volume de dados textuais. Todo esse conteúdo precisa ser explorado por meio de técnicas de mineração de textos, processamento de linguagem natural e recuperação de informação com o objetivo de extrair um conhecimento que seja útil de alguma forma ou em algum processo. Nesse contexto, a extração automática de palavras-chave é uma tarefa que pode ser usada para a indexação, sumarização e compreensão de documentos. Um passo fundamental nas técnicas de mineração de textos consiste em construir um modelo de representação de documentos. O modelo chamado mode-lo de espaço vetorial, VSM, é o mais conhecido e utilizado dentre essas técnicas. No entanto, algumas dificuldades e limitações do VSM, tais como escalabilidade e esparsidade, motivam a proposta de abordagens alternativas. O presente trabalho propõe o método TKG (Twitter Keyword Graph) de extração de palavras-chave de coleções de tweets que representa textos como grafos e aplica medidas de centralidade para encontrar vértices relevantes, correspondentes às palavras-chave. Para medir o desempenho da abordagem proposta, dois diferentes experimentos são realizados e comparações com TF-IDF e KEA são feitas, tendo classifica-ções humanas como referência. Os experimentos realizados mostraram que algumas variações do TKG são superiores a outras e também aos algoritmos usados para comparação.
Description
Keywords
mineração de textos , representação de textos em grafo , extração de palavras-chave , medidas de centralidade , text mining , text representation in graphs , keyword extraction , centrality measures
item.page.scopussubject
Citation
ABILHOA, Willyan Daniel. Um método para extração de palavras-chave de documentos representados em grafos. 2014. 87 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2014.