Um método para extração de palavras-chave de documentos representados em grafos

Imagem de Miniatura
Tipo
Dissertação
Data
2014-02-05
Autores
Abilhoa, Willyan Daniel
Orientador
Silva, Leandro Nunes de Castro
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Oliveira, Pedro Paulo Balbi de
Omar, Nizam
Carvalho, Marco Antônio Garcia de
França, Fabricio Olivetti de
Programa
Engenharia Elétrica
Resumo
O Twitter é um serviço de microblog que gera um grande volume de dados textuais. Todo esse conteúdo precisa ser explorado por meio de técnicas de mineração de textos, processamento de linguagem natural e recuperação de informação com o objetivo de extrair um conhecimento que seja útil de alguma forma ou em algum processo. Nesse contexto, a extração automática de palavras-chave é uma tarefa que pode ser usada para a indexação, sumarização e compreensão de documentos. Um passo fundamental nas técnicas de mineração de textos consiste em construir um modelo de representação de documentos. O modelo chamado mode-lo de espaço vetorial, VSM, é o mais conhecido e utilizado dentre essas técnicas. No entanto, algumas dificuldades e limitações do VSM, tais como escalabilidade e esparsidade, motivam a proposta de abordagens alternativas. O presente trabalho propõe o método TKG (Twitter Keyword Graph) de extração de palavras-chave de coleções de tweets que representa textos como grafos e aplica medidas de centralidade para encontrar vértices relevantes, correspondentes às palavras-chave. Para medir o desempenho da abordagem proposta, dois diferentes experimentos são realizados e comparações com TF-IDF e KEA são feitas, tendo classifica-ções humanas como referência. Os experimentos realizados mostraram que algumas variações do TKG são superiores a outras e também aos algoritmos usados para comparação.
Descrição
Palavras-chave
mineração de textos , representação de textos em grafo , extração de palavras-chave , medidas de centralidade , text mining , text representation in graphs , keyword extraction , centrality measures
Citação
ABILHOA, Willyan Daniel. Um método para extração de palavras-chave de documentos representados em grafos. 2014. 87 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2014.