Detecção de tópicos em documentos usando agrupamento de vetores de palavras
Carregando...
Tipo
Dissertação
Data de publicação
2020-08-21
Periódico
Citações (Scopus)
Autores
Miranda, Guilherme Raiol de
Orientador
Silva, Leandro Nunes de Castro
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Araújo, Renata Mendes de
Coello, Juan Manuel Adán
Coello, Juan Manuel Adán
Programa
Engenharia Elétrica
Resumo
Com o aumento exponencial de textos gerados a cada ano, a procura de técnicas de Processamento de Língua Natural vem aumentado, tanto por empresas, como pela Academia. A detecção automática de tópicos em documentos é uma das tarefas mais desafiadoras e úteis para a descoberta de informações e sumarização de documentos. Técnicas tradicionais de detecção de tópicos, como a Latent Dirichlet Allocation (LDA) e a Non-Negative Matrix Factorization (NMF), originalmente não produzem bons resultados para bases de dados grandes, nem utilizam informações sintáticas e semânticas para geração de tópicos. Recentemente, técnicas de vetorização de palavras, como o Word2Vec, provaram ter um bom desempenho computacional em grandes conjuntos de dados e serem eficazes representando palavras como vetores de palavras de forma distribuída, mantendo as informações sintáticas e semânticas. Esta dissertação propõe a verificação da seguinte questão de pesquisa: O Word2Vec é capaz de prover informações suficientes para a geração de tópicos interpretáveis? Para a validação, foi proposto um método, denominado Word2Topic, com duas abordagens para a geração dos tópicos: agrupamento direto dos vetores de palavras e agrupamento após redução de dimensionalidade. O método foi aplicado em duas bases referência da literatura e foi comparado com os algoritmos tradicionais por uma métrica de interpretabilidade dos tópicos. Foi observado nos resultados que as técnicas propostas em uma das bases de dados gerou conjuntos de palavras interpretáveis ou de classes morfológicas similares. Os tópicos obtidos foram similares aos da técnica NMF, enquanto a técnica LDA não conseguiu gerar tópicos interpretáveis. Não foi possível validar completamente a questão de pesquisa, pois os resultados da segunda base não permitiram a mesma interpretabilidade ou geração de palavras morfologicamente similares.
Descrição
Palavras-chave
processamendo de língua natural , detecção de tópicos , word2vec
Assuntos Scopus
Citação
MIRANDA, Guilherme Raiol de. Detecção de tópicos em documentos usando agrupamento de vetores de palavras. 2020. 91 f. Dissertação (Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2020