Detecção de tópicos em documentos usando agrupamento de vetores de palavras
dc.contributor.advisor | Silva, Leandro Nunes de Castro | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/2741458816539568 | por |
dc.contributor.author | Miranda, Guilherme Raiol de | |
dc.creator.Lattes | http://lattes.cnpq.br/6553504314681393 | por |
dc.date.accessioned | 2021-12-18T21:44:28Z | |
dc.date.available | 2021-12-18T21:44:28Z | |
dc.date.issued | 2020-08-21 | |
dc.description.abstract | Com o aumento exponencial de textos gerados a cada ano, a procura de técnicas de Processamento de Língua Natural vem aumentado, tanto por empresas, como pela Academia. A detecção automática de tópicos em documentos é uma das tarefas mais desafiadoras e úteis para a descoberta de informações e sumarização de documentos. Técnicas tradicionais de detecção de tópicos, como a Latent Dirichlet Allocation (LDA) e a Non-Negative Matrix Factorization (NMF), originalmente não produzem bons resultados para bases de dados grandes, nem utilizam informações sintáticas e semânticas para geração de tópicos. Recentemente, técnicas de vetorização de palavras, como o Word2Vec, provaram ter um bom desempenho computacional em grandes conjuntos de dados e serem eficazes representando palavras como vetores de palavras de forma distribuída, mantendo as informações sintáticas e semânticas. Esta dissertação propõe a verificação da seguinte questão de pesquisa: O Word2Vec é capaz de prover informações suficientes para a geração de tópicos interpretáveis? Para a validação, foi proposto um método, denominado Word2Topic, com duas abordagens para a geração dos tópicos: agrupamento direto dos vetores de palavras e agrupamento após redução de dimensionalidade. O método foi aplicado em duas bases referência da literatura e foi comparado com os algoritmos tradicionais por uma métrica de interpretabilidade dos tópicos. Foi observado nos resultados que as técnicas propostas em uma das bases de dados gerou conjuntos de palavras interpretáveis ou de classes morfológicas similares. Os tópicos obtidos foram similares aos da técnica NMF, enquanto a técnica LDA não conseguiu gerar tópicos interpretáveis. Não foi possível validar completamente a questão de pesquisa, pois os resultados da segunda base não permitiram a mesma interpretabilidade ou geração de palavras morfologicamente similares. | por |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | por |
dc.description.sponsorship | Fundo Mackenzie de Pesquisa | por |
dc.format | application/pdf | * |
dc.identifier.citation | MIRANDA, Guilherme Raiol de. Detecção de tópicos em documentos usando agrupamento de vetores de palavras. 2020. 91 f. Dissertação (Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2020 | por |
dc.identifier.uri | https://dspace.mackenzie.br/handle/10899/28616 | |
dc.keywords | key-words | eng |
dc.keywords | natural language processing | eng |
dc.keywords | topic modeling | eng |
dc.keywords | word2vec | eng |
dc.language | por | por |
dc.publisher | Universidade Presbiteriana Mackenzie | por |
dc.rights | Acesso Aberto | por |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | processamendo de língua natural | por |
dc.subject | detecção de tópicos | por |
dc.subject | word2vec | por |
dc.subject.cnpq | CNPQ::ENGENHARIAS | por |
dc.title | Detecção de tópicos em documentos usando agrupamento de vetores de palavras | por |
dc.type | Dissertação | por |
local.contributor.board1 | Araújo, Renata Mendes de | |
local.contributor.board1Lattes | http://lattes.cnpq.br/3589012014320121 | por |
local.contributor.board2 | Coello, Juan Manuel Adán | |
local.contributor.board2Lattes | http://lattes.cnpq.br/3087162397314631 / https://orcid.org/0000-0001-5942-9598 | por |
local.publisher.country | Brasil | por |
local.publisher.department | Escola de Engenharia Mackenzie (EE) | por |
local.publisher.initials | UPM | por |
local.publisher.program | Engenharia Elétrica | por |