Detecção de tópicos em documentos usando agrupamento de vetores de palavras

dc.contributor.advisorSilva, Leandro Nunes de Castro
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2741458816539568por
dc.contributor.authorMiranda, Guilherme Raiol de
dc.creator.Latteshttp://lattes.cnpq.br/6553504314681393por
dc.date.accessioned2021-12-18T21:44:28Z
dc.date.available2021-12-18T21:44:28Z
dc.date.issued2020-08-21
dc.description.abstractCom o aumento exponencial de textos gerados a cada ano, a procura de técnicas de Processamento de Língua Natural vem aumentado, tanto por empresas, como pela Academia. A detecção automática de tópicos em documentos é uma das tarefas mais desafiadoras e úteis para a descoberta de informações e sumarização de documentos. Técnicas tradicionais de detecção de tópicos, como a Latent Dirichlet Allocation (LDA) e a Non-Negative Matrix Factorization (NMF), originalmente não produzem bons resultados para bases de dados grandes, nem utilizam informações sintáticas e semânticas para geração de tópicos. Recentemente, técnicas de vetorização de palavras, como o Word2Vec, provaram ter um bom desempenho computacional em grandes conjuntos de dados e serem eficazes representando palavras como vetores de palavras de forma distribuída, mantendo as informações sintáticas e semânticas. Esta dissertação propõe a verificação da seguinte questão de pesquisa: O Word2Vec é capaz de prover informações suficientes para a geração de tópicos interpretáveis? Para a validação, foi proposto um método, denominado Word2Topic, com duas abordagens para a geração dos tópicos: agrupamento direto dos vetores de palavras e agrupamento após redução de dimensionalidade. O método foi aplicado em duas bases referência da literatura e foi comparado com os algoritmos tradicionais por uma métrica de interpretabilidade dos tópicos. Foi observado nos resultados que as técnicas propostas em uma das bases de dados gerou conjuntos de palavras interpretáveis ou de classes morfológicas similares. Os tópicos obtidos foram similares aos da técnica NMF, enquanto a técnica LDA não conseguiu gerar tópicos interpretáveis. Não foi possível validar completamente a questão de pesquisa, pois os resultados da segunda base não permitiram a mesma interpretabilidade ou geração de palavras morfologicamente similares.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superiorpor
dc.description.sponsorshipFundo Mackenzie de Pesquisapor
dc.formatapplication/pdf*
dc.identifier.citationMIRANDA, Guilherme Raiol de. Detecção de tópicos em documentos usando agrupamento de vetores de palavras. 2020. 91 f. Dissertação (Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2020por
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/28616
dc.keywordskey-wordseng
dc.keywordsnatural language processingeng
dc.keywordstopic modelingeng
dc.keywordsword2veceng
dc.languageporpor
dc.publisherUniversidade Presbiteriana Mackenziepor
dc.rightsAcesso Abertopor
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectprocessamendo de língua naturalpor
dc.subjectdetecção de tópicospor
dc.subjectword2vecpor
dc.subject.cnpqCNPQ::ENGENHARIASpor
dc.titleDetecção de tópicos em documentos usando agrupamento de vetores de palavraspor
dc.typeDissertaçãopor
local.contributor.board1Araújo, Renata Mendes de
local.contributor.board1Latteshttp://lattes.cnpq.br/3589012014320121por
local.contributor.board2Coello, Juan Manuel Adán
local.contributor.board2Latteshttp://lattes.cnpq.br/3087162397314631 / https://orcid.org/0000-0001-5942-9598por
local.publisher.countryBrasilpor
local.publisher.departmentEscola de Engenharia Mackenzie (EE)por
local.publisher.initialsUPMpor
local.publisher.programEngenharia Elétricapor
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
GUILHERME RAIOL DE MIRANDA - protegido.pdf
Tamanho:
1015.74 KB
Formato:
Adobe Portable Document Format
Descrição:
Guilherme Raiol de Miranda
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.06 KB
Formato:
Plain Text
Descrição: