A study on different text representation methods for clustering algorithms

Carregando...
Imagem de Miniatura
Tipo
Dissertação
Data de publicação
2024-02-20
Periódico
Citações (Scopus)
Autores
Ferraria, Matheus Amendoeira
Orientador
Oliveira, Pedro Paulo Balbi de
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Ruivo, Eurico Luiz Prospero
Silva, Ana Estela Antunes da
Programa
Engenharia Elétrica e Computação
Resumo
A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.
Descrição
Palavras-chave
agrupamento de textos , análise léxica , mineração de textos , modelos de linguagem , processamento de linguagem natural , rede imunológica artificial , word embeddings
Assuntos Scopus
Citação