A study on different text representation methods for clustering algorithms

dc.contributor.advisorOliveira, Pedro Paulo Balbi de
dc.contributor.authorFerraria, Matheus Amendoeira
dc.date.accessioned2024-04-22T13:11:47Z
dc.date.available2024-04-22T13:11:47Z
dc.date.issued2024-02-20
dc.description.abstractA crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível
dc.description.sponsorshipCNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/38523
dc.language.isoen
dc.language.isopt_BR
dc.publisherUniversidade Presbiteriana Mackenzie
dc.subjectagrupamento de textos
dc.subjectanálise léxica
dc.subjectmineração de textos
dc.subjectmodelos de linguagem
dc.subjectprocessamento de linguagem natural
dc.subjectrede imunológica artificial
dc.subjectword embeddings
dc.titleA study on different text representation methods for clustering algorithms
dc.typeDissertação
local.contributor.advisorLatteshttp://lattes.cnpq.br/9556738277476279
local.contributor.advisorOrcidhttps://orcid.org/0000-0002-6022-0270
local.contributor.authorLatteshttp://lattes.cnpq.br/8382186109028514
local.contributor.board1Ruivo, Eurico Luiz Prospero
local.contributor.board1Latteshttp://lattes.cnpq.br/5918644808671007
local.contributor.board2Silva, Ana Estela Antunes da
local.contributor.board2Latteshttp://lattes.cnpq.br/9070607576528017
local.contributor.board2Orcidhttps://orcid.org/0000-0001-9886-3506
local.description.abstractenThe increasing availability of massive amounts of text data has drawn a lot of attention for text mining and natural language processing methods. The complexity of using text arises from the fact that, by nature, computers are not able to comprehend text, usually requiring the application of techniques capable of converting texts into a more familiar type of data for computers. Such type of data is commonly referred to as text repre sentation. In the search for finding a proper text representation many studies emerged, each one proposing different philosophies and strategies to represent texts and extract fea tures from them. For this research, three different categories of text representations are studied: Standard Vector Representation by means of Bag-of-Words (BoW); Grammar Based representation, including Linguistic Inquiry and Word Count (LIWC), Part-of Speech Tagging (POS-Tagging) and Medical Research Council Psycholinguistic Database (MRC); and Distributed representations, such as Word2Vec, fastText, Doc2Vec, and Sen tenceBERT. To obtain results that are representative of different types of text data, four categories of texts are used: short texts (e.g., tweets, and text messages), reviews, news and abstracts. The evaluation of the eight text representations studied in this research was performed from a clustering perspective by using aiNet, a nature-inspired clustering algorithm, and the results are evaluated using five different measures split across internal and external measures. Based on the experimental results, it was possible to observe that, overall, grammar-based representations, despite being simpler, provide very competitive results with the more complex distributed representations. Although the results indicate that some very good clusters are being found, they are significantly different from the categories or the clusters available in the original data. Moreover, the obtained results provided a different observation on pre-trained models, as SentenceBERT obtained worse clusters, as indicated by its internal measures, than most of the other representations studied here.
local.keywordsartificial immune network
local.keywordslanguage models
local.keywordslexicon
local.keywordsnatural computing
local.keywordsnatural language processing
local.keywordstext clustering
local.keywordstext mining
local.keywordsword embeddings
local.publisher.countryBrasil
local.publisher.departmentEscola de Engenharia Mackenzie (EE)
local.publisher.initialsUPM
local.publisher.programEngenharia Elétrica e Computação
local.subject.cnpqCNPQ::ENGENHARIAS
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
MATHEUS AMENDOEIRA FERRARIA - protegido.pdf
Tamanho:
4.52 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.22 KB
Formato:
Item-specific license agreed upon to submission
Descrição: