Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas

Gonçalves Junior, Jairo Rodrigues

Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas

dc.contributor.advisor	Silva, Leandro Augusto da
dc.contributor.author	Gonçalves Junior, Jairo Rodrigues
dc.date.accessioned	2023-12-07T12:32:45Z
dc.date.available	2023-12-07T12:32:45Z
dc.date.issued	2023-10-20
dc.description.abstract	Avanços notáveis ocorreram nos modelos de linguagem natural, impulsionados pelo surgimento de transformadores pré-treinados e aprendizado profundo. Embora os resultados sejam promissores, persistem desafios quando esses modelos são aplicados em ambientes produtivos. Modelos de classificação estão em constante evolução, sendo alimentados por novos dados e realizando previsões de forma contínua. Entretanto, os dados podem gradualmente alterar sua distribuição de probabilidades, divergindo do conjunto de treinamento original usado para treinar o modelo. Esse fenômeno, denominado deriva do modelo, implica na degradação do desempenho do modelo. A deriva do modelo pode ser ocasionada por diversas razões a ser uma delas o desvio de conceito, que ocorre quando há mudanças apenas na classe prevista, sem afetar outros atributos. Outra causa está relacionada à mudança na distribuição dos dados, independentemente de afetar diretamente a classe. Este estudo tem como foco analisar a deriva de modelos de linguagem natural, empregando métodos que detectem de forma eficaz a deriva do modelo ao longo do tempo. Para esse fim, foram explorados detectores de deriva, incluindo analises de distância, como a distância de Wasserstein, testes de hipótese multivariados como Maximum Mean Discrepancy e Least-Squares Density Dierence, teste de divergência e de classificação como os método Jensen-Shannon e Classifier. Essas abordagens foram integradas a um fluxo de gerenciamento durante o treinamento do modelo de aprendizado de máquina. Tais estratégias contribuem para a supervisão contínua e a sustentabilidade dos modelos de linguagem natural, emitindo alertas à medida que o desempenho do modelo se degrada com o tempo. Os resultados deste estudo evidenciaram um notável sucesso na previsão de intenções. Essa avaliação foi realizada por meio da métrica de acurácia. O bom desempenho foi alcançado ao empregar o modelo BERT para incorporação e transformação das sentenças no conjunto de dados analisado, originário de postagens da rede social X. O processo de classificação dentre alguns métodos de incorporação de palavras se mostrou necessário para a analise dos métodos de detecção de deriva. Além de destacar a eficácia do modelo BERT, este estudo explora o método Maximum Mean Discrepancy, que se sobressai como uma abordagem na detecção de deriva no modelo na proposta do estudo. Especificamente, ao comparar-se com outros métodos em termos de detecção de desequilíbrio nos lotes de dados, este método revelou sua capacidade para identificar padrões de deriva. Sua habilidade em lidar com fenômenos como data drift foi notável, demonstrando um desempenho superior e consistente aos demais métodos explorados.
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível
dc.identifier.uri	https://dspace.mackenzie.br/handle/10899/33747
dc.language.iso	pt_BR
dc.language.iso	en
dc.publisher	Universidade Presbiteriana Mackenzie
dc.subject	reconhecimento de intenção
dc.subject	detecção de deriva
dc.subject	data drift
dc.subject	word embeddings
dc.title	Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas
dc.type	Dissertação
local.contributor.advisorLattes	http://lattes.cnpq.br/1396385111251741
local.contributor.advisorOrcid	https://orcid.org/0000-0002-8671-3102
local.contributor.authorLattes	http://lattes.cnpq.br/1731541501212436
local.contributor.board1	Sampaio, Gustavo Scalabrini
local.contributor.board1Lattes	http://lattes.cnpq.br/6516369977507577
local.contributor.board1Orcid	https://orcid.org/0000-0003-1150-5584
local.contributor.board2	Souza, Alexandra Aparecida de
local.contributor.board2Lattes	http://lattes.cnpq.br/1119774618311172
local.description.abstracten	Remarkable advancements have occurred in natural language models, driven by the emer gence of pretrained transformers and deep learning. While the results are promising, chal lenges persist when these models are applied in production environments. Classification models are continuously evolving, fueled by new data and making predictions continu ously. However, data may gradually alter its probability distribution, diverging from the original training set used to train the model. This phenomenon, known as model drift, im plies a degradation in model performance. Model drift can be caused by various reasons, one of them being concept drift, which occurs when there are changes only in the predicted class without a↵ecting other attributes. Another cause is related to changes in the data distribution, regardless of directly a↵ecting the class. This study focuses on analyzing the drift of natural language models, employing methods that e↵ectively detect model drift over time. For this purpose, drift detectors were explored, including distance analyses such as Wasserstein distance, multivariate hypothesis tests like Maximum Mean Discre pancy and Least-Squares Density Di↵erence, divergence tests, and classification methods such as Jensen-Shannon and Classifier. These approaches were integrated into a manage ment flow during the training of the machine learning model. Such strategies contribute to the continuous monitoring and sustainability of natural language models, issuing alerts as the model’s performance degrades over time. The results of this study demonstrated notable success in intention prediction, evaluated through the accuracy metric. Good performance was achieved by employing the BERT model for sentence embedding and transformation in the analyzed dataset, originating from social media posts on platform X. The classification process among various word embedding methods proved necessary for the analysis of drift detection methods. In addition to highlighting the e↵ectiveness of the BERT model, this study explores the Maximum Mean Discrepancy method, which stands out as an approach in detecting model drift in the study’s proposal. Specifically, compared to other methods in terms of detecting imbalance in data batches, this method revealed its ability to identify drift patterns. Its ability to handle phenomena like data drift was remarkable, demonstrating superior and consistent performance compared to other explored methods.
local.keywords	Intent recognition
local.keywords	drift detection
local.keywords	data drift
local.keywords	word embeddings
local.publisher.country	Brasil
local.publisher.department	Escola de Engenharia Mackenzie (EE)
local.publisher.initials	UPM
local.publisher.program	Engenharia Elétrica e Computação
local.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: JAIRO RODRIGUES GONÇALVES JUNIOR - protegido.pdf
Tamanho:: 5.12 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.22 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Engenharia Elétrica e Computação - Dissertações - EE Higienópolis