Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas

dc.contributor.advisorSilva, Leandro Augusto da
dc.contributor.authorGonçalves Junior, Jairo Rodrigues
dc.date.accessioned2023-12-07T12:32:45Z
dc.date.available2023-12-07T12:32:45Z
dc.date.issued2023-10-20
dc.description.abstractAvanços notáveis ocorreram nos modelos de linguagem natural, impulsionados pelo surgimento de transformadores pré-treinados e aprendizado profundo. Embora os resultados sejam promissores, persistem desafios quando esses modelos são aplicados em ambientes produtivos. Modelos de classificação estão em constante evolução, sendo alimentados por novos dados e realizando previsões de forma contínua. Entretanto, os dados podem gradualmente alterar sua distribuição de probabilidades, divergindo do conjunto de treinamento original usado para treinar o modelo. Esse fenômeno, denominado deriva do modelo, implica na degradação do desempenho do modelo. A deriva do modelo pode ser ocasionada por diversas razões a ser uma delas o desvio de conceito, que ocorre quando há mudanças apenas na classe prevista, sem afetar outros atributos. Outra causa está relacionada à mudança na distribuição dos dados, independentemente de afetar diretamente a classe. Este estudo tem como foco analisar a deriva de modelos de linguagem natural, empregando métodos que detectem de forma eficaz a deriva do modelo ao longo do tempo. Para esse fim, foram explorados detectores de deriva, incluindo analises de distância, como a distância de Wasserstein, testes de hipótese multivariados como Maximum Mean Discrepancy e Least-Squares Density Dierence, teste de divergência e de classificação como os método Jensen-Shannon e Classifier. Essas abordagens foram integradas a um fluxo de gerenciamento durante o treinamento do modelo de aprendizado de máquina. Tais estratégias contribuem para a supervisão contínua e a sustentabilidade dos modelos de linguagem natural, emitindo alertas à medida que o desempenho do modelo se degrada com o tempo. Os resultados deste estudo evidenciaram um notável sucesso na previsão de intenções. Essa avaliação foi realizada por meio da métrica de acurácia. O bom desempenho foi alcançado ao empregar o modelo BERT para incorporação e transformação das sentenças no conjunto de dados analisado, originário de postagens da rede social X. O processo de classificação dentre alguns métodos de incorporação de palavras se mostrou necessário para a analise dos métodos de detecção de deriva. Além de destacar a eficácia do modelo BERT, este estudo explora o método Maximum Mean Discrepancy, que se sobressai como uma abordagem na detecção de deriva no modelo na proposta do estudo. Especificamente, ao comparar-se com outros métodos em termos de detecção de desequilíbrio nos lotes de dados, este método revelou sua capacidade para identificar padrões de deriva. Sua habilidade em lidar com fenômenos como data drift foi notável, demonstrando um desempenho superior e consistente aos demais métodos explorados.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/33747
dc.language.isopt_BR
dc.language.isoen
dc.publisherUniversidade Presbiteriana Mackenzie
dc.subjectreconhecimento de intenção
dc.subjectdetecção de deriva
dc.subjectdata drift
dc.subjectword embeddings
dc.titleDetecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas
dc.typeDissertação
local.contributor.advisorLatteshttp://lattes.cnpq.br/1396385111251741
local.contributor.advisorOrcidhttps://orcid.org/0000-0002-8671-3102
local.contributor.authorLatteshttp://lattes.cnpq.br/1731541501212436
local.contributor.board1Sampaio, Gustavo Scalabrini
local.contributor.board1Latteshttp://lattes.cnpq.br/6516369977507577
local.contributor.board1Orcidhttps://orcid.org/0000-0003-1150-5584
local.contributor.board2Souza, Alexandra Aparecida de
local.contributor.board2Latteshttp://lattes.cnpq.br/1119774618311172
local.description.abstractenRemarkable advancements have occurred in natural language models, driven by the emer gence of pretrained transformers and deep learning. While the results are promising, chal lenges persist when these models are applied in production environments. Classification models are continuously evolving, fueled by new data and making predictions continu ously. However, data may gradually alter its probability distribution, diverging from the original training set used to train the model. This phenomenon, known as model drift, im plies a degradation in model performance. Model drift can be caused by various reasons, one of them being concept drift, which occurs when there are changes only in the predicted class without a↵ecting other attributes. Another cause is related to changes in the data distribution, regardless of directly a↵ecting the class. This study focuses on analyzing the drift of natural language models, employing methods that e↵ectively detect model drift over time. For this purpose, drift detectors were explored, including distance analyses such as Wasserstein distance, multivariate hypothesis tests like Maximum Mean Discre pancy and Least-Squares Density Di↵erence, divergence tests, and classification methods such as Jensen-Shannon and Classifier. These approaches were integrated into a manage ment flow during the training of the machine learning model. Such strategies contribute to the continuous monitoring and sustainability of natural language models, issuing alerts as the model’s performance degrades over time. The results of this study demonstrated notable success in intention prediction, evaluated through the accuracy metric. Good performance was achieved by employing the BERT model for sentence embedding and transformation in the analyzed dataset, originating from social media posts on platform X. The classification process among various word embedding methods proved necessary for the analysis of drift detection methods. In addition to highlighting the e↵ectiveness of the BERT model, this study explores the Maximum Mean Discrepancy method, which stands out as an approach in detecting model drift in the study’s proposal. Specifically, compared to other methods in terms of detecting imbalance in data batches, this method revealed its ability to identify drift patterns. Its ability to handle phenomena like data drift was remarkable, demonstrating superior and consistent performance compared to other explored methods.
local.keywordsIntent recognition
local.keywordsdrift detection
local.keywordsdata drift
local.keywordsword embeddings
local.publisher.countryBrasil
local.publisher.departmentEscola de Engenharia Mackenzie (EE)
local.publisher.initialsUPM
local.publisher.programEngenharia Elétrica e Computação
local.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
JAIRO RODRIGUES GONÇALVES JUNIOR - protegido.pdf
Tamanho:
5.12 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.22 KB
Formato:
Item-specific license agreed upon to submission
Descrição: