Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas
dc.contributor.advisor | Silva, Leandro Augusto da | |
dc.contributor.author | Gonçalves Junior, Jairo Rodrigues | |
dc.date.accessioned | 2023-12-07T12:32:45Z | |
dc.date.available | 2023-12-07T12:32:45Z | |
dc.date.issued | 2023-10-20 | |
dc.description.abstract | Avanços notáveis ocorreram nos modelos de linguagem natural, impulsionados pelo surgimento de transformadores pré-treinados e aprendizado profundo. Embora os resultados sejam promissores, persistem desafios quando esses modelos são aplicados em ambientes produtivos. Modelos de classificação estão em constante evolução, sendo alimentados por novos dados e realizando previsões de forma contínua. Entretanto, os dados podem gradualmente alterar sua distribuição de probabilidades, divergindo do conjunto de treinamento original usado para treinar o modelo. Esse fenômeno, denominado deriva do modelo, implica na degradação do desempenho do modelo. A deriva do modelo pode ser ocasionada por diversas razões a ser uma delas o desvio de conceito, que ocorre quando há mudanças apenas na classe prevista, sem afetar outros atributos. Outra causa está relacionada à mudança na distribuição dos dados, independentemente de afetar diretamente a classe. Este estudo tem como foco analisar a deriva de modelos de linguagem natural, empregando métodos que detectem de forma eficaz a deriva do modelo ao longo do tempo. Para esse fim, foram explorados detectores de deriva, incluindo analises de distância, como a distância de Wasserstein, testes de hipótese multivariados como Maximum Mean Discrepancy e Least-Squares Density Dierence, teste de divergência e de classificação como os método Jensen-Shannon e Classifier. Essas abordagens foram integradas a um fluxo de gerenciamento durante o treinamento do modelo de aprendizado de máquina. Tais estratégias contribuem para a supervisão contínua e a sustentabilidade dos modelos de linguagem natural, emitindo alertas à medida que o desempenho do modelo se degrada com o tempo. Os resultados deste estudo evidenciaram um notável sucesso na previsão de intenções. Essa avaliação foi realizada por meio da métrica de acurácia. O bom desempenho foi alcançado ao empregar o modelo BERT para incorporação e transformação das sentenças no conjunto de dados analisado, originário de postagens da rede social X. O processo de classificação dentre alguns métodos de incorporação de palavras se mostrou necessário para a analise dos métodos de detecção de deriva. Além de destacar a eficácia do modelo BERT, este estudo explora o método Maximum Mean Discrepancy, que se sobressai como uma abordagem na detecção de deriva no modelo na proposta do estudo. Especificamente, ao comparar-se com outros métodos em termos de detecção de desequilíbrio nos lotes de dados, este método revelou sua capacidade para identificar padrões de deriva. Sua habilidade em lidar com fenômenos como data drift foi notável, demonstrando um desempenho superior e consistente aos demais métodos explorados. | |
dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível | |
dc.identifier.uri | https://dspace.mackenzie.br/handle/10899/33747 | |
dc.language.iso | pt_BR | |
dc.language.iso | en | |
dc.publisher | Universidade Presbiteriana Mackenzie | |
dc.subject | reconhecimento de intenção | |
dc.subject | detecção de deriva | |
dc.subject | data drift | |
dc.subject | word embeddings | |
dc.title | Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas | |
dc.type | Dissertação | |
local.contributor.advisorLattes | http://lattes.cnpq.br/1396385111251741 | |
local.contributor.advisorOrcid | https://orcid.org/0000-0002-8671-3102 | |
local.contributor.authorLattes | http://lattes.cnpq.br/1731541501212436 | |
local.contributor.board1 | Sampaio, Gustavo Scalabrini | |
local.contributor.board1Lattes | http://lattes.cnpq.br/6516369977507577 | |
local.contributor.board1Orcid | https://orcid.org/0000-0003-1150-5584 | |
local.contributor.board2 | Souza, Alexandra Aparecida de | |
local.contributor.board2Lattes | http://lattes.cnpq.br/1119774618311172 | |
local.description.abstracten | Remarkable advancements have occurred in natural language models, driven by the emer gence of pretrained transformers and deep learning. While the results are promising, chal lenges persist when these models are applied in production environments. Classification models are continuously evolving, fueled by new data and making predictions continu ously. However, data may gradually alter its probability distribution, diverging from the original training set used to train the model. This phenomenon, known as model drift, im plies a degradation in model performance. Model drift can be caused by various reasons, one of them being concept drift, which occurs when there are changes only in the predicted class without a↵ecting other attributes. Another cause is related to changes in the data distribution, regardless of directly a↵ecting the class. This study focuses on analyzing the drift of natural language models, employing methods that e↵ectively detect model drift over time. For this purpose, drift detectors were explored, including distance analyses such as Wasserstein distance, multivariate hypothesis tests like Maximum Mean Discre pancy and Least-Squares Density Di↵erence, divergence tests, and classification methods such as Jensen-Shannon and Classifier. These approaches were integrated into a manage ment flow during the training of the machine learning model. Such strategies contribute to the continuous monitoring and sustainability of natural language models, issuing alerts as the model’s performance degrades over time. The results of this study demonstrated notable success in intention prediction, evaluated through the accuracy metric. Good performance was achieved by employing the BERT model for sentence embedding and transformation in the analyzed dataset, originating from social media posts on platform X. The classification process among various word embedding methods proved necessary for the analysis of drift detection methods. In addition to highlighting the e↵ectiveness of the BERT model, this study explores the Maximum Mean Discrepancy method, which stands out as an approach in detecting model drift in the study’s proposal. Specifically, compared to other methods in terms of detecting imbalance in data batches, this method revealed its ability to identify drift patterns. Its ability to handle phenomena like data drift was remarkable, demonstrating superior and consistent performance compared to other explored methods. | |
local.keywords | Intent recognition | |
local.keywords | drift detection | |
local.keywords | data drift | |
local.keywords | word embeddings | |
local.publisher.country | Brasil | |
local.publisher.department | Escola de Engenharia Mackenzie (EE) | |
local.publisher.initials | UPM | |
local.publisher.program | Engenharia Elétrica e Computação | |
local.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- JAIRO RODRIGUES GONÇALVES JUNIOR - protegido.pdf
- Tamanho:
- 5.12 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.22 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: