Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas
Tipo
Dissertação
Data de publicação
2023-10-20
Periódico
Citações (Scopus)
Autores
Gonçalves Junior, Jairo Rodrigues
Orientador
Silva, Leandro Augusto da
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Sampaio, Gustavo Scalabrini
Souza, Alexandra Aparecida de
Souza, Alexandra Aparecida de
Programa
Engenharia Elétrica e Computação
Resumo
Avanços notáveis ocorreram nos modelos de linguagem natural, impulsionados pelo surgimento de transformadores pré-treinados e aprendizado profundo. Embora os resultados sejam promissores, persistem desafios quando esses modelos são aplicados em ambientes produtivos. Modelos de classificação estão em constante evolução, sendo alimentados por novos dados e realizando previsões de forma contínua. Entretanto, os dados podem gradualmente alterar sua distribuição de probabilidades, divergindo do conjunto de treinamento original usado para treinar o modelo. Esse fenômeno, denominado deriva do modelo, implica na degradação do desempenho do modelo. A deriva do modelo pode ser ocasionada por diversas razões a ser uma delas o desvio de conceito, que ocorre quando há mudanças apenas na classe prevista, sem afetar outros atributos. Outra causa está relacionada à mudança na distribuição dos dados, independentemente de afetar diretamente a classe. Este estudo tem como foco analisar a deriva de modelos de linguagem natural, empregando métodos que detectem de forma eficaz a deriva do modelo ao longo do tempo. Para esse fim, foram explorados detectores de deriva, incluindo analises de distância, como a distância de Wasserstein, testes de hipótese multivariados como Maximum Mean Discrepancy e Least-Squares Density Dierence, teste de divergência e de classificação como os método Jensen-Shannon e Classifier. Essas abordagens foram integradas a um fluxo de gerenciamento durante o treinamento do modelo de aprendizado de máquina. Tais estratégias contribuem para a supervisão contínua e a sustentabilidade dos modelos de linguagem natural, emitindo alertas à medida que o desempenho do modelo se degrada com o tempo. Os resultados deste estudo evidenciaram um notável sucesso na previsão de intenções. Essa avaliação foi realizada por meio da métrica de acurácia. O bom desempenho foi alcançado ao empregar o modelo BERT para incorporação e transformação das sentenças no conjunto de dados analisado, originário de postagens da rede social X. O processo de classificação dentre alguns métodos de incorporação de palavras se mostrou necessário para a analise dos métodos de detecção de deriva. Além de destacar a eficácia do modelo BERT, este estudo explora o método Maximum Mean Discrepancy, que se sobressai como uma abordagem na detecção de deriva no modelo na proposta do estudo. Especificamente, ao comparar-se com outros métodos em termos de detecção de desequilíbrio nos lotes de dados, este método revelou sua capacidade para identificar padrões de deriva. Sua habilidade em lidar com fenômenos como data drift foi notável, demonstrando um desempenho superior e consistente aos demais métodos explorados.
Descrição
Palavras-chave
reconhecimento de intenção , detecção de deriva , data drift , word embeddings