Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN

dc.contributor.advisorGazzola, Murilo Gleyson
dc.contributor.authorNascimento, Eduardo Pereira
dc.contributor.authorHiga, Henrique Yoshimitsu Nagata
dc.contributor.authorGuerino, Rafael Guizelin
dc.contributor.authorCruz, Vinicius Figueiredo da
dc.date.accessioned2025-03-15T16:59:02Z
dc.date.available2025-03-15T16:59:02Z
dc.date.issued2024-12-07
dc.descriptionIndicado para publicação.
dc.description.abstractEste trabalho propôs o desenvolvimento de um sistema de inteligência artificial para identificação e classificação de doenças com base nos códigos CID-10, utilizando transcrições de consultas médicas e anotações médicas. O sistema integra técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina, com o uso do modelo pré-treinado com dados médicos BERT e modelos de linguagem de grande porte (LLMs) para estruturar as notas de treinamento e predição, além de traduzir as notas no processo de predição. As transcrições foram processadas pelo AWS Transcribe e submetidas a diferentes etapas de pré-processamento. Comparações entre diferentes hiperparâmetros indicaram que o modelo BiomedVLP-CXR-BERT-general apresentou melhor desempenho, com uma precisão média de 61,3%, recall de 60,7% e F1-score de 60,9% para todas as CIDs avaliadas. O sistema demonstrou alta eficiência em testes de fluxo completo, mas desafios como a classificação de casos "Indefinidos" e limitações na quantidade de dados disponíveis para treinamento foram identificados. Apesar disso, o modelo mostrou potencial significativo para impactar positivamente a segurança do paciente e a qualidade dos diagnósticos em cenários clínicos reais.
dc.description.abstractThis study proposed the development of an artificial intelligence system for identifying and classifying diseases based on ICD-10 codes, using medical consultation transcriptions and notes. The system integrates natural language processing (NLP) and machine learning techniques, employing a pre-trained BERT model tailored for medical data and large language models (LLMs) to structure training and prediction notes, as well as to translate notes during the prediction process. Transcriptions were processed via AWS Transcribe and subjected to various preprocessing stages. Comparisons of different hyperparameters indicated that the BiomedVLP-CXR-BERT-general model achieved superior performance, with an average precision of 61.3%, recall of 60.7%, and F1-score of 60.9% across all evaluated ICD codes. The system demonstrated high efficiency in end-to-end testing, but challenges such as the classification of "Undefined" cases and data limitations were noted. Nevertheless, the model showed significant potential to positively impact patient safety and diagnostic quality in real clinical settings.
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/40155
dc.languagept_BR
dc.publisherUniversidade Presbiteriana Mackenzie
dc.subjectinteligência artificial
dc.subjectprocessamento de linguagem natural
dc.subjectCID-10
dc.subjectaprendizado de máquina
dc.subjecttranscrições médicas
dc.subjectartificial intelligence
dc.subjectnatural language processing
dc.subjectICD-10
dc.subjectmachine learning
dc.subjectmedical transcriptions
dc.titleDesenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
dc.typeTCC
local.publisher.departmentFaculdade de Computação e Informática (FCI)
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
130-2024.2-Eduardo P. Nascimento.pdf
Tamanho:
870.56 KB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.22 KB
Formato:
Item-specific license agreed upon to submission
Descrição: