Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN

Carregando...
Imagem de Miniatura
Tipo
TCC
Data de publicação
2024-12-07
Periódico
Citações (Scopus)
Autores
Nascimento, Eduardo Pereira
Higa, Henrique Yoshimitsu Nagata
Guerino, Rafael Guizelin
Cruz, Vinicius Figueiredo da
Orientador
Gazzola, Murilo Gleyson
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Programa
Resumo
Este trabalho propôs o desenvolvimento de um sistema de inteligência artificial para identificação e classificação de doenças com base nos códigos CID-10, utilizando transcrições de consultas médicas e anotações médicas. O sistema integra técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina, com o uso do modelo pré-treinado com dados médicos BERT e modelos de linguagem de grande porte (LLMs) para estruturar as notas de treinamento e predição, além de traduzir as notas no processo de predição. As transcrições foram processadas pelo AWS Transcribe e submetidas a diferentes etapas de pré-processamento. Comparações entre diferentes hiperparâmetros indicaram que o modelo BiomedVLP-CXR-BERT-general apresentou melhor desempenho, com uma precisão média de 61,3%, recall de 60,7% e F1-score de 60,9% para todas as CIDs avaliadas. O sistema demonstrou alta eficiência em testes de fluxo completo, mas desafios como a classificação de casos "Indefinidos" e limitações na quantidade de dados disponíveis para treinamento foram identificados. Apesar disso, o modelo mostrou potencial significativo para impactar positivamente a segurança do paciente e a qualidade dos diagnósticos em cenários clínicos reais.
This study proposed the development of an artificial intelligence system for identifying and classifying diseases based on ICD-10 codes, using medical consultation transcriptions and notes. The system integrates natural language processing (NLP) and machine learning techniques, employing a pre-trained BERT model tailored for medical data and large language models (LLMs) to structure training and prediction notes, as well as to translate notes during the prediction process. Transcriptions were processed via AWS Transcribe and subjected to various preprocessing stages. Comparisons of different hyperparameters indicated that the BiomedVLP-CXR-BERT-general model achieved superior performance, with an average precision of 61.3%, recall of 60.7%, and F1-score of 60.9% across all evaluated ICD codes. The system demonstrated high efficiency in end-to-end testing, but challenges such as the classification of "Undefined" cases and data limitations were noted. Nevertheless, the model showed significant potential to positively impact patient safety and diagnostic quality in real clinical settings.
Descrição
Indicado para publicação.
Palavras-chave
inteligência artificial , processamento de linguagem natural , CID-10 , aprendizado de máquina , transcrições médicas , artificial intelligence , natural language processing , ICD-10 , machine learning , medical transcriptions
Assuntos Scopus
Citação