Composição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dados

Carregando...
Imagem de Miniatura
Tipo
Tese
Data de publicação
2021-12-10
Periódico
Citações (Scopus)
Autores
Mendes, Renê de Ávila
Orientador
Silva, Leandro Augusto da
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Bido, Diógenes de Souza
Carvalho, André Carlos Ponce de Leon Ferreira de
Vallim Filho, Arnaldo Rabello de Aguiar
Souza, Alexandra Aparecida de
Programa
Engenharia Elétrica e Computação
Resumo
A classificação de dados é uma tarefa de mineração de dados que consiste na aplicação de um algoritmo a conjunto de dados de treinamento com a finalidade de inferir a classe de um objeto (não classificado) em análise. Uma parte significa tiva do desempenho do algoritmo de classificação depende da complexidade e da qualidade do conjunto de dados. A Complexidade dos Dados envolve a investigação dos efeitos da dimensionalidade, da sobreposição de atributos e da separabilidade das classes. A Qualidade dos Dados, no que lhe concerne, se concentra em aspectos como ruídos e valores ausentes. Na literatura são poucos os estudos que debatem a relação entre os fatores, complexidade e qualidade, visando ponderar a influência de cada um na qualidade do desempenho de um algoritmo. Esta pesquisa aplica a Modelagem de Equações Estruturais (SEM) e o algoritmo Partial Least Squa res Structural Equation Modeling (PLS-SEM) e, de forma inovadora, apresenta um indicador composto, chamado de Indicador de Qualidade de Classificação para con juntos de dados binários (IQCb), que associa as contribuições da Complexidade dos Dados e da Qualidade dos Dados para a Qualidade da Classificação. A mode lagem experimental com 178 conjuntos de dados obtidos do repositório OpenML mostrou que o controle da complexidade melhora os resultados da classificação mais do que a qualidade dos dados. Adicionalmente, esta tese também apresenta uma ferramenta visual para a avaliação de conjuntos de dados quanto ao desempenho de classificação.
Descrição
Palavras-chave
complexidade de dados , qualidade de dados , classificação de dados , SEM , PLS-SEM
Assuntos Scopus
Citação