Composição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dados
Tipo
Tese
Data de publicação
2021-12-10
Periódico
Citações (Scopus)
Autores
Mendes, Renê de Ávila
Orientador
Silva, Leandro Augusto da
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Bido, Diógenes de Souza
Carvalho, André Carlos Ponce de Leon Ferreira de
Vallim Filho, Arnaldo Rabello de Aguiar
Souza, Alexandra Aparecida de
Carvalho, André Carlos Ponce de Leon Ferreira de
Vallim Filho, Arnaldo Rabello de Aguiar
Souza, Alexandra Aparecida de
Programa
Engenharia Elétrica e Computação
Resumo
A classificação de dados é uma tarefa de mineração de dados que consiste
na aplicação de um algoritmo a conjunto de dados de treinamento com a finalidade
de inferir a classe de um objeto (não classificado) em análise. Uma parte significa tiva do desempenho do algoritmo de classificação depende da complexidade e da
qualidade do conjunto de dados. A Complexidade dos Dados envolve a investigação
dos efeitos da dimensionalidade, da sobreposição de atributos e da separabilidade
das classes. A Qualidade dos Dados, no que lhe concerne, se concentra em aspectos
como ruídos e valores ausentes. Na literatura são poucos os estudos que debatem
a relação entre os fatores, complexidade e qualidade, visando ponderar a influência
de cada um na qualidade do desempenho de um algoritmo. Esta pesquisa aplica
a Modelagem de Equações Estruturais (SEM) e o algoritmo Partial Least Squa res Structural Equation Modeling (PLS-SEM) e, de forma inovadora, apresenta um
indicador composto, chamado de Indicador de Qualidade de Classificação para con juntos de dados binários (IQCb), que associa as contribuições da Complexidade
dos Dados e da Qualidade dos Dados para a Qualidade da Classificação. A mode lagem experimental com 178 conjuntos de dados obtidos do repositório OpenML
mostrou que o controle da complexidade melhora os resultados da classificação mais
do que a qualidade dos dados. Adicionalmente, esta tese também apresenta uma
ferramenta visual para a avaliação de conjuntos de dados quanto ao desempenho de
classificação.
Descrição
Palavras-chave
complexidade de dados , qualidade de dados , classificação de dados , SEM , PLS-SEM