Composição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dados

dc.contributor.advisorSilva, Leandro Augusto da
dc.contributor.authorMendes, Renê de Ávila
dc.date.accessioned2022-05-24T11:35:01Z
dc.date.available2022-05-24T11:35:01Z
dc.date.issued2021-12-10
dc.description.abstractA classificação de dados é uma tarefa de mineração de dados que consiste na aplicação de um algoritmo a conjunto de dados de treinamento com a finalidade de inferir a classe de um objeto (não classificado) em análise. Uma parte significa tiva do desempenho do algoritmo de classificação depende da complexidade e da qualidade do conjunto de dados. A Complexidade dos Dados envolve a investigação dos efeitos da dimensionalidade, da sobreposição de atributos e da separabilidade das classes. A Qualidade dos Dados, no que lhe concerne, se concentra em aspectos como ruídos e valores ausentes. Na literatura são poucos os estudos que debatem a relação entre os fatores, complexidade e qualidade, visando ponderar a influência de cada um na qualidade do desempenho de um algoritmo. Esta pesquisa aplica a Modelagem de Equações Estruturais (SEM) e o algoritmo Partial Least Squa res Structural Equation Modeling (PLS-SEM) e, de forma inovadora, apresenta um indicador composto, chamado de Indicador de Qualidade de Classificação para con juntos de dados binários (IQCb), que associa as contribuições da Complexidade dos Dados e da Qualidade dos Dados para a Qualidade da Classificação. A mode lagem experimental com 178 conjuntos de dados obtidos do repositório OpenML mostrou que o controle da complexidade melhora os resultados da classificação mais do que a qualidade dos dados. Adicionalmente, esta tese também apresenta uma ferramenta visual para a avaliação de conjuntos de dados quanto ao desempenho de classificação.pt_BR
dc.description.sponsorshipIPM - Instituto Presbiteriano Mackenziept_BR
dc.description.sponsorshipMackPesquisa - Fundo Mackenzie de Pesquisapt_BR
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/29388
dc.language.isopt_BRpt_BR
dc.language.isoenpt_BR
dc.publisherUniversidade Presbiteriana Mackenzie
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectcomplexidade de dadospt_BR
dc.subjectqualidade de dadospt_BR
dc.subjectclassificação de dadospt_BR
dc.subjectSEMpt_BR
dc.subjectPLS-SEMpt_BR
dc.titleComposição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dadospt_BR
dc.typeTesept_BR
local.contributor.advisorLatteshttp://lattes.cnpq.br/1396385111251741pt_BR
local.contributor.advisorOrcidhttps://orcid.org/0000-0002-8671-3102pt_BR
local.contributor.authorLatteshttp://lattes.cnpq.br/5057588426925464pt_BR
local.contributor.board1Bido, Diógenes de Souza
local.contributor.board1Latteshttp://lattes.cnpq.br/7757562071320086pt_BR
local.contributor.board1Orcidhttps://orcid.org/0000-0002-8525-5218pt_BR
local.contributor.board2Carvalho, André Carlos Ponce de Leon Ferreira de
local.contributor.board2Latteshttp://lattes.cnpq.br/9674541381385819pt_BR
local.contributor.board2Orcidhttps://orcid.org/0000-0002-4765-6459pt_BR
local.contributor.board3Vallim Filho, Arnaldo Rabello de Aguiar
local.contributor.board3Latteshttp://lattes.cnpq.br/2511892257148568pt_BR
local.contributor.board4Souza, Alexandra Aparecida de
local.contributor.board4Latteshttp://lattes.cnpq.br/1119774618311172pt_BR
local.description.abstractenData classification is a data mining task that consists in applying an algo rithm to a training dataset in order to infer the class of an (unclassified) object under analysis. A significant part of the classification algorithm’s performance depends on the dataset’s complexity and quality. Data Complexity involves the investigation of the effects of dimensionality, the overlap of descriptive attributes, and the classes’ separability. Data Quality, as far as it is concerned, focuses on aspects such as noise and missing values. There are few studies in the literature that discuss the relati onship between complexity and quality aiming to consider the influence of each on the quality of an algorithm’s performance. This research applies Structural Equation Modeling (SEM) and the Partial Least Squares Structural Equation Modeling (PLS SEM) algorithm and, in an innovative way, presents a composite indicator, called Classification Quality Indicator for sets of binary data (IQCb), which associates the contributions of Data Complexity and Data Quality to Classification Quality. Experimental modeling with 178 datasets obtained from the OpenML repository showed that controlling complexity improves classification results more than data quality. Additionally, this thesis also presents a visual tool for evaluating datasets for classification performance.pt_BR
local.keywordsdata complexitypt_BR
local.keywordsdata complexitypt_BR
local.keywordsdata classificationpt_BR
local.keywordsSEMpt_BR
local.keywordsPLS-SEMpt_BR
local.publisher.countryBrasil
local.publisher.departmentEscola de Engenharia Mackenzie (EE)pt_BR
local.publisher.initialsUPM
local.publisher.programEngenharia Elétrica e Computaçãopt_BR
local.subject.cnpqAnálise de Dadospt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
RENE DE AVILA MENDES - protegido.pdf
Tamanho:
2.86 MB
Formato:
Adobe Portable Document Format
Descrição:
Renê de Ávila Mendes
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.95 KB
Formato:
Item-specific license agreed upon to submission
Descrição: