Composição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dados
dc.contributor.advisor | Silva, Leandro Augusto da | |
dc.contributor.author | Mendes, Renê de Ávila | |
dc.date.accessioned | 2022-05-24T11:35:01Z | |
dc.date.available | 2022-05-24T11:35:01Z | |
dc.date.issued | 2021-12-10 | |
dc.description.abstract | A classificação de dados é uma tarefa de mineração de dados que consiste na aplicação de um algoritmo a conjunto de dados de treinamento com a finalidade de inferir a classe de um objeto (não classificado) em análise. Uma parte significa tiva do desempenho do algoritmo de classificação depende da complexidade e da qualidade do conjunto de dados. A Complexidade dos Dados envolve a investigação dos efeitos da dimensionalidade, da sobreposição de atributos e da separabilidade das classes. A Qualidade dos Dados, no que lhe concerne, se concentra em aspectos como ruídos e valores ausentes. Na literatura são poucos os estudos que debatem a relação entre os fatores, complexidade e qualidade, visando ponderar a influência de cada um na qualidade do desempenho de um algoritmo. Esta pesquisa aplica a Modelagem de Equações Estruturais (SEM) e o algoritmo Partial Least Squa res Structural Equation Modeling (PLS-SEM) e, de forma inovadora, apresenta um indicador composto, chamado de Indicador de Qualidade de Classificação para con juntos de dados binários (IQCb), que associa as contribuições da Complexidade dos Dados e da Qualidade dos Dados para a Qualidade da Classificação. A mode lagem experimental com 178 conjuntos de dados obtidos do repositório OpenML mostrou que o controle da complexidade melhora os resultados da classificação mais do que a qualidade dos dados. Adicionalmente, esta tese também apresenta uma ferramenta visual para a avaliação de conjuntos de dados quanto ao desempenho de classificação. | pt_BR |
dc.description.sponsorship | IPM - Instituto Presbiteriano Mackenzie | pt_BR |
dc.description.sponsorship | MackPesquisa - Fundo Mackenzie de Pesquisa | pt_BR |
dc.identifier.uri | https://dspace.mackenzie.br/handle/10899/29388 | |
dc.language.iso | pt_BR | pt_BR |
dc.language.iso | en | pt_BR |
dc.publisher | Universidade Presbiteriana Mackenzie | |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | complexidade de dados | pt_BR |
dc.subject | qualidade de dados | pt_BR |
dc.subject | classificação de dados | pt_BR |
dc.subject | SEM | pt_BR |
dc.subject | PLS-SEM | pt_BR |
dc.title | Composição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dados | pt_BR |
dc.type | Tese | pt_BR |
local.contributor.advisorLattes | http://lattes.cnpq.br/1396385111251741 | pt_BR |
local.contributor.advisorOrcid | https://orcid.org/0000-0002-8671-3102 | pt_BR |
local.contributor.authorLattes | http://lattes.cnpq.br/5057588426925464 | pt_BR |
local.contributor.board1 | Bido, Diógenes de Souza | |
local.contributor.board1Lattes | http://lattes.cnpq.br/7757562071320086 | pt_BR |
local.contributor.board1Orcid | https://orcid.org/0000-0002-8525-5218 | pt_BR |
local.contributor.board2 | Carvalho, André Carlos Ponce de Leon Ferreira de | |
local.contributor.board2Lattes | http://lattes.cnpq.br/9674541381385819 | pt_BR |
local.contributor.board2Orcid | https://orcid.org/0000-0002-4765-6459 | pt_BR |
local.contributor.board3 | Vallim Filho, Arnaldo Rabello de Aguiar | |
local.contributor.board3Lattes | http://lattes.cnpq.br/2511892257148568 | pt_BR |
local.contributor.board4 | Souza, Alexandra Aparecida de | |
local.contributor.board4Lattes | http://lattes.cnpq.br/1119774618311172 | pt_BR |
local.description.abstracten | Data classification is a data mining task that consists in applying an algo rithm to a training dataset in order to infer the class of an (unclassified) object under analysis. A significant part of the classification algorithm’s performance depends on the dataset’s complexity and quality. Data Complexity involves the investigation of the effects of dimensionality, the overlap of descriptive attributes, and the classes’ separability. Data Quality, as far as it is concerned, focuses on aspects such as noise and missing values. There are few studies in the literature that discuss the relati onship between complexity and quality aiming to consider the influence of each on the quality of an algorithm’s performance. This research applies Structural Equation Modeling (SEM) and the Partial Least Squares Structural Equation Modeling (PLS SEM) algorithm and, in an innovative way, presents a composite indicator, called Classification Quality Indicator for sets of binary data (IQCb), which associates the contributions of Data Complexity and Data Quality to Classification Quality. Experimental modeling with 178 datasets obtained from the OpenML repository showed that controlling complexity improves classification results more than data quality. Additionally, this thesis also presents a visual tool for evaluating datasets for classification performance. | pt_BR |
local.keywords | data complexity | pt_BR |
local.keywords | data complexity | pt_BR |
local.keywords | data classification | pt_BR |
local.keywords | SEM | pt_BR |
local.keywords | PLS-SEM | pt_BR |
local.publisher.country | Brasil | |
local.publisher.department | Escola de Engenharia Mackenzie (EE) | pt_BR |
local.publisher.initials | UPM | |
local.publisher.program | Engenharia Elétrica e Computação | pt_BR |
local.subject.cnpq | Análise de Dados | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- RENE DE AVILA MENDES - protegido.pdf
- Tamanho:
- 2.86 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
- Renê de Ávila Mendes
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.95 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: