Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
Arquivos
Tipo
Dissertação
Data de publicação
2019-08-09
Periódico
Citações (Scopus)
Autores
Rubbo, Márcio
Orientador
Silva, Leandro Augusto da
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Menezes, Mario Olímpio de
Carvalho, André Carlos Ponce de Leon Ferreira de
Carvalho, André Carlos Ponce de Leon Ferreira de
Programa
Engenharia Elétrica
Resumo
O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em
tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente
em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN
sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos
três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia
da informação para aumentar a efetividade do classificador kNN em base de dados nessas
condições. Bases de dados artificiais, simulando diferentes condições de sobreposição
de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados
públicas para teste dos métodos. Medidas de dados complexos foram usadas para
identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos
e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados
SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes
de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais
usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com
problemas de sobreposição.
Descrição
Palavras-chave
seleção de protótipos , mapas auto-organizáveis de Kohonen , K vizinhos mais próximos , sobreposição de classes , redução de dados , desbalanceamento , complexidade de dados
Assuntos Scopus
Citação
RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.