Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação

Manasrarla, Alberto

Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação

dc.contributor.advisor	Silva, Leandro Augusto da
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1396385111251741	por
dc.contributor.author	Manasrarla, Alberto
dc.creator.Lattes	http://lattes.cnpq.br/4823102188272284	por
dc.date.accessioned	2020-09-18T15:14:47Z
dc.date.accessioned	2020-12-07T15:08:44Z
dc.date.available	2020-12-07T15:08:44Z
dc.date.issued	2020-02-11
dc.description.abstract	Atualmente,dados gerados em grande volume,diferentes contextos de aplicação e formato têm impactado significativamente nos diferentes algoritmos de aprendizagem de máquina, em especial os de modelagem preditiva. Sistemas que envolvem dados com essas características não pode marcar com os requisitos de tempo,armazenamento e processamento em tempo real. Sob essas condições, classificar, compreender ou compactar os dados disponíveis podem se tornar uma tarefa custosa. O problema se agrava especialmente no uso de algoritmos de aprendizado baseados em distâncias, como a regra do vizinho mais próximo ou NN (do inglês, NearestNeighbor). O algoritmo básico do NN em uma tarefa de classificação de dados consiste em medir a distância entre uma instância em análise e todas as instâncias de dados disponíveis. Significa dizer que as instâncias do conjunto de dados devem sempre permanecer armazenadas para análises futuras, mesmo aquelas que podem conter ruídos ou não ser representativas para uma análise. Diante disso, a seleção de protótipos se apresenta como uma proposta para a redução de dados e, consequentemente, minimizar os problemas de complexidade computacional, armazenamento e ruídos em conjuntos de dados. A seleção de protótipos visa encontrar um conjunto de dados representativo com uma dimensão menor em comparação ao original, eventualmente pode ser usada para a geração de dados em situações de classes desbalanceadas. Entretanto,a maioria desses métodos,por não ter um controle de geração de protótipos,executa um processo exaustivo para encontrar o conjunto de dados reduzido. A falta de controle na geração de protótipos pode produzir um tamanho não ideal do conjunto de dados reduzido. Diante desse contexto, este trabalho tem como proposta a apresentação de um método de autogeração de protótipos,no qual faz uso de ideias provenientes da teoria da informação,especificamente o conceito de entropia da informação,para determinar o número ideal de protótipos. Na tarefa de classificação de dados com o algoritmo kNN (do inglês, k-Nearest Neighbors), o método proposto possibilita acelerar o tempo de classificação sem diminuir significativamente a qualidade da classificação. Em um estudo comparativo com outra técnica de autogeração de protótipos da literatura, SSGA (do inglês, Steady-StateGeneticAlgorithm), sob análises quantitativas e qualitativas, com diferentes conjuntos de dados (públicos e artificiais), os resultados para o método proposto são superiores,em média,85,71% para o tempo de classificação, com uma taxa média de redução de dados em 77%, e um aumento da eficiência da precisão em 3% do classificador kNN.	por
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	por
dc.description.sponsorship	Fundo Mackenzie de Pesquisa	por
dc.format	application/pdf	*
dc.identifier.citation	MANASTARLA, Alberto. Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação. 2020. 84 f. Dissertação (Engenharia Elétrica e Computação) - Universidade Presbiteriana Mackenzie, São Paulo, 2020.	por
dc.identifier.uri	http://dspace.mackenzie.br/handle/10899/26584
dc.keywords	prototype selection	eng
dc.keywords	data reduction	eng
dc.keywords	classification	eng
dc.keywords	information entropy	eng
dc.language	por	por
dc.publisher	Universidade Presbiteriana Mackenzie	por
dc.rights	Acesso Aberto	por
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	seleção de protótipos	por
dc.subject	redução de dados	por
dc.subject	classificação de dados	por
dc.subject	entropia de informação	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS	por
dc.title	Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação	por
dc.type	Dissertação	por
local.contributor.board1	Vallim Filho, Arnaldo Rabello de Aguiar
local.contributor.board1Lattes	http://lattes.cnpq.br/2511892257148568	por
local.contributor.board2	Lorena, Ana Carolina
local.contributor.board2Lattes	http://lattes.cnpq.br/3451628262694747	por
local.publisher.country	Brasil	por
local.publisher.department	Escola de Engenharia Mackenzie (EE)	por
local.publisher.initials	UPM	por
local.publisher.program	Engenharia Elétrica	por

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: ALBERTO MANASTARLA.pdf
Tamanho:: 5.78 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Coleções

Engenharia Elétrica e Computação - Dissertações - EE Higienópolis