Redução da dimensionalidade em bigdata
Carregando...
Tipo
TCC
Data de publicação
2023-12-08
Periódico
Citações (Scopus)
Autores
Machado, Lucca
Orientador
Borba, Anderson
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Programa
Resumo
Devido a revolução tecnológica, mais dados estão sendo gerados no dia a dia de forma exponencial, causando problemas de processamento e de armazenamento. Por este motivo, este projeto de TCC busca por meio dos algoritmos PCA, Kernel PCA e LDA reduzir a dimensionalidade dos dados solucionar este problema. O objetivo é comparar suas capacidades de redução de dimensionalidade em bases de dados estruturada e fazer uma análise na prática do tempo de processamento e, utilizando o RandomForest, relatar a taxa de acerto da previsão dos dados. A abordagem teórico-metodológica envolve revisão literária, análise matemática e estudo de aplicações. Também com o objetivo de comparar a capacidades de redução de dimensionalidade, vamos utilizar o PCA em uma base de dados não estruturada composta por 200 imagens. As comparações foram realizadas analisando a capacidade de preservação da qualidade, tempo de processamento e economia de armazenamento. Foram mostrados resultados que permitiram comparar as técnicas em termos de preservação de informações e tempo de processamento. Experimentos com conjuntos de dados e métricas de avaliação foram realizados. Os resultados forneceram percepções valiosos para aplicação prática em análise de dados multivariados.
Due to the technological revolution, more data is being generated exponentially on a daily basis, causing processing and storage problems. For this reason, this TCC project seeks, through PCA, Kernel PCA and LDA algorithms, to reduce the dimensionality of the data to solve this problem. The objective is to compare their dimensionality reduction capabilities in structured databases and carry out a practical analysis of processing time and, using RandomForest, report the accuracy rate of data prediction. The theoretical methodological approach involves literary review, mathematical analysis and study of applications. Also with the aim of comparing dimensionality reduction capabilities, we will use PCA on an unstructured database consisting of 200 images. Compa risons were carried out analyzing the ability to preserve quality, processing time and storage savings. Results were shown that allowed the techniques to be compared in terms of information preservation and processing time. Experiments with datasets and ev aluation metrics were carried out. The results provided valuable insights for practical application in multivariate data analysis.
Due to the technological revolution, more data is being generated exponentially on a daily basis, causing processing and storage problems. For this reason, this TCC project seeks, through PCA, Kernel PCA and LDA algorithms, to reduce the dimensionality of the data to solve this problem. The objective is to compare their dimensionality reduction capabilities in structured databases and carry out a practical analysis of processing time and, using RandomForest, report the accuracy rate of data prediction. The theoretical methodological approach involves literary review, mathematical analysis and study of applications. Also with the aim of comparing dimensionality reduction capabilities, we will use PCA on an unstructured database consisting of 200 images. Compa risons were carried out analyzing the ability to preserve quality, processing time and storage savings. Results were shown that allowed the techniques to be compared in terms of information preservation and processing time. Experiments with datasets and ev aluation metrics were carried out. The results provided valuable insights for practical application in multivariate data analysis.
Descrição
Indicado para publicação.
Palavras-chave
redução da dimensionalidade , PCA , kernel PCA , LDA , reduction dimensionality , PCA , kernel PCA , LDA