Uma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho

dc.contributor.advisorBianchini, Calebe de Paula
dc.contributor.authorSilva, Cleverson Pereira da
dc.contributor.authorSantos, Gustavo Teixeira dos
dc.contributor.authorMota, João Victor Silva
dc.date.accessioned2025-07-03T18:20:16Z
dc.date.available2025-07-03T18:20:16Z
dc.date.issued2025-06-17
dc.descriptionIndicado para publicação.
dc.description.abstractSistemas de Computação de Alto Desempenho (HPC - High-Performance Computing) são essenciais para aplicações científicas e industriais que demandam elevada capacidade de processamento e alta disponibilidade. A biblioteca DeLIA fornece mecanismos de tolerância a falhas, como heartbeat e checkpoint/restart, para garantir a continuidade das aplicações mesmo em cenários adversos. No entanto, sua atual arquitetura de monitoramento centralizado introduz um ponto único de falha, comprometendo a resiliência do sistema. Este trabalho propõe uma nova arquitetura distribuída para a DeLIA, estruturada em uma topologia em anel com suporte a super-pares. A proposta distribui as responsabilidades de monitoramento entre os nós, eliminando a dependência de um único processo. A metodologia adotada inclui o redesenho do sistema, a reestruturação da comunicação via heartbeat e a definição de critérios para promoção de super-pares.
dc.description.abstractHigh Performance Computing (HPC) systems are essential for scientific and industrial applications that require high processing capacity and availability. The DeLIA library provides fault tolerance mechanisms, such as heartbeat and checkpoint/restart, to ensure application continuity under adverse conditions. However, its current centralized monitoring architecture introduces a single point of failure, reducing system resilience. This paper proposes a new distributed architecture for DeLIA, structured in a ring topology with support for superpeers. The proposed model distributes monitoring responsibilities among nodes, eliminating the dependence on a single process. The adopted methodology includes system redesign, restructuring of heartbeat communication, and criteria definition for superpeer promotion.
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/41014
dc.languagept_BR
dc.publisherUniversidade Presbiteriana Mackenzie
dc.subjectdelia
dc.subjectHPC
dc.subjecttolerância a falha.
dc.subjectdelia
dc.subjectHPC
dc.subjectFault tolerance
dc.titleUma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho
dc.typeTCC
local.publisher.departmentFaculdade de Computação e Informática (FCI)
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Cleverson Pereira da Silva1 Gustavo Teixeira dos Santos1.pdf
Tamanho:
585.4 KB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.22 KB
Formato:
Item-specific license agreed upon to submission
Descrição: