Uma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho
Carregando...
Tipo
TCC
Data de publicação
2025-06-17
Periódico
Citações (Scopus)
Autores
Silva, Cleverson Pereira da
Santos, Gustavo Teixeira dos
Mota, João Victor Silva
Santos, Gustavo Teixeira dos
Mota, João Victor Silva
Orientador
Bianchini, Calebe de Paula
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Programa
Resumo
Sistemas de Computação de Alto Desempenho (HPC - High-Performance Computing)
são essenciais para aplicações científicas e industriais que demandam elevada capacidade
de processamento e alta disponibilidade. A biblioteca DeLIA fornece mecanismos
de tolerância a falhas, como heartbeat e checkpoint/restart, para garantir a continuidade
das aplicações mesmo em cenários adversos. No entanto, sua atual arquitetura de monitoramento
centralizado introduz um ponto único de falha, comprometendo a resiliência
do sistema. Este trabalho propõe uma nova arquitetura distribuída para a DeLIA,
estruturada em uma topologia em anel com suporte a super-pares. A proposta distribui
as responsabilidades de monitoramento entre os nós, eliminando a dependência de um
único processo. A metodologia adotada inclui o redesenho do sistema, a reestruturação
da comunicação via heartbeat e a definição de critérios para promoção de super-pares.
High Performance Computing (HPC) systems are essential for scientific and industrial applications that require high processing capacity and availability. The DeLIA library provides fault tolerance mechanisms, such as heartbeat and checkpoint/restart, to ensure application continuity under adverse conditions. However, its current centralized monitoring architecture introduces a single point of failure, reducing system resilience. This paper proposes a new distributed architecture for DeLIA, structured in a ring topology with support for superpeers. The proposed model distributes monitoring responsibilities among nodes, eliminating the dependence on a single process. The adopted methodology includes system redesign, restructuring of heartbeat communication, and criteria definition for superpeer promotion.
High Performance Computing (HPC) systems are essential for scientific and industrial applications that require high processing capacity and availability. The DeLIA library provides fault tolerance mechanisms, such as heartbeat and checkpoint/restart, to ensure application continuity under adverse conditions. However, its current centralized monitoring architecture introduces a single point of failure, reducing system resilience. This paper proposes a new distributed architecture for DeLIA, structured in a ring topology with support for superpeers. The proposed model distributes monitoring responsibilities among nodes, eliminating the dependence on a single process. The adopted methodology includes system redesign, restructuring of heartbeat communication, and criteria definition for superpeer promotion.
Descrição
Indicado para publicação.
Palavras-chave
delia , HPC , tolerância a falha. , delia , HPC , Fault tolerance