Uma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho
dc.contributor.advisor | Bianchini, Calebe de Paula | |
dc.contributor.author | Silva, Cleverson Pereira da | |
dc.contributor.author | Santos, Gustavo Teixeira dos | |
dc.contributor.author | Mota, João Victor Silva | |
dc.date.accessioned | 2025-07-03T18:20:16Z | |
dc.date.available | 2025-07-03T18:20:16Z | |
dc.date.issued | 2025-06-17 | |
dc.description | Indicado para publicação. | |
dc.description.abstract | Sistemas de Computação de Alto Desempenho (HPC - High-Performance Computing) são essenciais para aplicações científicas e industriais que demandam elevada capacidade de processamento e alta disponibilidade. A biblioteca DeLIA fornece mecanismos de tolerância a falhas, como heartbeat e checkpoint/restart, para garantir a continuidade das aplicações mesmo em cenários adversos. No entanto, sua atual arquitetura de monitoramento centralizado introduz um ponto único de falha, comprometendo a resiliência do sistema. Este trabalho propõe uma nova arquitetura distribuída para a DeLIA, estruturada em uma topologia em anel com suporte a super-pares. A proposta distribui as responsabilidades de monitoramento entre os nós, eliminando a dependência de um único processo. A metodologia adotada inclui o redesenho do sistema, a reestruturação da comunicação via heartbeat e a definição de critérios para promoção de super-pares. | |
dc.description.abstract | High Performance Computing (HPC) systems are essential for scientific and industrial applications that require high processing capacity and availability. The DeLIA library provides fault tolerance mechanisms, such as heartbeat and checkpoint/restart, to ensure application continuity under adverse conditions. However, its current centralized monitoring architecture introduces a single point of failure, reducing system resilience. This paper proposes a new distributed architecture for DeLIA, structured in a ring topology with support for superpeers. The proposed model distributes monitoring responsibilities among nodes, eliminating the dependence on a single process. The adopted methodology includes system redesign, restructuring of heartbeat communication, and criteria definition for superpeer promotion. | |
dc.identifier.uri | https://dspace.mackenzie.br/handle/10899/41014 | |
dc.language | pt_BR | |
dc.publisher | Universidade Presbiteriana Mackenzie | |
dc.subject | delia | |
dc.subject | HPC | |
dc.subject | tolerância a falha. | |
dc.subject | delia | |
dc.subject | HPC | |
dc.subject | Fault tolerance | |
dc.title | Uma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho | |
dc.type | TCC | |
local.publisher.department | Faculdade de Computação e Informática (FCI) |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Cleverson Pereira da Silva1 Gustavo Teixeira dos Santos1.pdf
- Tamanho:
- 585.4 KB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.22 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: