Soft errors detection and automatic recovery based on replication combined with different levels of checkpointing (Record no. 57381)
[ view plain ]
000 -CABECERA | |
---|---|
campo de control de longitud fija | 02673naa a2200277 a 4500 |
003 - IDENTIFICADOR DEL NÚMERO DE CONTROL | |
campo de control | AR-LpUFIB |
005 - FECHA Y HORA DE LA ÚLTIMA TRANSACCIÓN | |
campo de control | 20250311170510.0 |
008 - DATOS DE LONGITUD FIJA--INFORMACIÓN GENERAL | |
campo de control de longitud fija | 230201s2020 xx o 000 0 eng d |
024 8# - Otro identificador estandar | |
Número estándar o código | DIF-M8315 |
-- | 8535 |
-- | DIF007608 |
040 ## - FUENTE DE LA CATALOGACIÓN | |
Centro catalogador/agencia de origen | AR-LpUFIB |
Lengua de catalogación | spa |
Centro/agencia transcriptor | AR-LpUFIB |
100 1# - ENTRADA PRINCIPAL--NOMBRE DE PERSONA | |
Nombre de persona | Montezanti, Diego Miguel |
245 10 - MENCIÓN DE TÍTULO | |
Título | Soft errors detection and automatic recovery based on replication combined with different levels of checkpointing |
300 ## - DESCRIPCIÓN FÍSICA | |
Extensión | 1 archivo (1,1 MB) |
500 ## - NOTA GENERAL | |
Nota general | Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca) |
520 ## - SUMARIO, ETC. | |
Sumario, etc. | Handling faults is a growing concern in HPC. In future exascale systems, it is projected that silent undetected errors will occur several times a day, increasing the occurrence of corrupted results. In this article, we propose SEDAR, which is a methodology that improves system reliability against transient faults when running parallel message-passing applications. Our approach, based on process replication for detection, combined with different levels of checkpointing for automatic recovery, has the goal of helping users of scientific applications to obtain executions with correct results. SEDAR is structured in three levels: (1) only detection and safe-stop with notification; (2) recovery based on multiple system-level checkpoints; and (3) recovery based on a single valid user-level checkpoint. As each of these variants supplies a particular coverage but involves limitations and implementation costs, SEDAR can be adapted to the needs of the system. In this work, a description of the methodology is presented and the temporal behavior of employing each SEDAR strategy is mathematically described, both in the absence and presence of faults. A model that considers all the fault scenarios on a test application is introduced to show the validity of the detection and recovery mechanisms. An overhead evaluation of each variant is performed with applications involving different communication patterns; this is also used to extract guidelines about when it is beneficial to employ each SEDAR protection level. As a result, we show its efficacy and viability to tolerate transient faults in target HPC environments. |
534 ## - NOTA SOBRE LA VERSIÓN ORIGINAL | |
Encabezamiento principal del original | Future Generation Computer Systems, 113, pp. 240-254. |
650 #4 - PUNTO DE ACCESO ADICIONAL DE MATERIA--TÉRMINO DE MATERIA | |
Término de materia o nombre geográfico como elemento de entrada | RECUPERACIÓN DE ERRORES |
650 #4 - PUNTO DE ACCESO ADICIONAL DE MATERIA--TÉRMINO DE MATERIA | |
Término de materia o nombre geográfico como elemento de entrada | COMPUTACIÓN DE ALTO RENDIMIENTO - HPC |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Rucci, Enzo |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | De Giusti, Armando Eduardo |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Naiouf, Ricardo Marcelo |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Rexachs, Dolores Isabel |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Luque, Emilio |
856 40 - LOCALIZACIÓN Y ACCESO ELECTRÓNICOS | |
Identificador Uniforme del Recurso | <a href="https://doi.org/10.1016/j.future.2020.07.003">https://doi.org/10.1016/j.future.2020.07.003</a> |
942 ## - ELEMENTOS DE PUNTO DE ACCESO ADICIONAL (KOHA) | |
Tipo de ítem Koha | Capítulo de libro |
Estado de retiro | Estado de pérdida | Estado dañado | Disponibilidad | Colección | Biblioteca permanente | Biblioteca actual | Fecha de adquisición | Total de préstamos | Signatura topográfica completa | Fecha visto por última vez | Identificador Uniforme del Recurso | Precio válido a partir de | Tipo de ítem Koha |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Recurso en Línea | Biblioteca digital | Biblioteca de la Facultad de Informática | Biblioteca de la Facultad de Informática | 11/03/2025 | A1175 | 11/03/2025 | http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2274 | 11/03/2025 | Capítulo de libro |