Soft errors detection and automatic recovery based on replication combined with different levels of checkpointing (Record no. 57381)

MARC details
000 -CABECERA
campo de control de longitud fija 02673naa a2200277 a 4500
003 - IDENTIFICADOR DEL NÚMERO DE CONTROL
campo de control AR-LpUFIB
005 - FECHA Y HORA DE LA ÚLTIMA TRANSACCIÓN
campo de control 20250311170510.0
008 - DATOS DE LONGITUD FIJA--INFORMACIÓN GENERAL
campo de control de longitud fija 230201s2020 xx o 000 0 eng d
024 8# - Otro identificador estandar
Número estándar o código DIF-M8315
-- 8535
-- DIF007608
040 ## - FUENTE DE LA CATALOGACIÓN
Centro catalogador/agencia de origen AR-LpUFIB
Lengua de catalogación spa
Centro/agencia transcriptor AR-LpUFIB
100 1# - ENTRADA PRINCIPAL--NOMBRE DE PERSONA
Nombre de persona Montezanti, Diego Miguel
245 10 - MENCIÓN DE TÍTULO
Título Soft errors detection and automatic recovery based on replication combined with different levels of checkpointing
300 ## - DESCRIPCIÓN FÍSICA
Extensión 1 archivo (1,1 MB)
500 ## - NOTA GENERAL
Nota general Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca)
520 ## - SUMARIO, ETC.
Sumario, etc. Handling faults is a growing concern in HPC. In future exascale systems, it is projected that silent undetected errors will occur several times a day, increasing the occurrence of corrupted results. In this article, we propose SEDAR, which is a methodology that improves system reliability against transient faults when running parallel message-passing applications. Our approach, based on process replication for detection, combined with different levels of checkpointing for automatic recovery, has the goal of helping users of scientific applications to obtain executions with correct results. SEDAR is structured in three levels: (1) only detection and safe-stop with notification; (2) recovery based on multiple system-level checkpoints; and (3) recovery based on a single valid user-level checkpoint. As each of these variants supplies a particular coverage but involves limitations and implementation costs, SEDAR can be adapted to the needs of the system. In this work, a description of the methodology is presented and the temporal behavior of employing each SEDAR strategy is mathematically described, both in the absence and presence of faults. A model that considers all the fault scenarios on a test application is introduced to show the validity of the detection and recovery mechanisms. An overhead evaluation of each variant is performed with applications involving different communication patterns; this is also used to extract guidelines about when it is beneficial to employ each SEDAR protection level. As a result, we show its efficacy and viability to tolerate transient faults in target HPC environments.
534 ## - NOTA SOBRE LA VERSIÓN ORIGINAL
Encabezamiento principal del original Future Generation Computer Systems, 113, pp. 240-254.
650 #4 - PUNTO DE ACCESO ADICIONAL DE MATERIA--TÉRMINO DE MATERIA
Término de materia o nombre geográfico como elemento de entrada RECUPERACIÓN DE ERRORES
650 #4 - PUNTO DE ACCESO ADICIONAL DE MATERIA--TÉRMINO DE MATERIA
Término de materia o nombre geográfico como elemento de entrada COMPUTACIÓN DE ALTO RENDIMIENTO - HPC
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA
Nombre de persona Rucci, Enzo
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA
Nombre de persona De Giusti, Armando Eduardo
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA
Nombre de persona Naiouf, Ricardo Marcelo
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA
Nombre de persona Rexachs, Dolores Isabel
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA
Nombre de persona Luque, Emilio
856 40 - LOCALIZACIÓN Y ACCESO ELECTRÓNICOS
Identificador Uniforme del Recurso <a href="https://doi.org/10.1016/j.future.2020.07.003">https://doi.org/10.1016/j.future.2020.07.003</a>
942 ## - ELEMENTOS DE PUNTO DE ACCESO ADICIONAL (KOHA)
Tipo de ítem Koha Capítulo de libro
Holdings
Estado de retiro Estado de pérdida Estado dañado Disponibilidad Colección Biblioteca permanente Biblioteca actual Fecha de adquisición Total de préstamos Signatura topográfica completa Fecha visto por última vez Identificador Uniforme del Recurso Precio válido a partir de Tipo de ítem Koha
      Recurso en Línea Biblioteca digital Biblioteca de la Facultad de Informática Biblioteca de la Facultad de Informática 11/03/2025   A1175 11/03/2025 http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2274 11/03/2025 Capítulo de libro