La tolerancia a fallas es considerada la
principal característica que debe de tener un sistema distribuido para alcanzar
el principio de transparencia.Para lograr la tolerancia a fallos se necesita de
una buena comunicación entre procesos distribuidos y sobretodo de una correcta
coordinación entre procesos
Un Sistema Distribuido en base a
la coordinación de sus procesos puede ser:
- Asíncrono: no hay coordinación
en el tiempo.
-
Síncrono: se suponen límites máximos para el retraso de mensajes.
El primer factor a tomar en
cuenta es que el canal de comunicación este libre de errores (canal
confiable).Para garantizar que el canal sea confiable se debe de realizar lo
siguiente:
-
Retransmisión de mensajes.
-
Debe haber redundancia de canales
-
La entrega de un paquete sea dentro de un tiempo límite especificado
En general, se considera que los
canales de comunicación son fiables y que cuando falla la comunicación es
debido a la caída del proceso.
Algunos fallos en el
funcionamiento de un sistema pueden originarse por:
-
Especificaciones impropias o con errores.
-
Diseño deficiente de la creación del software o el hardware.
-
Deterioros o averías en al hardware.
Prevención y Tolerancia a Fallos
Existen dos formas de aumentar la
fiabilidad de un sistema.
1. Prevención de fallos: Se trata
de evitar que se implementen sistemas que pueden introducir fallos.
2. Tolerancia a fallos: Se trata
de conseguir que el sistema continué funcionando correctamente aunque se
presenten algunos fallos.
No hay comentarios:
Publicar un comentario