TOLERANCIA A FALLOS


 La tolerancia a fallas es considerada la principal característica que debe de tener un sistema distribuido para alcanzar el principio de transparencia.Para lograr la tolerancia a fallos se necesita de una buena comunicación entre procesos distribuidos y sobretodo de una correcta coordinación entre procesos

Un Sistema Distribuido en base a la coordinación de sus procesos puede ser:
- Asíncrono: no hay coordinación en el tiempo.
-  Síncrono: se suponen límites máximos para el retraso de mensajes.

El primer factor a tomar en cuenta es que el canal de comunicación este libre de errores (canal confiable).Para garantizar que el canal sea confiable se debe de realizar lo siguiente:

-  Retransmisión de mensajes.
-  Debe haber redundancia de canales
-  La entrega de un paquete sea dentro de un tiempo límite especificado

En general, se considera que los canales de comunicación son fiables y que cuando falla la comunicación es debido a la caída del proceso.

Algunos fallos en el funcionamiento de un sistema pueden originarse por:
-  Especificaciones impropias o con errores.
-  Diseño deficiente de la creación del software o el hardware.
-  Deterioros o averías en al hardware.

Prevención y Tolerancia a Fallos

Existen dos formas de aumentar la fiabilidad de un sistema.
1. Prevención de fallos: Se trata de evitar que se implementen sistemas que pueden introducir fallos.
2. Tolerancia a fallos: Se trata de conseguir que el sistema continué funcionando correctamente aunque se presenten algunos fallos.

No hay comentarios:

Publicar un comentario