iori

domingo, 5 de agosto de 2007

SISTEMA TOLERANTE A FALLOS


Sistema tolerante a fallos es un sistema capaz de continuar operando correctamente incluso en presencia de fallos en el hardware o errores en el software Cumputación tolerante a fallos describe el proceso de realizar cálculos, tal como los realizados por un computador, de una manera tolerante a fallos Orígenes de la computación tolerante a fallos Uso extensivo de técnicas de detección de errores y de tolerancia a fallos BRC (Bell Relay Computers) 2 CPUs, retry UNIVAC, Whirlwind I, paridad transferencias de datos EDVAC, 2 ALUs y comparación de resultados inicialmente, dominio exclusivo de la industria con notables excepciones Shannon y Hamming, Teoría de códigos Von Neuman, Redundancia

En los años 60, tratamiento sistemático en la industria

ESS (Electronic Switching System) 2 horas no operativo en 40 años

IBM/360

un computador triplicado ayudó al hombre a aterrizar en la luna



Desarrollo rápido a partir de 1970

surgen compañias especializadas en sistemas fiables (Tandem)

creación de un comité de tolerancia a fallos en el IEEE

difusión en revistas y congresos: Computer, IEEE micro, IEEE trans. on computers, proceedings del IEEE, Journal of

design automation and fault tolerant computing



Miniaturización de las dimensiones de los dispositivos electronicos (transistores y otros)

* nuevas oportunidades

menores tamaños, potencia y coste implican viabilidad de usar redundancia

* nuevos problemas: se aplica redundancia nivel de circuito

mayor susceptibilidad a perturbaciones externas

incremento errores de diseño

mayor probabilidad de circuitos defectuosos



Ampliación de aplicaciones (desde el punto de vista de los sistema de computación)

entornos más duros

usuarios más inexpertos

incremento de los costes de mantenimiento

sistemas cada vez más complejos



FIABILIDAD (RELIABILITY), R(T)



* probabilidad condicional de que el sistema trabaje correctamente en el intervalo [t0, t], supuesto

que el sistema estaba trabajando correctamente en el tiempo t0

* infiabilidad Q(t) de un sistema es la probabilidad condicional de que el sistema falle en el intervalo

[t0, t], supuesto que el sistema estaba trabajando correctamente en el tiempo t0

* sistemas en los que incluso periodos momentáneos de funcionamiento incorrecto son inaceptables

* sistemas sin posibilidad de reparación



DISPONIBILIDAD (AVAILABILITY), A(T)



* probabilidad de que un sistema este operando correctamente y disponible para realizar sus funciones

en el instante de tiempo t

* un sistema puede ser altamente disponible experimentando periodos frecuentes de inoperabilidad, en

tanto que la duración de cada periodo sea suficientemente corta

* sistemas en los que el objetivo primario sea ofrecer servicios tan a menudo como sea posible



SEGURIDAD, S(T)

* probabilidad de que un sistema realice correctamente su función o deje de operar de manera que

no interfiera con la operación de otros sistemas o comprometa la seguridad de las personas relacionas

con el sistema



MANTENIBILIDAD, M(T)

* probabilidad de que un sistema que ha fallado sea restaurado a un estado operativo dentro de un

periodo de tiempo t

* el proceso de restauración incluye la localización del problema, la reparación fÍsica del problema

y la vuelta a su estado operativo original



TESTABILIDAD

* facilidad con la que ciertos atributos de un sistema pueden ser testado

Confiabilidad (Dependability)

* relaciona los conceptos anteriores

* calidad de servicio proporcionada por un sistema



Distintos requerimientos segun las aplicaciones:



LARGA DURACIÓN



* vuelos espaciales no tripulados, satélites

* R(10 años) = 0.95

* permite periodos largos de inoperatividad

* STAR/ Voyager



CÁLCULOS CRÍTICOS



* sistemas de control de vuelo, militares, ciertos controladores

industriales

* Q(10 horas) = 10-9 R(3 horas) = 0.97

* August System CS3001 / A129 IMS

* mantenimiento programado



APLAZAMIENTO DEL MANTENIMIENTO



* sistemas en localizaciones remotas, telefonía

* las operaciones de mantenimiento son

extremadamente costosas



ALTA DISPONIBILIDAD



* sistemas transacciones, de reservas de

billetes

* alta probabilidad de recibir el servicio

cuando se requiere

* Tandem / Stratus





Fallo Latente: un fallo presente en el sistema y que todavía no ha producido un error

Latencia de fallo: tiempo entre la ocurrencia de un fallo y la aparición de un error debido a ese fallo

Latencia de error: tiempo entre la ocurrencia de un error y la aparición del malfuncionamiento

resultante

No todos los fallos producen errores

No todos los errores dan lugar a malfuncionamientos



Distintos estudios de Sistemas de Computación demuestran:



Los sistemas fallan por numerosas razones incluyendo fallo del hardware, diseño incorrecto

del hardware o del software, operación o mantenimiento inadecuado y entornos

inestables

La probabilidad de error se distribuye sobre este espectro sin una única causa dominante

Existen evidencias de que los fallos transitorios/intermitentes son más frecuentes



La tolerancia a fallos implica REDUNDANCIA recursos adicionales a los estrictamente necesarios

para la operación normal del sistema

La redundancia introducida incrementa el coste del sistema. Es importante elegir adecuadamente

el tipo de recurso adicional

Los computadores tolerantes a fallos aplican una combinación de distintos tipos de redundancia:

hardware, software, información y tiempo y en distintos niveles: nivel físico, nivel sistema

operativo, (nivel aplicación)

La asignatura se centra en el nivel físico

No hay comentarios: