Sistema tolerante a fallos es un sistema capaz de continuar operando correctamente incluso en presencia de fallos en el hardware o errores en el software Cumputación tolerante a fallos describe el proceso de realizar cálculos, tal como los realizados por un computador, de una manera tolerante a fallos Orígenes de la computación tolerante a fallos Uso extensivo de técnicas de detección de errores y de tolerancia a fallos BRC (Bell Relay Computers) 2 CPUs, retry UNIVAC, Whirlwind I, paridad transferencias de datos EDVAC, 2 ALUs y comparación de resultados inicialmente, dominio exclusivo de la industria con notables excepciones Shannon y Hamming, Teoría de códigos Von Neuman, Redundancia
En los años 60, tratamiento sistemático en la industria
ESS (Electronic Switching System) 2 horas no operativo en 40 años
IBM/360
un computador triplicado ayudó al hombre a aterrizar en la luna
Desarrollo rápido a partir de 1970
surgen compañias especializadas en sistemas fiables (Tandem)
creación de un comité de tolerancia a fallos en el IEEE
difusión en revistas y congresos: Computer, IEEE micro, IEEE trans. on computers, proceedings del IEEE, Journal of
design automation and fault tolerant computing
Miniaturización de las dimensiones de los dispositivos electronicos (transistores y otros)
* nuevas oportunidades
menores tamaños, potencia y coste implican viabilidad de usar redundancia
* nuevos problemas: se aplica redundancia nivel de circuito
mayor susceptibilidad a perturbaciones externas
incremento errores de diseño
mayor probabilidad de circuitos defectuosos
Ampliación de aplicaciones (desde el punto de vista de los sistema de computación)
entornos más duros
usuarios más inexpertos
incremento de los costes de mantenimiento
sistemas cada vez más complejos
FIABILIDAD (RELIABILITY), R(T)
* probabilidad condicional de que el sistema trabaje correctamente en el intervalo [t0, t], supuesto
que el sistema estaba trabajando correctamente en el tiempo t0
* infiabilidad Q(t) de un sistema es la probabilidad condicional de que el sistema falle en el intervalo
[t0, t], supuesto que el sistema estaba trabajando correctamente en el tiempo t0
* sistemas en los que incluso periodos momentáneos de funcionamiento incorrecto son inaceptables
* sistemas sin posibilidad de reparación
DISPONIBILIDAD (AVAILABILITY), A(T)
* probabilidad de que un sistema este operando correctamente y disponible para realizar sus funciones
en el instante de tiempo t
* un sistema puede ser altamente disponible experimentando periodos frecuentes de inoperabilidad, en
tanto que la duración de cada periodo sea suficientemente corta
* sistemas en los que el objetivo primario sea ofrecer servicios tan a menudo como sea posible
SEGURIDAD, S(T)
* probabilidad de que un sistema realice correctamente su función o deje de operar de manera que
no interfiera con la operación de otros sistemas o comprometa la seguridad de las personas relacionas
con el sistema
MANTENIBILIDAD, M(T)
* probabilidad de que un sistema que ha fallado sea restaurado a un estado operativo dentro de un
periodo de tiempo t
* el proceso de restauración incluye la localización del problema, la reparación fÍsica del problema
y la vuelta a su estado operativo original
TESTABILIDAD
* facilidad con la que ciertos atributos de un sistema pueden ser testado
Confiabilidad (Dependability)
* relaciona los conceptos anteriores
* calidad de servicio proporcionada por un sistema
Distintos requerimientos segun las aplicaciones:
LARGA DURACIÓN
* vuelos espaciales no tripulados, satélites
* R(10 años) = 0.95
* permite periodos largos de inoperatividad
* STAR/ Voyager
CÁLCULOS CRÍTICOS
* sistemas de control de vuelo, militares, ciertos controladores
industriales
* Q(10 horas) = 10-9 R(3 horas) = 0.97
* August System CS3001 / A129 IMS
* mantenimiento programado
APLAZAMIENTO DEL MANTENIMIENTO
* sistemas en localizaciones remotas, telefonía
* las operaciones de mantenimiento son
extremadamente costosas
ALTA DISPONIBILIDAD
* sistemas transacciones, de reservas de
billetes
* alta probabilidad de recibir el servicio
cuando se requiere
* Tandem / Stratus
Fallo Latente: un fallo presente en el sistema y que todavía no ha producido un error
Latencia de fallo: tiempo entre la ocurrencia de un fallo y la aparición de un error debido a ese fallo
Latencia de error: tiempo entre la ocurrencia de un error y la aparición del malfuncionamiento
resultante
No todos los fallos producen errores
No todos los errores dan lugar a malfuncionamientos
Distintos estudios de Sistemas de Computación demuestran:
Los sistemas fallan por numerosas razones incluyendo fallo del hardware, diseño incorrecto
del hardware o del software, operación o mantenimiento inadecuado y entornos
inestables
La probabilidad de error se distribuye sobre este espectro sin una única causa dominante
Existen evidencias de que los fallos transitorios/intermitentes son más frecuentes
La tolerancia a fallos implica REDUNDANCIA recursos adicionales a los estrictamente necesarios
para la operación normal del sistema
La redundancia introducida incrementa el coste del sistema. Es importante elegir adecuadamente
el tipo de recurso adicional
Los computadores tolerantes a fallos aplican una combinación de distintos tipos de redundancia:
hardware, software, información y tiempo y en distintos niveles: nivel físico, nivel sistema
operativo, (nivel aplicación)
La asignatura se centra en el nivel físico
menores tamaños, potencia y coste implican viabilidad de usar redundancia
* nuevos problemas: se aplica redundancia nivel de circuito
mayor susceptibilidad a perturbaciones externas
incremento errores de diseño
mayor probabilidad de circuitos defectuosos
Ampliación de aplicaciones (desde el punto de vista de los sistema de computación)
entornos más duros
usuarios más inexpertos
incremento de los costes de mantenimiento
sistemas cada vez más complejos
FIABILIDAD (RELIABILITY), R(T)
* probabilidad condicional de que el sistema trabaje correctamente en el intervalo [t0, t], supuesto
que el sistema estaba trabajando correctamente en el tiempo t0
* infiabilidad Q(t) de un sistema es la probabilidad condicional de que el sistema falle en el intervalo
[t0, t], supuesto que el sistema estaba trabajando correctamente en el tiempo t0
* sistemas en los que incluso periodos momentáneos de funcionamiento incorrecto son inaceptables
* sistemas sin posibilidad de reparación
DISPONIBILIDAD (AVAILABILITY), A(T)
* probabilidad de que un sistema este operando correctamente y disponible para realizar sus funciones
en el instante de tiempo t
* un sistema puede ser altamente disponible experimentando periodos frecuentes de inoperabilidad, en
tanto que la duración de cada periodo sea suficientemente corta
* sistemas en los que el objetivo primario sea ofrecer servicios tan a menudo como sea posible
SEGURIDAD, S(T)
* probabilidad de que un sistema realice correctamente su función o deje de operar de manera que
no interfiera con la operación de otros sistemas o comprometa la seguridad de las personas relacionas
con el sistema
MANTENIBILIDAD, M(T)
* probabilidad de que un sistema que ha fallado sea restaurado a un estado operativo dentro de un
periodo de tiempo t
* el proceso de restauración incluye la localización del problema, la reparación fÍsica del problema
y la vuelta a su estado operativo original
TESTABILIDAD
* facilidad con la que ciertos atributos de un sistema pueden ser testado
Confiabilidad (Dependability)
* relaciona los conceptos anteriores
* calidad de servicio proporcionada por un sistema
Distintos requerimientos segun las aplicaciones:
LARGA DURACIÓN
* vuelos espaciales no tripulados, satélites
* R(10 años) = 0.95
* permite periodos largos de inoperatividad
* STAR/ Voyager
CÁLCULOS CRÍTICOS
* sistemas de control de vuelo, militares, ciertos controladores
industriales
* Q(10 horas) = 10-9 R(3 horas) = 0.97
* August System CS3001 / A129 IMS
* mantenimiento programado
APLAZAMIENTO DEL MANTENIMIENTO
* sistemas en localizaciones remotas, telefonía
* las operaciones de mantenimiento son
extremadamente costosas
ALTA DISPONIBILIDAD
* sistemas transacciones, de reservas de
billetes
* alta probabilidad de recibir el servicio
cuando se requiere
* Tandem / Stratus
Fallo Latente: un fallo presente en el sistema y que todavía no ha producido un error
Latencia de fallo: tiempo entre la ocurrencia de un fallo y la aparición de un error debido a ese fallo
Latencia de error: tiempo entre la ocurrencia de un error y la aparición del malfuncionamiento
resultante
No todos los fallos producen errores
No todos los errores dan lugar a malfuncionamientos
Distintos estudios de Sistemas de Computación demuestran:
Los sistemas fallan por numerosas razones incluyendo fallo del hardware, diseño incorrecto
del hardware o del software, operación o mantenimiento inadecuado y entornos
inestables
La probabilidad de error se distribuye sobre este espectro sin una única causa dominante
Existen evidencias de que los fallos transitorios/intermitentes son más frecuentes
La tolerancia a fallos implica REDUNDANCIA recursos adicionales a los estrictamente necesarios
para la operación normal del sistema
La redundancia introducida incrementa el coste del sistema. Es importante elegir adecuadamente
el tipo de recurso adicional
Los computadores tolerantes a fallos aplican una combinación de distintos tipos de redundancia:
hardware, software, información y tiempo y en distintos niveles: nivel físico, nivel sistema
operativo, (nivel aplicación)
La asignatura se centra en el nivel físico
No hay comentarios:
Publicar un comentario