Cтраница 2
![]() |
Системные отказы и коэффициент, обратный коэффициенту обслужи. [16] |
В табл. 5.1 приведены данные о среднем времени между системными отказами, среднем времени простоя на отказ системы и коэффициенте, обратном коэффициенту обслуживаемости, для ряда вычислительных систем у различных потребителей. Значения даны отдельно для базовой конфигурации системы ( процессор ОЗУ), для остальной аппаратуры и для программного обеспечения. Все данные приведены для семейства от сравнительно больших процессоров до больших с хорошо отлаженным программным обеспечением и расположены в порядке убывания вычислительной мощности. Последние четыре системы созданы для примерно одинаковых целей. [17]
Рассмотренная система обеспечивает очень высокую степень защиты файлов и малую вероятность их потери, хотя при системном отказе могут быть не приняты приходящие сообщения. Для преодоления этих недостатков обычно применяется процедура восстановления, заключающаяся в повторении всеми терминалами передачи их последних сообщений. Поскольку процессоры действуют почти идентичным образом, ошибки программного обеспечения, скорее всего, приводят к прекращению работы обоих процессоров, однако время восстановления должно быть значительно меньше. Устройства переключения и общая шина ЗУ также являются источником риска потери информации, однако обычно они чрезвычайно надежны. [18]
На этом отрезке времени заметно сильное влияние выпуска новой версии программного обеспечения, что расширяет диапазон разбросов интенсивности системных отказов; отказы программного обеспечения также ведут к значительному кратковременному ухудшению обслуживаемости. [19]
Однако различия в конечной безотказности двух рассматриваемых систем значительно большие, чем при рассмотрении отказов компонентов, что свидетельствует о различной безотказности отдельных процессоров по отношению к системным отказам в конце рассматриваемого интервала времени. [20]
В некоторых случаях такое разделение ответственности становится очень трудным, например при ошибке в программах восстановления, когда аппаратурный отказ, который в нормальных условиях мог бы быть восстановлен, ведет к системному отказу. Другой пример, когда ошибка в программном обеспечении не позволяет выполнить испытательную программу проверки периферийного оборудования. [21]
![]() |
Отказы, дающие необнаруженные ошибки. [22] |
Системные отказы являются признаками или следствиями неисправностей или ошибок, но имеются и другие отказы, последствия которых могут быть более серьезные, такие как выдача ложного результата без какой-либо индикации этого или нарушение защиты данных, допускающее несанкционированный доступ к данным. Другие события, связанные с периферийными устройствами, могут вызвать разрушение носителя информации, в то же время существует много других событий, последствия которых менее серьезны, вызывающие лишь незначительные функциональные отклонения. Чтобы выявить возможные последствия различных событий, полезно рассмотреть признаки неисправностей. [23]
![]() |
Ранние отказы большого процессора 1-го типа.| Ранние отказы большого процессора 2-го типа после передачи пользователю. [24] |
На рис. 2.3 показано поведение большой системы 3-го типа на этапе появления ранних дефектов. Приведены данные о ежемесячных системных отказах по наблюдениям за 30 установленными системами. [25]
Для каждого класса систем указаны минимальный и максимальный объемы, чтобы отразить средние характеристики конкурирующих систем, обладающих примерно одинаковыми возможностями. В таблице также приведены значения средней интенсивности системных отказов на протяжении 1-го года от момента поставки первым пользователям. Подобные значения интенсивности могли бы быть приняты для систем программного обеспечения различных объемов, поскольку так же, как ранее указывалось при обсуждении безотказности процессоров, более крупные системы могут быть надежнее малых систем с теми же возможностями и характеристиками. В этой же таблице приведены относительные объемы и значения безотказности управляющих программ, входящих в состав программного обеспечения по управлению контроллерами периферийных устройств и процессорами связи. [26]
Характер использования однотипных вычислительных систем с отлаженным программным обеспечением оказывает большее влияние на безотказность аппаратурной части, чем на безотказность программного обеспечения. В табл. 5.2 приведено среднее время между системными отказами и коэффициент, обратный коэффициенту обслуживаемости, по аппаратуре и программному обеспечению для восьми систем одного типа. Для аппаратуры различия в безотказности достигают 10-кратной величины, а в указанном коэффициенте, обратном коэффициенту обслуживаемости, - в 3 6 раза. Несовпадение этих различий связано с тем, что инженер ( или пользователь) может оказывать влияние на число регистрируемму отказов. В одних случаях он анализирует все события, что ведет к повышению среднего времени между системными отказами, но в то же время увеличивает общее время простоя системы. [27]
![]() |
Изменение во времени числа системных отказов, вызванных программными ошибками, после первой поставки большой операционной системы. [28] |
На рис. 5.7 приведена характеристика другой операционной системы за 2 5 года. Данные соответствуют не первой версии операционной системы и отражают среднюю интенсивность системных отказов. [29]
Можно привести примеры, когда отказы аппаратуры вызывали столько же или больше системных отказов, чем программные ошибки, и часто давали большие простои. Последнее связано с тем, что ошибки в аппаратурной части могут потребовать значительного времени исследования, в то время как большая часть времени простоя из-за программного обеспечения определяется затратами на восстановление вычислительного процесса. [30]