Cтраница 3
Для системы в целом целесообразно ввести еще одну меру - число событий на один системный отказ, косвенно характеризующую отказоустойчивость системы. В этом случае отказоустойчивость системы такова, что позволяет сохранять систему работоспособной до периодов планового обслуживания, когда проводятся исследования причин отказов и восстановление системы. [31]
На рис. 3.1 показано соотношение между отказами системы и нагрузкой центрального процессора для ряда процессоров одного и того же типа с примерно одинаковым временем работы в течение месяца. Эти данные свидетельствуют о снижении безотказности по мере увеличения нагрузки. Помимо средних значений на рис. 3.1 приведены диапазоны числа системных отказов за 6-месячные периоды, откуда видно, что средние значения представительны в статистическом смысле. [32]
![]() |
Число отказов на месяц. [33] |
Сравнение этих данных с реальными показывает влияние перемежающихся отказов. Для 17 мес была предсказана безотказная работа, и это значение совпало с наблюдаемым. Зато другие рассчитанные значения не совпали с реальными, например получено 11 7 мес с 1 системным отказом, на самом деле их оказалось 5, в остальные месяцы было по 2, 3, 4, 5 или 6 системных отказов. [34]
Сравнение этих данных с реальными показывает влияние перемежающихся отказов. Для 17 мес была предсказана безотказная работа, и это значение совпало с наблюдаемым. Зато другие рассчитанные значения не совпали с реальными, например получено 11 7 мес с 1 системным отказом, на самом деле их оказалось 5, в остальные месяцы было по 2, 3, 4, 5 или 6 системных отказов. [35]
На рис. 5.7 раздельно приведены системные отказы, вызываемые аппаратурными отказами и программными ошибками на отрезке в 2 5 года. За исключением одного экстремального значения, вызванного введением процессора новой модификации, можно видеть, что общая тенденция поведения аппаратурных и программных отказов совпадает. Это свидетельствует о том, что некоторые из отказов, возможно, классифицированы неправильно, или что введение нового программного обеспечения вызывало проявление новых аппаратурных отказов, или что иногда причиной такой зависимости могут быть дополнительные модификации системы. Следует подчеркнуть, что обычно системные отказы из-за аппаратуры доставляют большие трудности по их ликвидации, чем программные. Не следует забывать, что здесь приведены лишь средние данные по семейству систем. [36]
Регистрация истории системы, собранная за несколько лет для одной из довольно просто ремонтируемых систем, а в настоящее время проводимая и в других системах, представляет собой запись последних 30 операций, выполненных до появления отказа, в том числе запись выполненных функций и использованных данных. В случае обнаружения отказа эта запись может быть выведена в системный журнал ошибок. Затем такая последовательность вводится в тестовые программы для воспроизведения последовательности выполнявшихся функций или наборов данных, на которых был зарегистрирован отказ. Регистрация истории, ведущаяся параллельно нормальному функционированию, не обязательно снижает надежность работы системы и может быть использована для повышения эффективности средств повторения или идентификации системных отказов, вызванных отказами программного обеспечения. [37]
Характер использования однотипных вычислительных систем с отлаженным программным обеспечением оказывает большее влияние на безотказность аппаратурной части, чем на безотказность программного обеспечения. В табл. 5.2 приведено среднее время между системными отказами и коэффициент, обратный коэффициенту обслуживаемости, по аппаратуре и программному обеспечению для восьми систем одного типа. Для аппаратуры различия в безотказности достигают 10-кратной величины, а в указанном коэффициенте, обратном коэффициенту обслуживаемости, - в 3 6 раза. Несовпадение этих различий связано с тем, что инженер ( или пользователь) может оказывать влияние на число регистрируемму отказов. В одних случаях он анализирует все события, что ведет к повышению среднего времени между системными отказами, но в то же время увеличивает общее время простоя системы. [38]